科学家揭示深度神经网络的线性性质,助力催生更优的模型融合算法插值预训练大语言模型

近年来,尽管深度学习取得了巨大成功,但是人们对其理论的理解仍然滞后。

虽然在深度学习中使用的损失函数,通常被视为高维复杂黑盒函数,但是人们相信这些函数特别是在实际训练轨迹中遇到的部分,包含着复杂的良性结构,能够有效促进基于梯度的优化过程。

就像许多其他科学学科一样,构建深度学习理论的关键一步,在于理解从实验中发现的不平凡现象,从而阐明其潜在的机制。

最近,领域内学者发现了一个引人注目的现象——ModeConnectivity。

即通过两次独立梯度优化得到的不同最优点,在参数空间中可以通过简单的路径相连,而路径上的损失或准确率几乎保持恒定。

这一现象毫无疑问是令人惊讶的,因为非凸函数的不同最优点,很可能位于不同且孤立的“山谷”中。

但是,对于在实践中找到的最优点来说,它们身上却没有发生这种情况。

更有趣的是,一些研究者发现了比ModeConnectivity更强的LinearModeConnectivity。

针对LinearModeConnectivity的研究表明,不同的最优点可以通过线性路径相连。

尽管两个完全独立的网络通常不会满足LinearModeConnectivity,但可以通过两种方式获得满足LinearModeConnectivity的网络:

第一个网络是SpawningMethod。

当网络从初始化开始,训练少量epoch以后,将参数复制一份,借此得到两个网络。然后,这两个网络继续在不同的随机性下进行独立训练。

第二个网络是PermutationMethod。

即首先独立训练两个网络,随后重新排列其中一个网络的神经元,以匹配另一个网络的神经元。

在此前一项工作中,上海交通大学周展鹏博士和上海人工智能实验室的合作者,希望从特征学习的角度解释LinearModeConnectivity。

并提出这样一个问题:当线性插值两个经过训练的网络的权重时,内部特征会发生什么变化?

通过研究他们发现,几乎所有层中的特征也满足一种强形式的线性连接:即权重插值网络中的特征图,与两个原始网络中特征图的线性插值近似相同。

他们将这个现象称之为LayerwiseLinearFeatureConnectivity。

此外,他们发现:LayerwiseLinearFeatureConnectivity总是和LinearModeConnectivity同时发生。

并证明了这一规律:如果两个在相同的数据集上训练的模型满足LayerwiseLinearFeatureConnectivity,那么它们也能同时满足LinearModeConnectivity。

进一步地,课题组深入研究了产生LayerwiseLinearFeatureConnectivity的原因。

并确定了两个关键条件:即ReLU函数的弱可加性和两个经过训练的网络之间的可交换性属性。

从这两个条件出发,他们证明得到了ReLU网络中的LayerwiseLinearFeatureConnectivity,并用实验验证了这两个条件。

同时,他们还证明:PermutationMethod是通过让两个网络满足可交换性,从而使得它们能够满足LinearModeConnectivity的。

总的来说,课题组发现了一种比LinearModeConnectivity更具细粒度、更能够满足神经网路的线性性质。

不过,上述发现都是基于在同一个数据集上训练得到的网络。

于是,他们提出了一个新问题:LayerwiseLinearFeatureConnectivity能否在两个在不同数据集上训练的模型上成立?

只不过,SpawningMethod中的模型在相同数据集上继续训练,而微调中的模型可以在不同数据集上训练。

在近期一项工作中,他们发现在预训练-微调的范式下,不同的微调模型之间也满足LayerwiseLinearFeatureConnectivity的性质,课题组将其称之为Cross-TaskLinearity。

其发现:在预训练-微调的范式下,网络实际上更近似于一个从参数空间到特征空间的线性映射。

即Cross-TaskLinearity将LayerwiseLinearFeatureConnectivity的定义,扩展到了不同数据集上训练的模型上。

有趣的是,该团队还使用Cross-TaskLinearity的发现,来解释了两种常见的模型融合的技术:

其一,ModelAveraging取多个模型在相同数据集上、但使用不同超参数配置微调的权重的平均值,借此可以提高准确性和鲁棒性。

研究中,课题组权重的平均解释为在每一层特征的平均,从而建立了ModelAveraging和模型集成之间的紧密联系,进而解释了ModelAveraging的有效性。

其二,只需通过简单的算术操作,TaskArithmetic就能合并在不同任务上微调的模型的权重,从而相应地控制模型的行为。

研究中,该团队将参数空间中的算术操作转化为特征空间中的操作,借此从特征学习的角度解释了TaskArithmetic。

随后,他们探究了Cross-TaskLinearity产生的条件,发现了预训练对于Cross-TaskLinearity的重要性。

实验结果显示:从预训练阶段获得的共同知识,有助于满足Cross-TaskLinearity的要求。

研究中,其还初步尝试证明Cross-TaskLinearity,并发现Cross-TaskLinearity的出现与NetworkLandscape的flatness以及两个微调模型之间权重的差距有关。

课题组表示:希望本次发现能启发更好的模型融合算法。

未来,如果需要构建多能力的微调大模型,大模型融合将会成为核心技术之一。而本次工作为大模型融合提供了扎实的实验和理论支撑,能够启发更好的大模型融合算法。

接下来,他们希望从TrainingDynamics的角度理解LinearModeConnectivity、LayerwiseLinearFeatureConnectivity、以及Cross-TaskLinearity。

尽管他们已经从特征层面得到了一些解释,但是仍然无法从第一性原理的角度解释LinearModeConnectivity。

例如,为什么SpawningMethod中只需要先训练少量epoch,就可以最终得到两个满足LinearModeConnectivity的模型?

以及,该如何预测这样一个SpawningTime?要想回答这些问题,就需要从训练和优化的角度理解LinearModeConnectivity,而这也是该团队的后续努力方向。

参考资料:

1.Zhou,Z.,Chen,Z.,Chen,Y.,Zhang,B.,&Yan,J.OntheEmergenceofCross-TaskLinearityinPretraining-FinetuningParadigm.InForty-firstInternationalConferenceonMachineLearning.

运营/排版:何晨龙

01/港城大团队开发新型纳米层状膜,可用于特殊场景的淡水处理,为二维材料应用寻找突破口

02/数十年化学难题给出可信解答,科学家提出氯化氢溶解形成盐酸微观新机理,将推动多个学科的发展

03/科学家打造量子传感操控新方法,能准确检测微弱信号,可用于探测和操控单个核自旋

05/动态强度达14GPa,北大团队成功开发超强碳纳米管纤维,可用作轻质高性能结构和防护材料

THE END
1.机器学习:神经网络(一)腾讯云开发者社区神经网络的本质:重新观察上述的神经网络模型,如果遮掉第一层,将第二层作为输入层,可以发现,这本质就是一个逻辑回归模型。这时我们就可以发现,神经网络的本质就是逻辑回归模型的套娃,每一层都会做若干次的逻辑回归,并将输出作为下一层的输入,然后下一层再利用上一次逻辑回归的结果进行逻辑回归得到结果再传给下一层,https://cloud.tencent.com/developer/article/2110797
2.一文看懂深度学习(白话解释+8个优缺点+4个典型算法)深度学习有很好的表现,引领了第三次人工智能的浪潮。目前大部分表现优异的应用都用到了深度学习,大红大紫的 AlphaGo 就使用到了深度学习。 本文将详细的给大家介绍深度学习的基本概念、优缺点和主流的几种算法。 深度学习、神经网络、机器学习、人工智能的关系 https://easyai.tech/ai-definition/deep-learning/
3.机器学习研究者必知的八个神经网络架构机器之心使用受大脑启发的新颖学习算法来解决实际问题:即使不是大脑的实际工作方式,学习算法也非常有用。 在完成吴恩达的 Coursera 机器学习课程后,我开始对神经网络和深度学习产生兴趣,因此寻找最好的网上资源来了解这个主题,并找到了 Geoffrey Hinton 的机器学习神经网络课程。如果你正在做深度学习的工程或想要踏入深度学习/机器https://www.jiqizhixin.com/articles/2018-02-07-4
4.机器学习——神经网络简单了解神经网络学习之机器学习基础机器学习——神经网络简单了解 本文介绍了神经网络的基本概念,包括生物神经网络和人工神经网络,重点讲解了M-P模型、感知机模型、BP神经网络的发展,以及卷积神经网络(CNN)和循环神经网络(RNN)在深度学习中的应用,强调了它们在图像处理、序列数据处理和时间依赖性任务中的优势。https://blog.csdn.net/2301_79376014/article/details/136951549
5.机器学习深度学习和神经网络之间的区别和联系python架构:机器学习基于统计模型。神经网络和深度学习架构只是非常大和更复杂的统计模型,并使用许多相互连接的节点。 算法:深度学习算法与其他机器学习算法的区别在于它们使用具有多层的深度神经网络,这使得网络能够在不需要显式特征工程的情况下学习数据中复杂和抽象的关系。 https://www.jb51.net/python/316268muf.htm
6.机器学习算法之神经网络机器学习算法之神经网络 收藏 在学习了机器学习的相关知识以后,我们知道其中的算法有很多种,比如回归算法、K近邻算法等等,这些都是需要大家掌握的算法,而神经网络算法是一个十分实用的算法,在这篇文章中我们就给大家介绍一下机器学习算法中的神经网络算法知识。http://api.cda.cn/view/26783.html
7.机器学习(深度)神经网络通常神经网络的隐层越多,计算结果越准确。拥有较多隐层的神经网络称为深度神经网络,使用了深度神经网络的机器学习,称为深度学习。 不同于传统的分类系统先提取特征再用特征分类,深度神经网络将两个环节直接结合在了一起。 卷积层(convolutional layer) 含有卷积层的深度神经网络,也称卷积神经网络(convolutional neural https://www.jianshu.com/p/58d03bb5e3a3
8.五大机器学习范例:神经网络遗传算法规则归纳?51CTO博客下面列出了五大机器学习(ML)范例。 (1)神经网络。 (2)基于案例推理。 (3)遗传算法。 (4)规则归纳。 (5)分析学习[2] 。 隐喻就是打比方,将两个事实上不同的事物进行互相对比,找出共同点。因此,第二个事物的属性就可以转移到第一个事物中。例如:“他像马一样吃饭。” https://blog.51cto.com/u_13127751/5148045
9.《深度学习基础与实践》([美]乔希·帕特森(JoshPatterson人工智能AI机器学习神经网络教程图书 从理论到应用 深度探究深度学习 构建生产级深度学习工作流 作者:[美] 乔希·帕特森(Josh Patterson)、[美] 亚当·吉布森(A出版社:人民邮电出版社出版时间:2019年07月 手机专享价 ¥ 当当价 降价通知 ¥88.50 定价 ¥119.00 电子书价 ¥59.00 配送http://product.dangdang.com/27911457.html
10.17个机器学习的常用算法人工神经网络是机器学习的一个庞大的分支,有几百种不同的算法。(其中深度学习就是其中的一类算法,我们会单独讨论),重要的人工神经网络算法包括:感知器神经网络(Perceptron Neural Network),反向传递(Back Propagation),Hopfield网络,自组织映射(Self-Organizing Map, SOM)。学习矢量量化(Learning Vector Quantization,LVQhttps://aidc.shisu.edu.cn/78/aa/c13626a161962/page.htm