科学家揭示深度神经网络的线性性质，助力催生更优的模型融合算法插值预训练大语言模型|神经网络在线学习_在线学习

近年来，尽管深度学习取得了巨大成功，但是人们对其理论的理解仍然滞后。

虽然在深度学习中使用的损失函数，通常被视为高维复杂黑盒函数，但是人们相信这些函数特别是在实际训练轨迹中遇到的部分，包含着复杂的良性结构，能够有效促进基于梯度的优化过程。

就像许多其他科学学科一样，构建深度学习理论的关键一步，在于理解从实验中发现的不平凡现象，从而阐明其潜在的机制。

最近，领域内学者发现了一个引人注目的现象——ModeConnectivity。

即通过两次独立梯度优化得到的不同最优点，在参数空间中可以通过简单的路径相连，而路径上的损失或准确率几乎保持恒定。

这一现象毫无疑问是令人惊讶的，因为非凸函数的不同最优点，很可能位于不同且孤立的“山谷”中。

但是，对于在实践中找到的最优点来说，它们身上却没有发生这种情况。

更有趣的是，一些研究者发现了比ModeConnectivity更强的LinearModeConnectivity。

针对LinearModeConnectivity的研究表明，不同的最优点可以通过线性路径相连。

尽管两个完全独立的网络通常不会满足LinearModeConnectivity，但可以通过两种方式获得满足LinearModeConnectivity的网络：

第一个网络是SpawningMethod。

当网络从初始化开始，训练少量epoch以后，将参数复制一份，借此得到两个网络。然后，这两个网络继续在不同的随机性下进行独立训练。

第二个网络是PermutationMethod。

即首先独立训练两个网络，随后重新排列其中一个网络的神经元，以匹配另一个网络的神经元。

在此前一项工作中，上海交通大学周展鹏博士和上海人工智能实验室的合作者，希望从特征学习的角度解释LinearModeConnectivity。

并提出这样一个问题：当线性插值两个经过训练的网络的权重时，内部特征会发生什么变化？

通过研究他们发现，几乎所有层中的特征也满足一种强形式的线性连接：即权重插值网络中的特征图，与两个原始网络中特征图的线性插值近似相同。

他们将这个现象称之为LayerwiseLinearFeatureConnectivity。

此外，他们发现：LayerwiseLinearFeatureConnectivity总是和LinearModeConnectivity同时发生。

并证明了这一规律：如果两个在相同的数据集上训练的模型满足LayerwiseLinearFeatureConnectivity，那么它们也能同时满足LinearModeConnectivity。

进一步地，课题组深入研究了产生LayerwiseLinearFeatureConnectivity的原因。

并确定了两个关键条件：即ReLU函数的弱可加性和两个经过训练的网络之间的可交换性属性。

从这两个条件出发，他们证明得到了ReLU网络中的LayerwiseLinearFeatureConnectivity，并用实验验证了这两个条件。

同时，他们还证明：PermutationMethod是通过让两个网络满足可交换性，从而使得它们能够满足LinearModeConnectivity的。

总的来说，课题组发现了一种比LinearModeConnectivity更具细粒度、更能够满足神经网路的线性性质。

不过，上述发现都是基于在同一个数据集上训练得到的网络。

于是，他们提出了一个新问题：LayerwiseLinearFeatureConnectivity能否在两个在不同数据集上训练的模型上成立？

只不过，SpawningMethod中的模型在相同数据集上继续训练，而微调中的模型可以在不同数据集上训练。

在近期一项工作中，他们发现在预训练-微调的范式下，不同的微调模型之间也满足LayerwiseLinearFeatureConnectivity的性质，课题组将其称之为Cross-TaskLinearity。

其发现：在预训练-微调的范式下，网络实际上更近似于一个从参数空间到特征空间的线性映射。

即Cross-TaskLinearity将LayerwiseLinearFeatureConnectivity的定义，扩展到了不同数据集上训练的模型上。

有趣的是，该团队还使用Cross-TaskLinearity的发现，来解释了两种常见的模型融合的技术：

其一，ModelAveraging取多个模型在相同数据集上、但使用不同超参数配置微调的权重的平均值，借此可以提高准确性和鲁棒性。

研究中，课题组权重的平均解释为在每一层特征的平均，从而建立了ModelAveraging和模型集成之间的紧密联系，进而解释了ModelAveraging的有效性。

其二，只需通过简单的算术操作，TaskArithmetic就能合并在不同任务上微调的模型的权重，从而相应地控制模型的行为。

研究中，该团队将参数空间中的算术操作转化为特征空间中的操作，借此从特征学习的角度解释了TaskArithmetic。

随后，他们探究了Cross-TaskLinearity产生的条件，发现了预训练对于Cross-TaskLinearity的重要性。

实验结果显示：从预训练阶段获得的共同知识，有助于满足Cross-TaskLinearity的要求。

研究中，其还初步尝试证明Cross-TaskLinearity，并发现Cross-TaskLinearity的出现与NetworkLandscape的flatness以及两个微调模型之间权重的差距有关。

课题组表示：希望本次发现能启发更好的模型融合算法。

未来，如果需要构建多能力的微调大模型，大模型融合将会成为核心技术之一。而本次工作为大模型融合提供了扎实的实验和理论支撑，能够启发更好的大模型融合算法。

接下来，他们希望从TrainingDynamics的角度理解LinearModeConnectivity、LayerwiseLinearFeatureConnectivity、以及Cross-TaskLinearity。

尽管他们已经从特征层面得到了一些解释，但是仍然无法从第一性原理的角度解释LinearModeConnectivity。

例如，为什么SpawningMethod中只需要先训练少量epoch，就可以最终得到两个满足LinearModeConnectivity的模型？

以及，该如何预测这样一个SpawningTime？要想回答这些问题，就需要从训练和优化的角度理解LinearModeConnectivity，而这也是该团队的后续努力方向。

参考资料：

1.Zhou,Z.,Chen,Z.,Chen,Y.,Zhang,B.,&Yan,J.OntheEmergenceofCross-TaskLinearityinPretraining-FinetuningParadigm.InForty-firstInternationalConferenceonMachineLearning.

运营/排版：何晨龙

01/港城大团队开发新型纳米层状膜，可用于特殊场景的淡水处理，为二维材料应用寻找突破口

02/数十年化学难题给出可信解答，科学家提出氯化氢溶解形成盐酸微观新机理，将推动多个学科的发展

03/科学家打造量子传感操控新方法，能准确检测微弱信号，可用于探测和操控单个核自旋

05/动态强度达14GPa，北大团队成功开发超强碳纳米管纤维，可用作轻质高性能结构和防护材料

THE END

科学家揭示深度神经网络的线性性质，助力催生更优的模型融合算法插值预训练大语言模型

科学家揭示深度神经网络的线性性质，助力催生更优的模型融合算法插值预训练大语言模型

Rinc.Group

机器学习神经网络与深度学习XuLin

BigjpgAI人工智能图片无损放大

基于深度卷积网络和在线学习跟踪的驾驶员打哈欠检测

Neuralnetworksanddeeplearning

科学家构建深度脉冲神经网络学习框架

图表示学习（GraphRepresentationLearning）

重磅完备的AI学习路线，最详细的资源整理！

TensorFlow机器学习资源TensorFlow中文官网

神经网络与深度学习西安科技大学

什么是AdamReLUYOLO？解释深度学习的一些常用术语