科学家揭示深度神经网络的线性性质,助力催生更优的模型融合算法插值预训练大语言模型

近年来,尽管深度学习取得了巨大成功,但是人们对其理论的理解仍然滞后。

虽然在深度学习中使用的损失函数,通常被视为高维复杂黑盒函数,但是人们相信这些函数特别是在实际训练轨迹中遇到的部分,包含着复杂的良性结构,能够有效促进基于梯度的优化过程。

就像许多其他科学学科一样,构建深度学习理论的关键一步,在于理解从实验中发现的不平凡现象,从而阐明其潜在的机制。

最近,领域内学者发现了一个引人注目的现象——ModeConnectivity。

即通过两次独立梯度优化得到的不同最优点,在参数空间中可以通过简单的路径相连,而路径上的损失或准确率几乎保持恒定。

这一现象毫无疑问是令人惊讶的,因为非凸函数的不同最优点,很可能位于不同且孤立的“山谷”中。

但是,对于在实践中找到的最优点来说,它们身上却没有发生这种情况。

更有趣的是,一些研究者发现了比ModeConnectivity更强的LinearModeConnectivity。

针对LinearModeConnectivity的研究表明,不同的最优点可以通过线性路径相连。

尽管两个完全独立的网络通常不会满足LinearModeConnectivity,但可以通过两种方式获得满足LinearModeConnectivity的网络:

第一个网络是SpawningMethod。

当网络从初始化开始,训练少量epoch以后,将参数复制一份,借此得到两个网络。然后,这两个网络继续在不同的随机性下进行独立训练。

第二个网络是PermutationMethod。

即首先独立训练两个网络,随后重新排列其中一个网络的神经元,以匹配另一个网络的神经元。

在此前一项工作中,上海交通大学周展鹏博士和上海人工智能实验室的合作者,希望从特征学习的角度解释LinearModeConnectivity。

并提出这样一个问题:当线性插值两个经过训练的网络的权重时,内部特征会发生什么变化?

通过研究他们发现,几乎所有层中的特征也满足一种强形式的线性连接:即权重插值网络中的特征图,与两个原始网络中特征图的线性插值近似相同。

他们将这个现象称之为LayerwiseLinearFeatureConnectivity。

此外,他们发现:LayerwiseLinearFeatureConnectivity总是和LinearModeConnectivity同时发生。

并证明了这一规律:如果两个在相同的数据集上训练的模型满足LayerwiseLinearFeatureConnectivity,那么它们也能同时满足LinearModeConnectivity。

进一步地,课题组深入研究了产生LayerwiseLinearFeatureConnectivity的原因。

并确定了两个关键条件:即ReLU函数的弱可加性和两个经过训练的网络之间的可交换性属性。

从这两个条件出发,他们证明得到了ReLU网络中的LayerwiseLinearFeatureConnectivity,并用实验验证了这两个条件。

同时,他们还证明:PermutationMethod是通过让两个网络满足可交换性,从而使得它们能够满足LinearModeConnectivity的。

总的来说,课题组发现了一种比LinearModeConnectivity更具细粒度、更能够满足神经网路的线性性质。

不过,上述发现都是基于在同一个数据集上训练得到的网络。

于是,他们提出了一个新问题:LayerwiseLinearFeatureConnectivity能否在两个在不同数据集上训练的模型上成立?

只不过,SpawningMethod中的模型在相同数据集上继续训练,而微调中的模型可以在不同数据集上训练。

在近期一项工作中,他们发现在预训练-微调的范式下,不同的微调模型之间也满足LayerwiseLinearFeatureConnectivity的性质,课题组将其称之为Cross-TaskLinearity。

其发现:在预训练-微调的范式下,网络实际上更近似于一个从参数空间到特征空间的线性映射。

即Cross-TaskLinearity将LayerwiseLinearFeatureConnectivity的定义,扩展到了不同数据集上训练的模型上。

有趣的是,该团队还使用Cross-TaskLinearity的发现,来解释了两种常见的模型融合的技术:

其一,ModelAveraging取多个模型在相同数据集上、但使用不同超参数配置微调的权重的平均值,借此可以提高准确性和鲁棒性。

研究中,课题组权重的平均解释为在每一层特征的平均,从而建立了ModelAveraging和模型集成之间的紧密联系,进而解释了ModelAveraging的有效性。

其二,只需通过简单的算术操作,TaskArithmetic就能合并在不同任务上微调的模型的权重,从而相应地控制模型的行为。

研究中,该团队将参数空间中的算术操作转化为特征空间中的操作,借此从特征学习的角度解释了TaskArithmetic。

随后,他们探究了Cross-TaskLinearity产生的条件,发现了预训练对于Cross-TaskLinearity的重要性。

实验结果显示:从预训练阶段获得的共同知识,有助于满足Cross-TaskLinearity的要求。

研究中,其还初步尝试证明Cross-TaskLinearity,并发现Cross-TaskLinearity的出现与NetworkLandscape的flatness以及两个微调模型之间权重的差距有关。

课题组表示:希望本次发现能启发更好的模型融合算法。

未来,如果需要构建多能力的微调大模型,大模型融合将会成为核心技术之一。而本次工作为大模型融合提供了扎实的实验和理论支撑,能够启发更好的大模型融合算法。

接下来,他们希望从TrainingDynamics的角度理解LinearModeConnectivity、LayerwiseLinearFeatureConnectivity、以及Cross-TaskLinearity。

尽管他们已经从特征层面得到了一些解释,但是仍然无法从第一性原理的角度解释LinearModeConnectivity。

例如,为什么SpawningMethod中只需要先训练少量epoch,就可以最终得到两个满足LinearModeConnectivity的模型?

以及,该如何预测这样一个SpawningTime?要想回答这些问题,就需要从训练和优化的角度理解LinearModeConnectivity,而这也是该团队的后续努力方向。

参考资料:

1.Zhou,Z.,Chen,Z.,Chen,Y.,Zhang,B.,&Yan,J.OntheEmergenceofCross-TaskLinearityinPretraining-FinetuningParadigm.InForty-firstInternationalConferenceonMachineLearning.

运营/排版:何晨龙

01/港城大团队开发新型纳米层状膜,可用于特殊场景的淡水处理,为二维材料应用寻找突破口

02/数十年化学难题给出可信解答,科学家提出氯化氢溶解形成盐酸微观新机理,将推动多个学科的发展

03/科学家打造量子传感操控新方法,能准确检测微弱信号,可用于探测和操控单个核自旋

05/动态强度达14GPa,北大团队成功开发超强碳纳米管纤维,可用作轻质高性能结构和防护材料

THE END
1.练习构建和训练神经网络现在,调用fit函数来训练神经网络: Python hist = model.fit(x_train, y_train, validation_data=(x_test, y_test), epochs=5, batch_size=128) 训练大约需要 6 分钟,或每个时期需要 1 分钟以上。epochs=5告诉 Keras 通过模型执行 5 次向前和向后传递。 凭借每次传递,模型将从训练数据中学习并使用测https://docs.microsoft.com/zh-cn/learn/modules/analyze-review-sentiment-with-keras/2-build-and-train-a-neural-network/
2.迁移学习与在线学习(1)而要入门深度学习,CNN和RNN作为最常用的两种神经网络是必学的。网上关于深度学习的资料很多,但大多知识点分散、内容不系统,或者以理论为主、代码实操少,造成学员学习成本高。本门课程将从最基础的神经元出发,对深度学习的基础知识进行全面讲解,帮助大家迅速成为人工智能领域的入门者,是进阶人工智能深层领域的基石。https://download.csdn.net/learn/30851/457657
3.BrilliantBrilliant是一个在线学习平台,提供Introduction to Neural Networks课程介绍神经网络知识,让学生理解神经网络的基础知识,学习构建和调节神经网络,并应用神经网络解决实际问题。 Introduction to Neural Networks是Brilliant平台上的一门神经网络入门课程。这门课程面向初学者,介绍神经网络的基本概念、模型与算法。学习者可以在这https://www.aizhinan.cn/tools/2320.html
4.在线深度学习:在数据流中实时学习深度神经网络机器之心在线深度学习:在数据流中实时学习深度神经网络 在线深度学习的主要困难是模型的容量、复杂度等设置很不灵活,即模型是静态的,而数据流是动态的。本论文提出了一种适应性的网络框架,结合 HBP 算法,使网络结构能随着数据的流入而逐渐扩展、复杂化。这使得模型同时拥有在线学习和深度学习的优点,并在多种在线学习模型和https://www.jiqizhixin.com/articles/2017-12-30
5.在线网课学习课堂《神经网络理论及应用(北工商)》单元测试考核在线网课学习课堂《神经网络理论及应用(北工商)》单元测试考核答案.docx,注:不含主观题 第1题 判断题 (1分) 人工神经元是一个多输入、多输出的信息处理单元 第2题 判断题 (1分) 人工神经元数学模型决定该节点本身的信息处理能力 第3题 单选题 (1分) 人工神经网络的激活函数https://max.book118.com/html/2022/0429/8132040142004075.shtm
6.在线学习课堂网课《机器学习初步(南京)》单元测试考核答案(1分) BP算法的每一轮采用的是什么学习规则? A 广义感知机学习规则B 广义最小二乘学习规则C 广义决策树学习规则D 广义支持向量机学习规则 第3题 填空题 (1分) BP算法的全称为___(7个字)。 神经网络-章节测试 第1题 单选题 (1分) 下列关于BP算法使用小步长优化神经网络的说法中正确的是哪个? A 一定https://www.ddwk123.cn/archives/654288
7.2什么是神经网络(机器学习)易学在线课堂1 人学习 手机版扫码 扫码访问手机版 课程目录 学员 1、科普: 人工神经网络 VS 生物神经网络04:39 学员 2、什么是神经网络 (机器学习)00:00 学员 3、神经网络 : 梯度下降 (Gradient Descent in Neural Nets)04:07 学员 4、科普: 神经网络的黑盒不黑04:55 学员 5、1 why?01:13 学员 6、2 安装 (https://bbs.easyaiforum.cn/lesson-2863.html
8.记忆工场Memoryer神经网络背单词软件下载背单词软件背单词软件脑与神经科学家、认知心理学家与人工智能专家 让我们一起来探究人类大脑认知与记忆的奥秘 开启神经网络学习的奇幻之旅 Memoryer 记忆者 全新一代单词记忆软件 点击查看 脑语者 全新一代语法学习软件 点击查看 记忆手册 了解您的大脑,理解您的记忆机理 点击查看 https://www.memoryer.com/
9.第五章神经网络(周志华机器学习)学习总结而解决非线性可分的问题(如异或问题),需要考虑使用多层功能神经元。 5、多层网络 5.1 什么是多层网络 多层网络:只需要包含隐层,即可称为多层网络。 神经网络的学习过程,就是根据训练数据来调整神经元之间的连接权(connection weight)以及每个功能的阈值,换言之,神经网络“学”到的东西,蕴涵在连接权和阈值中。 https://www.jianshu.com/p/1b1bf5fc0422
10.学习笔记:神经网络学习算法腾讯云开发者社区主流的神经网络学习算法(或者说学习方式)可分为三大类:有监督学习(SupervisedLearning)、无监督学习(Unsupervised Learning)和强化学习(Reinforcement Learning),如下图所示。 注:有监督学习、无监督学习和强化学习并不是某一种特定的算法,而是一类算法的统称。 https://cloud.tencent.com/developer/article/1610502
11.神经网络与深度学习特别是最近这几年,得益于数据的增多、计算能力的增强、学习算法的成熟以及应用场景的丰富,越来越多的人开始关注这个“崭新”的研究领域:深度学习。深度学习以神经网络为主要模型,一开始用来解决机器学习中的表示学习问题。但是由于其强大的能力,深度学习越来越多地用来解决一些通用人工智能问题,比如推理、决策等。目前,http://nndl.github.io/
12.数据驱动的精准化学习评价机制与方法Li等(2020)利用神经网络对采集到的学生课堂学习图像数据和学习轨迹进行分析,以判断学生在学习过程中的参与度。Chan等 (2020)利用深度学习技术分析学习过程中产生的多模态数据,对学生的情感态度、学业投入、课堂专注等进行量化评价,进而分析学习者的学习动机。https://www.fx361.com/page/2021/0226/7597189.shtml
13.大数据机器学习清华大学4.条件随机场的学习算法 5.条件随机场的预测算法 17第十七章 概率图模型的学习与推断 开头 1.精确推断法:变量消去法和信念传播法 2.近似推断法:MCMC和变分推断 18第十八章 神经网络和深度学习 1.神经网络的发展历程 2.神经网络的基本概念以及常见的神经网络(一) https://www.xuetangx.com/courses/course-v1:TsinghuaX+70240403+2019_T1/about
14.AI深度强化学习落地方法七步曲2——状态空间篇回报函数篇如果我们提前对原始信息做些二次加工,人为提炼出与学习目标更相关的因素,相当于替神经网络干了一部分活儿,虽然不那么elegant,但往往能收到奇效。举个极端例子,直接告诉agent钥匙的相对坐标在哪儿,一定比神经网络通过原始图像更容易学到吃钥匙的操作。由于强化学习的优化目标是折扣累加的长期收益,这使得reward起作用的https://www.shangyexinzhi.com/article/4228946.html