科学家揭示深度神经网络的线性性质,助力催生更优的模型融合算法插值预训练大语言模型

近年来,尽管深度学习取得了巨大成功,但是人们对其理论的理解仍然滞后。

虽然在深度学习中使用的损失函数,通常被视为高维复杂黑盒函数,但是人们相信这些函数特别是在实际训练轨迹中遇到的部分,包含着复杂的良性结构,能够有效促进基于梯度的优化过程。

就像许多其他科学学科一样,构建深度学习理论的关键一步,在于理解从实验中发现的不平凡现象,从而阐明其潜在的机制。

最近,领域内学者发现了一个引人注目的现象——ModeConnectivity。

即通过两次独立梯度优化得到的不同最优点,在参数空间中可以通过简单的路径相连,而路径上的损失或准确率几乎保持恒定。

这一现象毫无疑问是令人惊讶的,因为非凸函数的不同最优点,很可能位于不同且孤立的“山谷”中。

但是,对于在实践中找到的最优点来说,它们身上却没有发生这种情况。

更有趣的是,一些研究者发现了比ModeConnectivity更强的LinearModeConnectivity。

针对LinearModeConnectivity的研究表明,不同的最优点可以通过线性路径相连。

尽管两个完全独立的网络通常不会满足LinearModeConnectivity,但可以通过两种方式获得满足LinearModeConnectivity的网络:

第一个网络是SpawningMethod。

当网络从初始化开始,训练少量epoch以后,将参数复制一份,借此得到两个网络。然后,这两个网络继续在不同的随机性下进行独立训练。

第二个网络是PermutationMethod。

即首先独立训练两个网络,随后重新排列其中一个网络的神经元,以匹配另一个网络的神经元。

在此前一项工作中,上海交通大学周展鹏博士和上海人工智能实验室的合作者,希望从特征学习的角度解释LinearModeConnectivity。

并提出这样一个问题:当线性插值两个经过训练的网络的权重时,内部特征会发生什么变化?

通过研究他们发现,几乎所有层中的特征也满足一种强形式的线性连接:即权重插值网络中的特征图,与两个原始网络中特征图的线性插值近似相同。

他们将这个现象称之为LayerwiseLinearFeatureConnectivity。

此外,他们发现:LayerwiseLinearFeatureConnectivity总是和LinearModeConnectivity同时发生。

并证明了这一规律:如果两个在相同的数据集上训练的模型满足LayerwiseLinearFeatureConnectivity,那么它们也能同时满足LinearModeConnectivity。

进一步地,课题组深入研究了产生LayerwiseLinearFeatureConnectivity的原因。

并确定了两个关键条件:即ReLU函数的弱可加性和两个经过训练的网络之间的可交换性属性。

从这两个条件出发,他们证明得到了ReLU网络中的LayerwiseLinearFeatureConnectivity,并用实验验证了这两个条件。

同时,他们还证明:PermutationMethod是通过让两个网络满足可交换性,从而使得它们能够满足LinearModeConnectivity的。

总的来说,课题组发现了一种比LinearModeConnectivity更具细粒度、更能够满足神经网路的线性性质。

不过,上述发现都是基于在同一个数据集上训练得到的网络。

于是,他们提出了一个新问题:LayerwiseLinearFeatureConnectivity能否在两个在不同数据集上训练的模型上成立?

只不过,SpawningMethod中的模型在相同数据集上继续训练,而微调中的模型可以在不同数据集上训练。

在近期一项工作中,他们发现在预训练-微调的范式下,不同的微调模型之间也满足LayerwiseLinearFeatureConnectivity的性质,课题组将其称之为Cross-TaskLinearity。

其发现:在预训练-微调的范式下,网络实际上更近似于一个从参数空间到特征空间的线性映射。

即Cross-TaskLinearity将LayerwiseLinearFeatureConnectivity的定义,扩展到了不同数据集上训练的模型上。

有趣的是,该团队还使用Cross-TaskLinearity的发现,来解释了两种常见的模型融合的技术:

其一,ModelAveraging取多个模型在相同数据集上、但使用不同超参数配置微调的权重的平均值,借此可以提高准确性和鲁棒性。

研究中,课题组权重的平均解释为在每一层特征的平均,从而建立了ModelAveraging和模型集成之间的紧密联系,进而解释了ModelAveraging的有效性。

其二,只需通过简单的算术操作,TaskArithmetic就能合并在不同任务上微调的模型的权重,从而相应地控制模型的行为。

研究中,该团队将参数空间中的算术操作转化为特征空间中的操作,借此从特征学习的角度解释了TaskArithmetic。

随后,他们探究了Cross-TaskLinearity产生的条件,发现了预训练对于Cross-TaskLinearity的重要性。

实验结果显示:从预训练阶段获得的共同知识,有助于满足Cross-TaskLinearity的要求。

研究中,其还初步尝试证明Cross-TaskLinearity,并发现Cross-TaskLinearity的出现与NetworkLandscape的flatness以及两个微调模型之间权重的差距有关。

课题组表示:希望本次发现能启发更好的模型融合算法。

未来,如果需要构建多能力的微调大模型,大模型融合将会成为核心技术之一。而本次工作为大模型融合提供了扎实的实验和理论支撑,能够启发更好的大模型融合算法。

接下来,他们希望从TrainingDynamics的角度理解LinearModeConnectivity、LayerwiseLinearFeatureConnectivity、以及Cross-TaskLinearity。

尽管他们已经从特征层面得到了一些解释,但是仍然无法从第一性原理的角度解释LinearModeConnectivity。

例如,为什么SpawningMethod中只需要先训练少量epoch,就可以最终得到两个满足LinearModeConnectivity的模型?

以及,该如何预测这样一个SpawningTime?要想回答这些问题,就需要从训练和优化的角度理解LinearModeConnectivity,而这也是该团队的后续努力方向。

参考资料:

1.Zhou,Z.,Chen,Z.,Chen,Y.,Zhang,B.,&Yan,J.OntheEmergenceofCross-TaskLinearityinPretraining-FinetuningParadigm.InForty-firstInternationalConferenceonMachineLearning.

运营/排版:何晨龙

01/港城大团队开发新型纳米层状膜,可用于特殊场景的淡水处理,为二维材料应用寻找突破口

02/数十年化学难题给出可信解答,科学家提出氯化氢溶解形成盐酸微观新机理,将推动多个学科的发展

03/科学家打造量子传感操控新方法,能准确检测微弱信号,可用于探测和操控单个核自旋

05/动态强度达14GPa,北大团队成功开发超强碳纳米管纤维,可用作轻质高性能结构和防护材料

THE END
1.神经网络算法BP 神经网络算法在理论上可以逼近任意函数,基本的结构由非线性变化单元组成,具有很强的非线性映射能力。而且网络的中间层数、各层的处理单元数及网络的学习系数等参数可根据具体情况设定,灵活性很大,在优化、信号处理与模式识别、智能控制、故障诊断等许 多领域都有着广泛的应用前景。工作原理 人工神经元的研究起https://baike.baidu.com/item/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E7%AE%97%E6%B3%95/1252235
2.人工神经网络是什么,其应用有哪些?人工神经网络应用人工神经网络是什么,其应用有哪些? 当你阅读这篇文章时,你身体的哪个器官正在考虑它?当然是大脑!但是你知道大脑是如何工作的吗?嗯,它有神经元或神经细胞,它们是大脑和神经系统的主要单位。这些神经元接收来自外部世界的感觉输入,它们对其进行处理,然后提供输出,这些输出可能充当下一个神经元的输入。 https://blog.csdn.net/2401_85782938/article/details/140009671
3.深度学习:从人工神经网络的基础原理到循环神经网络的先进技术本文将深入探讨深度学习中的三种主要神经网络架构:基础人工神经网络(ANN)、卷积神经网络(Convolutional Neural Network, CNN)和循环神经网络(Recurrent Neural Network, RNN)。我们将通过大量的Python代码示例,展示如何构建和训练这些模型,并应用于不同的任务,包括图像分类、文本生成和时间序列预测。https://cloud.tencent.com/developer/article/2471196
4.人工智能与深度学习科研项目:卷积神经网络算法及其在NLP等人工智能领域项目将首先回顾包含分类与回归的传统机器学习算法及初步神经网络,而后教授将会介绍用于优化神经网络的数学原理及代码技术。在确保学生具备扎实的理论及编程基础后,项目将进入到关于卷积神经网络原理、架构、优化及应用的核心阶段,学生将根据自身兴趣选择个性化研究课题进行深入研究,在项目结束时提交项目报告,进行成果展示。 https://www.eol.cn/waiyu/news/2022122099527.html
5.粒子群改进算法及在混合神经网络中的应用研究粒子群改进算法及在混合神经网络中的应用研究,粒子群,混合算法,模拟退火,人工神经网络,混沌自适应,外贸出口,随着学科间的相互交叉、相互渗透和相互促进,研究者开始将各类智能优化算法应用于人工神经网络(ANN)训练。其中,粒子群优化(PShttps://wap.cnki.net/lunwen-1014264041.html
6.基于人工鱼群BP神经网络算法的压力传感器温度补偿研究AET摘要:为实现压力传感器的温度补偿,采用BP神经网络作为压力传感器软件补偿系统的核心算法,但由于BP神经网络算法易陷入局部极值,因此采用具有全局搜索能力的算法—人工鱼群算法(AFSA)进行优化,得到的结果是压力传感器的线性度提升1个数量级,温度灵敏度系数降低2个数量级,得到了很好的补偿效果。 http://www.chinaaet.com/article/3000019793
7.进化算法在人工神经网络中的应用研究会议进化算法在人工神经网络中的应用研究 万琼姚望舒王金根陈世福谢俊元 南京大学计算机软件新技术国家重点实验室 210093 引用 收藏 分享 打印 摘要:本文综述了进化算法与人工神经络结合技术现状的研究,主要包括优化网络设计、输入数据预处理、网络集成等方面内容,并对研究过程中出现的主要问题及未来发展趋势进行了讨论。https://d.wanfangdata.com.cn/Conference/6737541
8.人工神经网络:模型算法及应用PPT课件(全)(406页)人工神经网络:模型、算法及应用-PPT课件(全).pptx,人工神经网络: 模型、算法及应用;2;3;4;1.1 人工神经网络的概念 ;6;1.2 人工神经网络的发展 ;8;1.3 人脑;1.3 人脑;11;1.4 Hebb法则;13;1.5 神经元模型;15;1.6 神经网络的拓扑结构;1.6 神经网络的拓扑结构;18;1.7 知识表https://m.book118.com/html/2022/1222/6140135132005031.shtm
9.大数据在审计中的应用——基于人工神经网络的财务报告舞弊识别因此本文旨在利用大数据技术与人工神经网络算法捕获与目标企业舞弊相关的财务信息和非财务信息,梳理基于数据挖掘的舞弊识别框架,为资本市场注入信心。 1.2 研究意义 大数据在财务领域较多地应用于财务共享服务中心的构建、风险预警、管理决策等方面,并取得了较为丰富的研究成果,但是大数据在财务报告舞弊识别方面的应用研究还处https://www.fx361.com/page/2021/0624/11343477.shtml
10.人工智能心得体会(精选13篇)由于网络技术特别是国际互连网的技术发展,人工智能开始由单个智能主体研究转向基于网络环境下的分布式人工智能研究。不仅研究基于同一目标的分布式问题求解,而且研究多个智能主体的多目标问题求解,将人工智能更面向实用。另外,由于hopfield多层神经网络模型的提出,使人工神经网络研究与应用出现了欣欣向荣的景象。人工智能已深入到https://www.oh100.com/a/202212/5696010.html
11.现代工学院郝玉峰课题组:利用人工神经网络算法识别和表征原子级厚度材料现代工学院郝玉峰教授课题组近期将人工神经网络算法与二维材料研究相结合,实现了仅通过光学显微镜照片即可对二维材料的类型、层数、异质结构、缺陷浓度进行快速识别和表征,为二维材料提供了一种高效、无损的检测分析技术。 二维材料是一类仅有原子级厚度的新型薄膜材料。目前二维材料成员已多达几百种,并且各种二维材料会组合https://www.nju.edu.cn/info/3201/116731.htm
12.人工智能论文人工智能;电气工程;自动化控制;应用 当前是一个科学技术时代,电气工程发展要与时俱进,跟上时代前进的脚步。电气工程行业要想有效实现电气自动化控制和管理,就必须充分发挥出人工智能技术的作用。人工智能的研究范围不仅涵盖了图像语言识别和自动化控制,还包括了专家系统和人工神经网络等内容。因此,电力企业必须通过合理利https://www.ruiwen.com/lunwen/6395408.html
13.JeffDean撰文:谷歌AI2018研究成果汇总我们也探讨了强化学习如何应用于神经网络架构搜索之外的其他问题,我们的研究证明它可用于1)自动生成图像变换序列,以提高各种图像模型的准确性。 以及寻找新的符号优化表达式,比常用的优化更新规则更有效。我们在AdaNet上的工作展示了如何得到具有学习能力的快速灵活的AutoML算法。 https://36kr.com/p/1723150434305
14.2022年度陕西省重点研发计划项目申报指南目录2.1 超大规模复数稠密矩阵方程直接求解算法库 2.2 超大规模复数稀疏矩阵方程直接求解算法库 2.3 工业仿真软件架构关键技术 2.4 三维几何建模技术研究 2.5 面网格生成技术 2.6 体网格生成技术 2.7 高性能三维图形渲染技术 2.8 航空大规模并行 CFD 计算技术及应用示范 http://www.kt180.com/html/sxs/9889.html
15.人工智能学习心得(通用28篇)在大多数数学科中存在着几个不同的研究领域,每个领域都有着特有的感兴趣的研究课题、研究技术和术语。在人工智能中,这样的领域包括自然语言处理、自动定理证明、自动程序设计、智能检索、智能调度、机器学习、专家系统、机器人学、智能控制、模式识别、视觉系统、神经网络、agent、计算智能、问题求解、人工生命、人工智能https://www.yjbys.com/xindetihui/fanwen/3342600.html
16.第三代神经网络模型:面向AI应用的脉冲神经网络澎湃号·湃客在这篇文章中,我想从四个方向对生物启发SNN设计的一些实例和思想进行介绍,包括神经元模型、编码方式、学习算法、网络结构,最后总结并展望类脑启发对于面向AI应用的SNN研究的意义。 1. 神经元模型 为了模拟生物神经元的活动模式,计算神经科学提出了一系列脉冲神经元模型。与使用激活函数的人工神经元相比,脉冲神经元普遍https://www.thepaper.cn/newsDetail_forward_27289221