LeCun新作:神经网络在实践中的灵活性到底有多大?拟合正则化优化器大语言模型

【新智元导读】神经网络拟合数据的能力受哪些因素影响?CNN一定比Transformer差吗?ReLU和SGD还有哪些神奇的作用?近日,LeCun参与的一项工作向我们展示了神经网络在实践中的灵活性。

人工智能在今天百花齐放,大模型靠规模称王,小模型则凭数据取胜。

当然我们也希望,可以付出更少的资源,并达到相同的效果。

近日,LeCun参与的一项工作从另一个角度向我们展示了,神经网络在实践中的灵活性到底有多大?

这个灵活性指的是,神经网络拟合训练数据(样本数量)的能力,在实际应用中受到哪些因素的影响。

人们普遍认为,神经网络可以拟合至少与自身参数一样多的训练样本。

这就像是解一个线性方程组,有多少个参数(或者方程)、多少个未知数,从而判断解的数量。

然而神经网络实际上要复杂的多,尽管在理论上能够进行通用函数逼近,但在实践中,我们训练的模型容量有限,不同优化器也会导致不同的效果。

所以,本文决定用实验的方法,分别考察数据本身的性质、模型架构、大小、优化器和正则化器等因素。

而模型拟合数据的能力(或者说学习信息的能力),由有效模型复杂性(EMC)来表示。

这个EMC是怎么算的呢?

一开始,在少量样本上训练模型。如果它在训练后达到100%的训练准确率,则将模型重新初始化并增大训练样本数量。

迭代执行此过程,每次逐步增加样本量,直到模型不再完全拟合所有训练样本,将模型能实现完美拟合的最大样本量作为网络的EMC。

——一直喂饭,直到吃撑,则得到饭量大小。

实证分析

为了全面剖析影响神经网络灵活性的因素,研究人员考虑了各种数据集、架构和优化器。

数据集

实验采用了包括MNIST、CIFAR-10、CIFAR-100和ImageNet等视觉数据集,以及Forest-CoverType、AdultIncome和Credit等表格数据集。

另外,实验还使用了更大规模的合成数据集,通过Min-SNR加权策略进行的高效扩散训练,生成分辨率为128×128的高质量图像数据集——ImageNet-20MS,包含10个类别的2000万个样本。

模型

实验评估了多层感知器(MLP)、CNN架构的ResNet和EfficientNet,以及Transformer架构的ViT。

作者系统地调整了这些架构的宽度和深度:

比如对于MLP,通过每层添加神经元来增加宽度,同时保持层数不变,或者通过添加更多层来增加深度,同时保持每层神经元数量不变。

对于一般的CNN(多个卷积层,接一个恒定大小的全连接层),可以改变每层的kernel数量或者卷积层的总数。

对于ResNet,可以改变kernel的数量或者block的数量(深度)。

而对于ViT,可以改变编码器的数量(深度)、patchembedding的维度和自注意力(宽度)。

优化器

实验采用的优化器包括随机梯度下降(SGD)、Adam、AdamW、全批次梯度下降(full-batchGradientDescent)和second-orderShampoooptimizer。

由此,研究人员可以测试随机性和预处理等特征如何影响最小值。同时。为了确保跨数据集和模型大小进行有效优化,研究人员仔细调整了每个设置的学习率和批量大小,并省略了权重衰减。

数据对EMC的影响

研究人员通过修改隐藏层的宽度来扩展一个2层的MLP,通过修改层数和通道数来扩展CNN,并在一系列图像(MNIST、CIFAR-10、CIFAR-100、ImageNet)和表格(CoverType、Income和Credit)数据集上训练模型。

结果显示,在不同数据类型上训练的网络在EMC方面存在显著差异:

值得注意的是,MNIST(模型达到99%以上的测试准确度)产生的EMC最高,而ImageNet的EMC最低,这表明了泛化与数据拟合能力之间的关系。

输入和标签的作用

这里通过改变每层中的神经元或kernel的数量,来调整MLP和CNN的宽度,并在合成数据集ImageNet-20MS上进行训练。

实验测试了四种情况下的EMC:语义标签、随机标签、随机输入(高斯噪声)和固定随机排列下的输入。

分配随机标签(而非真实标签)的目的是探索过参数化(overparameterization)和欠参数化(underparameterization)之间的边界。

从上图的结果可以发现,与原始标签相比,当分配随机标签时,网络拟合的样本要少得多,此时神经网络的参数效率低于线性模型。而从整体上来看,模型的参数量与拟合的数据量大致呈线性关系。

分类数量对EMC的影响

作者随机合并了CIFAR-100中的类别(保留原始数据集的大小),在具有不同数量kernel的2层CNN上进行实验。

结果如上图所示,随着类数量的增加,带有语义标签的数据变得越来越难以拟合,因为模型必须对其权重中的每个样本进行编码。

相比之下,随机标记的数据变得更容易拟合,因为模型不再被迫为语义上不同的样本分配相同的类标签。

预测泛化

这种泛化也使得CNN这种架构能够拟合比模型参数量更多的样本。

传统的机器学习观念认为,高容量模型往往会过度拟合,从而影响其对新数据的泛化,而PAC-贝叶斯理论则指出,模型更喜欢正确的数据标记。

而本文的实验将这两种理论联系在了一起。

上图中,在正确标记和随机标记的数据上计算各种CNN和MLP的EMC,测量模型遇到语义标签与随机标签时EMC增加的百分比。

模型架构对EMC的影响

关于CNN和ViT的效率和泛化能力一直存在争议。

实验表明,CNN以硬编码的归纳偏差为特征,在EMC中优于ViT和MLP。当对语义标记的数据进行评估时,这种优势在所有模型大小中都持续存在。

CNN从具有空间结构的数据中获益匪浅,当空间结构通过排列被打破时,拟合的样本就会减少。而MLP缺乏这种对空间结构的偏好,因此它们拟合数据的能力是不变的。

另外,用高斯噪声代替输入可提高两种架构的容量,这可以解释为,在高维中,嘈杂的数据相距甚远,因此更容易分离。

值得注意的是,与随机输入相比,CNN可以拟合具有语义标签的样本数量要多得多,MLP却正好相反,这再次凸显了CNN在图像分类方面的卓越泛化能力。

扩展网络规模

下图展示了各种扩展配置下的EMC。

对于ViT,使用SViT和SoViT方法,并尝试分别改变编码器块的数量(深度)和patchembedding的维度和自注意力(宽度)。

分析表明,缩放深度比缩放宽度更具参数效率。这个结论同时也适用于随机标记的数据,表明并不是泛化的产物。

激活函数

非线性激活函数对于神经网络容量至关重要,没有它们,神经网络只是大型因式分解线性模型。

研究结果表明,ReLU显著增强了模型的容量。虽然它最初的作用是为了减轻梯度的消失和爆炸,但ReLU还提高了网络的数据拟合能力。

相比之下,tanh虽然也是非线性的,但不能实现类似的效果。

优化在拟合数据中的作用

优化技术和正则化策略的选择在神经网络训练中至关重要。这种选择不仅影响训练收敛性,还影响所找到的解决方案的性质。

参与实验的优化器包括SGD、全批次梯度下降、Adam、AdamW和Shampoo。

以前的研究认为SGD具有很强的平坦度寻求正则化效应,但上图表明,SGD还能够比全批次(非随机)梯度下降训练拟合更多的数据。

不同优化器的EMC测量值表明,优化器不仅在收敛速率上有所不同,而且在发现的最小值类型上也有所不同。

THE END
1.微软推出“从错误中学习”模型训练法,号称可模仿人类学习过程微软推出 “从错误中学习” 模型训练法,号称可模仿人类学习过程 IT之家 11 月 7 日消息,微软亚洲研究院联合北京大学、西安交通大学等高校,提出了一项名为“从错误中学习(Learning from Mistake,LeMA)”的 AI 训练方法,号称可以通过模仿人类学习知识的过程,来改进 AI 推理能力。当下 OpenAI GPT-4 和谷歌 https://baijiahao.baidu.com/s?id=1781884524252031038&wfr=spider&for=pc
2.什么是主动学习(ActiveLearning,AL)?主动学习(Active Learning)主动学习背景介绍 机器学习的研究领域包括有监督学习(Supervised Learning),无https://www.zhihu.com/question/352299820/answer/1529909699
3.elearning是什么意思elearning在线翻译英语读音用法e-learning 英['i?l'n]美['i?l'n] n.电子培训;指使用计算机和互联网学习 Created with Highcharts 3.0.2释义常用度分布图海词统计 指使用计.. 电子培训 分享单词到:http://dict.cn/e-learning
4.elearning是什么意思n.电子培训;指使用计算机和互联网学习 英语例句 In the Elearningprocess,thereis noshortcutbut hard work. 我强烈建议如果楼主真的很急的话,与其花半个小时的时间在这里讨教学习方法,不如用这时间真正背熟两个单词。 When did youbeginlearningEnglish? 你何时开始学习英语的? http://www.zxxyy.cn/3-12840
5.elearning是什么意思elearning怎么读elearning翻译用法是什么意思 n. 电子学习:特指通过互联网和电子邮件进行的学习和培训; 英英释义 E-learning E-learning theory describes the cognitive science principles of effective multimedia e-learning. Cognitive research and theory suggest that selection of appropriate concurrent multimedia modalities may enhance learning, https://www.koolearn.com/dict/wd_47475.html
6.elearning如何读是什么意思英英释义e-learning是什么意思 n.电子培训;指使用计算机和互联网学习 e-learning英英释义 E-learning E-learning theory describes the cognitive science principles of effective multimedia e-learning. Cognitive research and theory suggest that selection of appropriate concurrent multimedia modalities may enhance learning, https://www.yswxk.com/en-detail/76951f033ded3b1f56b0973de26dab84
7.elearning翻译什么意思,英语单词e英语单词“e-learning”的含义是指网络教育、电子学习或数字化学习。它是与传统面对面对话相比,基于互联网和计算机技术的现代教育形式。主要涉及以计算机、多媒体和网络通讯等技术为手段,利用网络进行教学活动,并且常常通过网络进行交互学习,内容覆盖了学科知识的各个领域。 https://dict.zw6.cn/word/e-learning
8.ee_learning数据挖掘是什么 e-Learning数据挖掘是一种通过分析在线学习平台上的数据来了解学习者行为、优化教学内容、提升学习效果的方法。e-Learning数据挖掘的核心在于数据收集、数据预处理、数据分析和结果应用。其中,数据收集是指从在线学习平台中获取学习者的各种行为数据,如点击次数、学习时间、考试成绩等。数据预处理https://www.fanruan.com/blog/article/617729/
9.ELearning与高校教学的深化改革什么是“e-Learning”?它是一种受教育的方式,包括新的沟通机制和人与人之间的交互作用。这些新的沟通机制是指:计算机网络、多媒体、专业内容网站、信息搜索、电子图书馆、远程学习与网上课堂等。 e-Learning指的是通过因特网进行的教育及相关服务。 e-Learning提供了学习的随时随地性,从而为终身学习提供了可能;学生https://www.edu.cn/edu/yuan_cheng/jiao_yu_xin_xi_hua/gao_jiao/200603/t20060323_21761.shtml
10.知网查重入口及操作指南(图文)用E -learning 软件如何导出题录信息到word? 选择需要导出的题录信息后直接右击,选择插入题录到word即可。 什么是CNKI机构数字图书馆,能实现什么功能? 根据使用对象的不同,CNKI机构数字图书馆,分为机构馆数字图书馆(以下简称“机构馆”)和个人数字图书馆(以下简称“个人馆”)。机构/个人馆可以按照机构/个人的个性化知https://www.dongrv.com/a/27064/
11.EE-learning是指通过网络进行的学习行为,如学习管理、内容发送、学习过程中的信息交流,甚至可以把传统教学内容转换成数字形式。 A对 B错 正确答案答案解析 略 真诚赞赏,手留余香 小额打赏 169人已赞赏相似试题 (单选题) ()是指通过自动读取设备在销售商品时直接读取商品销售信息,并通过通讯网络和计算机系统传送至https://www.examk.com/p/2072864926.html