LeCun新作:神经网络在实践中的灵活性到底有多大?拟合正则化优化器大语言模型

【新智元导读】神经网络拟合数据的能力受哪些因素影响?CNN一定比Transformer差吗?ReLU和SGD还有哪些神奇的作用?近日,LeCun参与的一项工作向我们展示了神经网络在实践中的灵活性。

人工智能在今天百花齐放,大模型靠规模称王,小模型则凭数据取胜。

当然我们也希望,可以付出更少的资源,并达到相同的效果。

近日,LeCun参与的一项工作从另一个角度向我们展示了,神经网络在实践中的灵活性到底有多大?

这个灵活性指的是,神经网络拟合训练数据(样本数量)的能力,在实际应用中受到哪些因素的影响。

人们普遍认为,神经网络可以拟合至少与自身参数一样多的训练样本。

这就像是解一个线性方程组,有多少个参数(或者方程)、多少个未知数,从而判断解的数量。

然而神经网络实际上要复杂的多,尽管在理论上能够进行通用函数逼近,但在实践中,我们训练的模型容量有限,不同优化器也会导致不同的效果。

所以,本文决定用实验的方法,分别考察数据本身的性质、模型架构、大小、优化器和正则化器等因素。

而模型拟合数据的能力(或者说学习信息的能力),由有效模型复杂性(EMC)来表示。

这个EMC是怎么算的呢?

一开始,在少量样本上训练模型。如果它在训练后达到100%的训练准确率,则将模型重新初始化并增大训练样本数量。

迭代执行此过程,每次逐步增加样本量,直到模型不再完全拟合所有训练样本,将模型能实现完美拟合的最大样本量作为网络的EMC。

——一直喂饭,直到吃撑,则得到饭量大小。

实证分析

为了全面剖析影响神经网络灵活性的因素,研究人员考虑了各种数据集、架构和优化器。

数据集

实验采用了包括MNIST、CIFAR-10、CIFAR-100和ImageNet等视觉数据集,以及Forest-CoverType、AdultIncome和Credit等表格数据集。

另外,实验还使用了更大规模的合成数据集,通过Min-SNR加权策略进行的高效扩散训练,生成分辨率为128×128的高质量图像数据集——ImageNet-20MS,包含10个类别的2000万个样本。

模型

实验评估了多层感知器(MLP)、CNN架构的ResNet和EfficientNet,以及Transformer架构的ViT。

作者系统地调整了这些架构的宽度和深度:

比如对于MLP,通过每层添加神经元来增加宽度,同时保持层数不变,或者通过添加更多层来增加深度,同时保持每层神经元数量不变。

对于一般的CNN(多个卷积层,接一个恒定大小的全连接层),可以改变每层的kernel数量或者卷积层的总数。

对于ResNet,可以改变kernel的数量或者block的数量(深度)。

而对于ViT,可以改变编码器的数量(深度)、patchembedding的维度和自注意力(宽度)。

优化器

实验采用的优化器包括随机梯度下降(SGD)、Adam、AdamW、全批次梯度下降(full-batchGradientDescent)和second-orderShampoooptimizer。

由此,研究人员可以测试随机性和预处理等特征如何影响最小值。同时。为了确保跨数据集和模型大小进行有效优化,研究人员仔细调整了每个设置的学习率和批量大小,并省略了权重衰减。

数据对EMC的影响

研究人员通过修改隐藏层的宽度来扩展一个2层的MLP,通过修改层数和通道数来扩展CNN,并在一系列图像(MNIST、CIFAR-10、CIFAR-100、ImageNet)和表格(CoverType、Income和Credit)数据集上训练模型。

结果显示,在不同数据类型上训练的网络在EMC方面存在显著差异:

值得注意的是,MNIST(模型达到99%以上的测试准确度)产生的EMC最高,而ImageNet的EMC最低,这表明了泛化与数据拟合能力之间的关系。

输入和标签的作用

这里通过改变每层中的神经元或kernel的数量,来调整MLP和CNN的宽度,并在合成数据集ImageNet-20MS上进行训练。

实验测试了四种情况下的EMC:语义标签、随机标签、随机输入(高斯噪声)和固定随机排列下的输入。

分配随机标签(而非真实标签)的目的是探索过参数化(overparameterization)和欠参数化(underparameterization)之间的边界。

从上图的结果可以发现,与原始标签相比,当分配随机标签时,网络拟合的样本要少得多,此时神经网络的参数效率低于线性模型。而从整体上来看,模型的参数量与拟合的数据量大致呈线性关系。

分类数量对EMC的影响

作者随机合并了CIFAR-100中的类别(保留原始数据集的大小),在具有不同数量kernel的2层CNN上进行实验。

结果如上图所示,随着类数量的增加,带有语义标签的数据变得越来越难以拟合,因为模型必须对其权重中的每个样本进行编码。

相比之下,随机标记的数据变得更容易拟合,因为模型不再被迫为语义上不同的样本分配相同的类标签。

预测泛化

这种泛化也使得CNN这种架构能够拟合比模型参数量更多的样本。

传统的机器学习观念认为,高容量模型往往会过度拟合,从而影响其对新数据的泛化,而PAC-贝叶斯理论则指出,模型更喜欢正确的数据标记。

而本文的实验将这两种理论联系在了一起。

上图中,在正确标记和随机标记的数据上计算各种CNN和MLP的EMC,测量模型遇到语义标签与随机标签时EMC增加的百分比。

模型架构对EMC的影响

关于CNN和ViT的效率和泛化能力一直存在争议。

实验表明,CNN以硬编码的归纳偏差为特征,在EMC中优于ViT和MLP。当对语义标记的数据进行评估时,这种优势在所有模型大小中都持续存在。

CNN从具有空间结构的数据中获益匪浅,当空间结构通过排列被打破时,拟合的样本就会减少。而MLP缺乏这种对空间结构的偏好,因此它们拟合数据的能力是不变的。

另外,用高斯噪声代替输入可提高两种架构的容量,这可以解释为,在高维中,嘈杂的数据相距甚远,因此更容易分离。

值得注意的是,与随机输入相比,CNN可以拟合具有语义标签的样本数量要多得多,MLP却正好相反,这再次凸显了CNN在图像分类方面的卓越泛化能力。

扩展网络规模

下图展示了各种扩展配置下的EMC。

对于ViT,使用SViT和SoViT方法,并尝试分别改变编码器块的数量(深度)和patchembedding的维度和自注意力(宽度)。

分析表明,缩放深度比缩放宽度更具参数效率。这个结论同时也适用于随机标记的数据,表明并不是泛化的产物。

激活函数

非线性激活函数对于神经网络容量至关重要,没有它们,神经网络只是大型因式分解线性模型。

研究结果表明,ReLU显著增强了模型的容量。虽然它最初的作用是为了减轻梯度的消失和爆炸,但ReLU还提高了网络的数据拟合能力。

相比之下,tanh虽然也是非线性的,但不能实现类似的效果。

优化在拟合数据中的作用

优化技术和正则化策略的选择在神经网络训练中至关重要。这种选择不仅影响训练收敛性,还影响所找到的解决方案的性质。

参与实验的优化器包括SGD、全批次梯度下降、Adam、AdamW和Shampoo。

以前的研究认为SGD具有很强的平坦度寻求正则化效应,但上图表明,SGD还能够比全批次(非随机)梯度下降训练拟合更多的数据。

不同优化器的EMC测量值表明,优化器不仅在收敛速率上有所不同,而且在发现的最小值类型上也有所不同。

THE END
1.SupervisedMachineLearning:RegressionandClassificationLearn the fundamentals of machine learning with Andrew Ng in this updated 3-course Specialization by DeepLearning.AI and Stanford Online. Build and train models using Python, NumPy, and scikit-learn for real-world AI applications. Ideal for beginners.https://www.coursera.org/learn/machine-learning
2.scikitlearn:machinelearninginPython—scikitApplications:Improved accuracy via parameter tuning. Algorithms:Grid search,cross validation,metrics, andmore Examples Preprocessing Feature extraction and normalization. Applications:Transforming input data such as text for use with machine learning algorithms. http://scikit-learn.org/
3.DeepLearningThe Deep Learning textbook is a resource intended to help students and practitioners enter the field of machine learning in general and deep learning in particular. The online version of the book is now complete and will remain available online for free. https://www.deeplearningbook.org/
4.usmelearningPreviousNext About eLearn@USM eLearn@USM is the official e-learning portal and it is a centralized learning centre for USM lecturers and students. All courses offered by the university can be found in this portal. eLearn@USM enables smooth course administration, delivery and management between lecthttps://elearning.usm.my/
5.L2正则化与TransferLearning:如何实现知识迁移和多模态学习本文探讨了L2正则化、知识迁移学习和多模态学习,旨在解决机器学习模型的过拟合和效率问题。L2正则化通过限制权重的二范数降低复杂度;知识迁移学习利用预训练模型减少新任务的训练成本;多模态学习结合多种类型数据提升模型泛化能力。文章深入解析了这些方法的原理、步骤,提供代码实例并展望了未来发展趋势和挑战。 https://blog.csdn.net/universsky2015/article/details/135143561
6.learn2learnlearn2learn.algorithms: High-level wrappers for existing meta-learning algorithms. learn2learn.optim: Utilities and algorithms for differentiable optimization and meta-descent. Resources Website: http://learn2learn.net/ Documentation: http://learn2learn.net/docs/learn2learn Tutorials: http://learn2https://learn2learn.net/
7.LearnerTraining:你会学习了吗?简而言之,“训练学习者”即为让学习者通过反思寻找、提升自己的学习方法,从而掌控自己的学习。其中高亮突出部分的意思指明了如何让学习者学会学习,分别为: take responsibility for learning: 指培养学习者独立使用语言的能力; develop learning strategies: https://mp.weixin.qq.com/s?__biz=MzA5NjIzMDI5MQ==&mid=2651754733&idx=1&sn=a268dbb06b3c42bb6406aaefa4479705&chksm=8b497e11bc3ef707b7217897753b0ebee0d3dbc7e345a0f768dca1a45833c6a9a2bcb0957cb2&scene=27
8.在线学习elearning怎么做(二)elearning可口可乐的多数电话销售都是以分散的方式完成的。该公司还有散布于美国各地的120名至150名服务代表专门负责处理设备服务问题。这些服务代表“真的没有接受过有关任何其他方面的培训”,可口可乐集团负责客户发展的副总裁彭纳德(Nita Pennardt)说。如果某位客户打来电话想要http://www.hztbc.com/e-learning/answers_37_7654.html
9.关于第二语言学习中Elearning的学习策略【摘要】:随着Internet和多媒体虚拟现实等技术的成熟和推广,E-learning作为外语教学的一种全新的教学手段正在被越来越多的使用。 本文首先介绍了E-learning的特点和与传统教学模式的区别以及该教学手段所用到的主要技术主要包括虚拟现实,多媒体,语音识别及网络技术等,在此基础上作者从e-learning的教学模型的设计者角度就https://cdmd.cnki.com.cn/Article/CDMD-10271-2006192038.htm
10.机器学习基石2LearningtoAnswerYesNoShinesu二、Perceptron Learning Algorithm (PLA) 根据上一部分的介绍,我们已经知道了hypothesis set由许多条直线构成。接下来,我们的目的就是如何设计一个演算法AA,来选择一个最好的直线,能将平面上所有的正类和负类完全分开,也就是找到最好的gg,使g≈fg≈f。 https://www.cnblogs.com/SweetZxl/p/10528702.html
11.二语学习,secondlanguagelearning,音标,读音,翻译,英文例句Though concepts as "second language acquisition","second language learning","foreign language learning" appear often in language teaching researches,many people do not have a clear idea of what they mean exactly. "二语习得"、"二语学习"、"外语学习"等概念在目前外语教学的研讨中出现频率很高,其中有http://www.dictall.com/indu/251/25026468A70.htm
12.学习笔记元学习(MetaLearning)学习笔记所以,Meta Learning就是一门研究如何让机器学会更好地学习的新兴研究方向。 第二章Meta Learning的建模思路 前篇提及的概念描述可能依然比较抽象,下面我们用具体的模型架构来解释一下Meta Learning实际上在做的事情。 首先,上图描述的是传统机器学习在做的事情——由人来设计一套学习算法,然后这个算法会输入一堆训练http://www.gwylab.com/note-meta_learning.html
13.第二语言学习,secondlanguagelearning英语短句,例句大全1.Anxiety in Second Language Learning and Its Strategies;浅析焦虑对第二语言学习的影响及对策 2.In second language learning, feedback refers to the evaluative information available to learners concerning their linguistic performance.在第二语言学习中,反馈指针对学习者的言语行为给予学习者的评价性信息。 3.https://www.xjishu.com/en/002/y10530.html
14.二语习得期末复习资料二语习得期末复习资料Chapter 1 introducing second language acquisition 1.SLA: a term that refers both to the study of individuals and groups who are learning a language subsequent to learning their first one as young children, and to the process of learning that language. 2.Second language:an https://m.360docs.net/doc/868255441.html
15.learning造句1、Podulski had been assiduous inlearninghis adopted language.(珀杜斯基曾经勤奋地学习他所选的外语。) 2、The baby is justlearningto walk.(这孩子刚学走路。) 3、Are youlearningEnglish for pleasure or for your work?(你学英语是出于消遣还是为了工作?) https://www.hao86.com/zaoju_view_9bce2343ac9bce23/
16.HandsonMachineLearningwithScikit第二版完整先行版Hands-on-Machine-Learning-with-Scikit-第二版完整先行版 AI2019-06-11 上传大小:27.00MB 所需:49积分/C币 Hands-On Machine Learning with Scikit-Learn and TensorFlow.pdf 讲述scikit-learn和TensorFlow, 高清版,良心数据, 英文版1st 上传者:ogogo1000时间:2018-01-15 https://www.iteye.com/resource/lxmbeyond1-11235960
17.ImplicitLearningandExplicitLearning教授讲座中首先提到的是一组专业性的术语implicit learning(内隐性学习)和explicit learning(外显性学习)。 内隐性学习指的是一种不需主观意图的无意识或潜意识的学习。多出现在我们母语的学习情况下。而外显性学习指的是有目的、有意识的主观能动的一种学习方式,是大部分二语习得者所使用的学习方式。当一名第二语言https://www.xdf.cn/redian/201404/9948663.html
18.推荐系统中不得不学的对比学习(ContrastiveLearning)方法(二)论文标题:Self-supervised Graph Learning for Recommendation 论文来源:SIGIR2021 论文链接:https://arxiv.org/abs/2010.10783 论文代码:https://github.com/wujcan/SGL 这篇文章提出了一种应用于用户-物品二分图推荐系统的图自监督学习框架。核心的思想是,对输入的二分图,做结点和边的dropout进行数据增强,增强后的https://developer.aliyun.com/article/898027
19.英语课的说课稿learning the unit? (二)单元学习目标(Goals) 起关上书回忆本单元的四个学习目标。 (三)预备(Warming up) 活动形式:分组评论。谈论课本上的四幅图画。先指出中华民族有着悠久的历史和灿烂的文化。每年都有许多西方人到中国来旅游。如果你想为他们提供帮助,就得学会用英语谈论中国古代人的饮食起居、文化娱乐、生产https://mip.ruiwen.com/shuokegao/1333856.html
20.二语习得PPT5.5learningmotivation课件.ppt二语习得PPT 5.5learningmotivation课件.ppt 关闭预览 想预览更多内容,点击免费在线预览全文 免费在线预览全文 Motivations in SLA;Definition;;Classification;Integrative Motivation;Instrumental Motivation;;Some studies have found that instrumental motivation and other types of motivation affect L2 linguistic https://max.book118.com/html/2022/0311/8032022104004062.shtm
21.新世纪大学英语综合教程第二版第二册:Unit7bLearningtoRecoverLearning to Recover 学会恢复 Ellen McGrath 埃伦·麦格拉思 You need to know what resilience is so that you can remember that you have it. Resilience is an emotional muscle that can grow with use and practice -- or become weak if ignored. 你得知道“韧性”是什么意思,才能记住自己是拥有这个特点https://www.kekenet.com/daxue/201707/498852.shtml
22.「DeepLearning」读书系列分享第二章:线性代数分享总结雷锋网 AI 科技评论按:「Deep Learning」这本书是机器学习领域的重磅书籍,三位作者分别是机器学习界名人、GAN的提出者、谷歌大脑研究科学家 Ian Goodfellow,神经网络领域创始三位创始人之一的蒙特利尔大学教授 Yoshua Bengio(也是 Ian Goodfellow的老师)、同在蒙特利尔大学的神经网络与数据挖掘教授 Aaron Courville。只看https://www.leiphone.com/news/201708/iL1S8jkc4ytZFzHS.html
23.DeepLearning.ai学习笔记(二)改善深层神经网络:超参数调试正则如图所示,我们以1000为单位,将数据进行划分,令\(x^{\{1\}}=\{x^{(1)},x^{(2)}……x^{(5000)}\}\), 一般地用\(x^{\{t\}},y^{\{t\}}\)来表示划分后的mini-batch。 注意区分该系列教学视频的符号标记: 小括号()表示具体的某一个元素,指一个具体的值,例如\(x^{(i)}\) https://cloud.tencent.com/developer/article/1027740
24.学习第二语言的重要性TheImportanceofLearningaSecond文化理解和欣赏:学习第二语言提供了探索不同文化并对其有更深入理解和欣赏的机会。语言与文化密切相关,通过学习语言,个人可以与母语人士交流,体验他们的习俗、传统和文学,发展跨文化的同理心和尊重。 Improved Cognitive Abilities:Learning a second language has been shown to enhance cognitive abilities, such as prhttps://www.meiweny.cn/xiaoyuan/xiaoyuanaiqingwenzhang/110030.html
25.自考英语二历年真题(2018年4月完形补文)完形补文(第 41~50 题,每题 1.5 分,共 15 分) 下面的短文有 10 处空白,每处空白后的括号内有一个词,请根据短文内容将其正确的形式填入文中,以恢复文章原貌,并将答案写在答题卡相应的位置上。 Workplace English Learning Englhttps://www.zikao35.com/4838.html
26.DeepLearning2e深度学习https://github.com/davidADSP/Generative_Deep_Learning_2nd_Edition Book description Generative AI is https://bbs.pinggu.org/thread-11638369-1-1.html
27.美国经典少儿百科知识全书英文原版第二辑10册套Learning当当网图书频道在线销售正版《阶梯阅读 第二辑 How & Why 美国经典少儿百科知识全书 英文原版 第二辑 10册套 Learning Ladders Set 2 10V》,作者:World Book,出版社:World Book, Inc.。最新《阶梯阅读 第二辑 How & Why 美国经典少儿百科知识全书 英文原版 第二辑 10册http://product.dangdang.com/29245005.html