大模型在连续学习中真的遗忘了吗?重新审视基于预训练语言模型的增量学习

LearnorRecallRevisitingIncrementalLearningwithPre-trainedLanguageModels

收录会议:

ACL2024,LongPaper,Oral

论文链接:

背景

增量学习(IL)一直是计算机视觉和自然语言处理(NLP)领域长期存在的问题。近年来,随着大语言模型(LargeLanguageModel,LLM)在各种NLP下游任务中取得了显著进展,将LLMs作为骨干网络在NLP领域的增量学习研究中已成为一种常见做法。

大多数研究假设灾难性遗忘是实现优越增量学习性能的最大障碍,并提出了各种技术来克服这一问题。然而,我们发现这一假设存在问题。

这些发现促使我们重新审视基于LLMs的增量学习,并鼓励未来的研究更加深入地理解LLMs中的灾难性遗忘问题。

新发现

我们利用探测技术probing评估模型backbone对目标任务的表示能力,实现如图1所示。

▲图1Probing实验图

新发现1:大模型在连续学习过程中并没有丢失其知识

我们在实验中使用生成模型进行类别增量意图分类的观察和探测性能。图2(a)显示,随着更多新任务的学习,观察到的性能显著下降,从约98%降至10%,这一结果符合我们对灾难性遗忘的理解。

然而,图2(b)描述了一个完全不同的现象。LLMs在学习第一个任务后就达到了很高的探测性能,并且从第二个任务开始,线性探测性能几乎没有下降。换句话说,即使LLMs仅按顺序适应新任务(Sequentialfine-tuning,SEQ),它们依然保留了分类所有15个任务的知识。这个现象与我们对灾难性遗忘和SEQ的理解相矛盾。

实际上,探测性能之所以很高,是因为在训练探测分类器时,所有任务的数据都是可用的,而观察到的性能较差,是因为原始分类器仅在当前任务的数据上进行训练。

因此,经过探测的实验结果表明大模型在连续学习过程中并没有丢失其知识。

(a)观测表现

(b)线性探测表现

新发现2:Probing性能:Linear>CosineLinear≈CosinePrototype>Prototype

我们发现四个探测指标的排序如下:Linear>CosineLinear≈CosinePrototype>Prototype。如图3所示:

(a)线性探测

(b)余弦探测

(c)原型探测

(d)余弦原型

▲图3四种探测指标情况

首先,我们需要分别理解LLMs的特征(即最后的隐藏状态)、词向量和探测分类器中的类别嵌入“是什么样的”。特征、词向量和类别嵌入的L2范数和余弦相似度的直方图如图4。

(a)特征相似度

(b)特征-词嵌入相似度

(c)特征范数

(d)词嵌入范数

▲图4Pythia-410m的特征和不同嵌入的直方图

图4a显示,特征在向量空间中占据一个狭窄的圆锥形区域,而不是在所有方向上均匀分布。更令人惊讶的是,图4b显示,学习到的(输出)词向量与特征几乎是正交的。我们推测,交叉熵损失函数鼓励除了真实标签外的所有词向量在预训练过程中远离特征。

换句话说,交叉熵损失鼓励logits之间有较大的差异,并且词向量与特征正交,以便更好地区分logits。因此,考虑到词向量层本质上是一个线性层,线性探测有最佳表现也就不足为奇。

从这个角度来看,原型探测表现较差也就不奇怪,因为原型(类别特征中心)也落在这个狭窄的圆锥空间内,而这对于区分logits并不是一个最优的解决方案。

那么,为什么余弦归一化会降低线性探测的性能,但能改善原型探测的性能呢?图4c和图4d展示了特征和词向量的L2范数。我们发现,词向量的范数与特征相比存在较大的差异。这表明,词向量的范数包含了来自预训练阶段的先验知识。

因此,余弦线性探测忽略了特征范数的差异,因此相比于线性探测,其性能较差。对于原型探测,原型位于一个狭窄的圆锥空间中,原型和特征之间的相似度较大,且接近彼此。在这种情况下,余弦归一化可以消除范数的干扰,从而建立logits和特征之间余弦相似度的关系。

新发现3:LLMs抵抗遗忘的关键在于Transformer的结构和预训练获取的知识

我们评估了在不同预训练步数的检查点上的线性探测性能:{0,16,128,1k,10k,143k(最终)}。我们加载预训练的检查点(或在步数为0时随机初始化的检查点),并在使用SEQ进行增量学习前后评估它们的线性探测性能。

图5展示了预训练中的两个主要阶段:过拟合和泛化。在第一个阶段(步数0-步数128),模型开始记忆预训练语料库,线性探测性能下降。在第二个阶段(步数1k-步数143k),模型逐渐学习预训练知识,线性探测性能上升。

然而,当模型进一步泛化到预训练语料库时(步数10k-步数143k),小型骨干网络(如Pythia-70m和160m)的线性探测性能再次下降,原因是预训练和下游任务之间存在差距。这个差距可以通过适应下游任务来消除。

对于较大的骨干网络(如Pythia-410m、1b和1.4b),模型能够直接适应新任务,而不会受到这种差距的影响。此外,我们还有以下有趣的发现:

(c)关系抽取(BeforeSEQ)

(d)余弦原型关系抽取(AfterSEQ)

▲图5不同训练步骤的检查点的线性探测性能

1.预训练确实改善了增量学习中的线性探测性能(见图5b和图5d)。

2.除了预训练之外,Transformer的架构也是在SEQ过程中获得高线性探测准确率的关键因素。当下游任务相对简单时,例如意图分类,即使是随机初始化的模型也能获得较高的线性探测性能(见图5b)。而当下游任务较为复杂时,例如关系抽取(见图5d),预训练则带来了显著的性能提升。

3.更令人惊讶的是,SEQ提高了几乎所有预训练步骤的模型的线性探测性能(见图5a与5b;图5c与5d)。这表明,Transformer的架构即使仅在新任务上进行顺序微调,也能够逐步吸收新知识。

新发现4:真正的遗忘发生于分类器中

我们观察到,在SEQ模型中,新类别的logits远大于旧类别的logits。由于特征和类别嵌入决定了logits的大小,而特征占据一个狭窄的圆锥空间,其范数相对接近,因此我们可以推测,遗忘现象的发生是由以下原因之一引起的:

(1)类别嵌入的范数,或(2)特征与类别嵌入之间的余弦相似度。对于第一种原因(即类别范数),我们在图6a和图6b中比较了学习的线性分类器和线性探测分类器之间的类别嵌入范数。

令人惊讶的是,在SEQ的观察分类器中,新任务的类别嵌入范数并不大于旧任务的类别嵌入范数。这表明,类别范数不是SEQ中遗忘现象的主要原因。

对于第二个原因(即余弦相似度),我们在图6c和图6d中比较了观察分类器和探测分类器之间类别嵌入的移动距离。任务t的类别嵌入在任务时的移动距离计算如下:

1.当模型完成任务的训练后,我们计算任务t的所有类别嵌入与所有任务的类别特征中心之间的余弦距离,并得到一个余弦相似度矩阵。

2.当模型完成任务t+k的训练后,我们计算任务t的所有类别嵌入与所有任务的类别特征中心之间的余弦距离,并得到一个余弦相似度矩阵。

3.然后,任务t的类别嵌入的移动距离计算为余弦相似度矩阵和之间的平均绝对差异。移动距离衡量了自学习以来,类别嵌入相对于所有类别特征中心的移动情况。

(a)观测分类器范数

(b)探测分类器范数

(c)观测分类器移动距离

(d)探测分类器移动距离

▲图6在SEQ过程中观察到的线性分类器与线性探测分类器的比较

如果分类器没有遗忘某个类别,那么它的类别嵌入到所有类别特征中心的距离应该保持恒定。换句话说,如果分类器没有遗忘如何使用LLMs提取的特征来分类该类别,则其移动距离将为零。

图6c和6d显示,观察分类器的类别嵌入相对于探测分类器发生了显著变化。这表明,遗忘现象的发生是因为旧的类别嵌入被推离了其初始和最优位置。

提出新方法SEQ*

最后,我们根据实验发现设计了SEQ,提出了以下策略来缩小SEQ中探测和观察性能之间的差距:(S1)Warm-up后冻结LLMs;(S2)在学习新任务时冻结旧分类器;(S3)只有在CIL场景中没有旧数据可用的情况下才使用余弦线性分类器。否则,请使用线性分类器;(S4,可选)预先分配未来的分类器。

我们将使用上述策略的方法称为SEQ,如图7所示。实验结果如图8所示。具体实验情况详见论文:

(S1)Warm-up后冻结LLMs

(S2)在学习新任务时冻结旧分类器

(S3)使用正确的分类器

(S4)预先分配未来的分类器

▲图7对SEQ*的描述

▲图8在句子级分类任务上SOTA方法和SEQ*的比较

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

THE END
1.《数据流驱动:C++构建AI模型持续学习新范式》综上所述,运用 C++开发基于数据流的人工智能模型持续学习系统具有巨大的潜力和广阔的应用前景。通过深入理解数据流持续学习的原理,精心设计系统架构,巧妙运用 C++的特性和技术,我们能够构建出高效、智能、适应未来发展需求的持续学习系统,为推动人工智能技术在各个领域的深度应用奠定坚实的基础。https://cloud.tencent.com/developer/article/2478635
2.机器学习与深度学习:差异解析简介:机器学习与深度学习作为两大核心技术,各自拥有独特的魅力和应用价值。尽管它们紧密相连,但两者之间存在着显著的区别。本文将从定义、技术、数据需求、应用领域、模型复杂度以及计算资源等多个维度,对机器学习与深度学习进行深入对比,帮助您更好地理解它们之间的差异。 https://developer.aliyun.com/article/1645659
3.增量学习介绍增量式学习adp1.1 什么是增量学习 人类有终身不断获取、调整和转移知识的能力,虽然在我们的一生中,我们确实倾向于逐渐忘记之前学习过的知识,但只有在极少的情况下,对新知识的学习会灾难性地影响已经学到的知识,这样的学习能力被称为增量学习的能力。 具体来讲,「增量学习的能力就是能够不断地处理现实世界中连续的信息流,在吸收https://blog.csdn.net/chumingqian/article/details/134869454
4.连续学习与概念表征连续学习(Continual Learning或CL),又称终身学习(Lifelong Learning)是指人类所具有的可持续学习的能力。目前,人工智能(AI)中的机器学习(Machine Learning或ML)还缺乏连续学习的能力,在连续学习的过程中会出现困扰AI领域长达30年之久的著名“灾难性遗忘”问题: 例如在学会了识别数字“0”和“1”之后,再学“2”和https://nimi.cuc.edu.cn/gnbzylxxx/mainm.htm
5.软考高级——信息系统项目管理师(第4版)思维导图模板软考高级——信息系统项目管理师,根据第四版(2023年新版教材)进行编写,内容详细,根据思维导图,可以快速对重点知识进行整理记忆,方便快捷,欢迎大家克隆学习https://www.processon.com/view/654c455f8f11b40fe56ece43
6.江西专升本《数学分析》考试大纲之萍乡学院2.增量——微分公式,可导与连续的关系. 考核要求:1.理解并掌握导数的定义,掌握导数的几何意义,了解导数的物理意义. 2.了解增量——微分公式,掌握可导与连续的关系.了解费马定理、达布定理. 2.2导数的运算法则 考核内容:1导数的四则运算法则,反函数的求导法则. http://www.jxztc.com/show-938-318228-1.html
7.神经网络与深度学习20210719061352.pdf神经网络与深度学习.pdf,《神经网络与深度学习》 Neural Networks and Deep Learning 邱锡鹏 xpqiu@ 2019 年4 月6 日 2 2019 年4 月6 日 常用符号表 x 标量 x ∈ d d 维列向量 [x1 , ··· , x ] d 维行向量 d [x , ··· , x ]T or [x ; ··· ; x ] d 维列向量 1https://max.book118.com/html/2021/0719/6143212224003214.shtm
8.零基础如何学习abaqus?SIMULIAAbaqusCFD流体动力学仿真分析剪力闭锁:网格过于稀疏,导致单元无法模拟连续体的变形;沙漏模式:缩减积分单元缺少积分点,单元有变形而积分点无应变能 6、求解器设置 时间和增量步的关系:在静力分析中,荷载的施加与分析步时长为线性关系,即默认t=0时刻荷载=0,t=1时刻荷载全部施加。若为弹性问题,则只需求解一个整体刚度矩阵,在一个增量步中即可https://www.ruanfujia.com/10644120/
9.第三篇学术研究第四章经济学陈敏之指出,孙冶方同志对“商品”的论述有矛盾之处,认为商品应当和社会分工相联系(《向冶方同志学习;发展商品经济理论》,经济研究1993年第2期)。李家镐论述了张闻天的“生产关系两重性”相关观点,以此对部分现实问题进行解释,并澄清了许多对生产力与生产关系的误解(《张闻天同志的生产关系两重性理论》,经济研究1993年https://www.sssa.org.cn/bzjz/679018.htm
10.高质量转型发展学习心得体会(精选16篇)充分的全面的备课后,那上课更是一门艺术。我们要向四十分钟要质量,对与课堂语言的组织,课堂学习的调动,都要求教师有着很高的素养。对学生积极性的.调动,能激发学生学习的兴趣。兴趣是最好的教师,所以对学生积极性能有很好的促进作用。发挥小组合作学习的优势,让学生在学习中能够很好的互助学习。 https://m.oh100.com/a/202301/5893961.html
11.专访台湾奥美:全联经济美学7年创意策略,经典案例必学干货(福利)根据数据显示,30岁以上的全联会员占比高达91%,核心客群平均年龄在40-55岁间。随着以往的获客增量触及到天花板,全联意识到除了核心客群“婆妈”之外,需要把年龄段扩容,下放至年轻人的世界。 但这并不是容易的一步,甚至牵一发而动全身,一旦准备拉拢年轻人的注意力,品牌沟通的方式势必要大改——毕竟,没有哪个年https://www.digitaling.com/articles/633457.html
12.银行职员年度考核总结(精选25篇)1、学习的.积极主动性还不够,因家庭因素、工作开展因素的客观因素的影响,导致存在学习的连续性不足,存在业务素质提高不快,对旧有知识回顾不足的问题,学习效率低的情情况。 2、创新意识和积极意识不足,在自觉主动学习方面,与年轻大学生相比还存在必须的差距,不能有效的结合自身专业特长和岗位实际进行业务创新或针对https://www.ruiwen.com/zongjie/6988362.html
13.机器学习中期望风险经验风险结构风险的初步学习冒泡~小李又上线啦~今天学习了几个概念,故做如下整理: 首先,要区别这几个概念,我们要先引入损失函数的概念。 损失函数 定义:损失函数就一个具体的样本而言,模型预测的值与真实值之间的差距。 对于一个样本(xi,yi)其中yi为真实值,而f(xi)为我们的预测值。使用损失函数L(f(xi),yi)来表示真实值和预测值之间https://www.jianshu.com/p/073a00d69acf
14.深度学习中的连续学习与遗忘问题一、连续学习的挑战 连续学习,又称为增量学习或在线学习,指的是模型在学习新任务的同时,保留对旧任务的知识的能力。这种学习方式对于构建具有长期记忆和适应性的智能系统至关重要。然而,传统的深度学习模型在面对连续学习任务时,往往会出现所谓的“灾难性遗忘”现象,即模型在学习新任务时会快速丧失对之前任务的https://baijiahao.baidu.com/s?id=1791385353368146851&wfr=spider&for=pc
15.单片机教程17.AD和DA的学习但是在工业检测系统和日常生活中的许多物理量都是模拟量,比如温度、长度、压力、速度等等,这些模拟量可以通过传感器变成与之对应的电压、电流等电模拟量。为了实现数字系统对这些电模拟量的检测、运算和控制,就需要一个模拟量和数字量之间相互转换的过程。这节课我们就要学习这个相互转换过程。https://www.hqew.com/tech/circuit/1645330.html
16.柯华庆:通观经济学原理通观经济学认为,历史上的任何政府都是有为的,区别在于是消极作为还是积极作为,是为了社会的强者还是为了社会的弱者。通观经济学秉持关系价值论、共有共享资本论,突破公有制与私有制的二元划分,采取区间数来讨论合作剩余,主张连续性的共有制。通观经济学,需要六个基本概念。区间数理论和讨价还价博弈,都是其合适的分https://www.aisixiang.com/data/142441.html