转自知乎NLP算法面试必备!史上最全!PTMs:NLP预训练模型的全面总结澄轶

预训练模型(Pre-trainedModels,PTMs)的出现将NLP带入了一个全新时代。2020年3月18日,邱锡鹏老师发表了关于NLP预训练模型的综述《Pre-trainedModelsforNaturalLanguageProcessing:ASurvey》[1],这是一篇全面的综述,系统地对PTMs进行了归纳分类。

获取总结图片下载以及单模型精读请到github:NLP预训练模型的全面总结,希望为大家的学习工作提供一些帮助。

笔者注:本文总结与原综述论文也有一些不同之处(详见文末),如有错误或不当之处请指正。很多总结归纳的点不太好拿捏,大家多给意见~

一、为什么要进行预训练?深度学习时代,为了充分训练深层模型参数并防止过拟合,通常需要更多标注数据喂养。在NLP领域,标注数据更是一个昂贵资源。PTMs从大量无标注数据中进行预训练使许多NLP任务获得显著的性能提升。总的来看,预训练模型PTMs的优势包括:

在庞大的无标注数据上进行预训练可以获取更通用的语言表示,并有利于下游任务;为模型提供了一个更好的初始化参数,在目标任务上具备更好的泛化性能、并加速收敛;是一种有效的正则化手段,避免在小数据集上过拟合(一个随机初始化的深层模型容易对小数据集过拟合);二、什么是词嵌入和分布式表示?PTMs与分布式表示的关系?词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量,这也是分布式表示:向量的每一维度都没有实际意义,而整体代表一个具体概念。

分布式表示相较于传统的独热编码(one-hot)表示具备更强的表示能力,而独热编码存在维度灾难和语义鸿沟(不能进行相似度计算)等问题。传统的分布式表示方法,如矩阵分解(SVD/LSA)、LDA等均是根据全局语料进行训练,是机器学习时代的产物。

PTMs也属于分布式表示的范畴,本文的PTMs主要介绍深度学习时代、自NNLM[2]以来的“modern”词嵌入。

三、PTMs有哪两大范式?对比不同的预训练编码器?PTMs的发展经历从浅层的词嵌入到深层编码两个阶段,按照这两个主要的发展阶段,我们归纳出PTMs两大范式:「浅层词嵌入」和「预训练编码器」。

1、浅层词嵌入(Non-ContextualEmbeddings)

浅层词嵌入,这一类PTMs范式是我们通常所说的“词向量”,其主要特点是学习到的是上下文独立的静态词嵌入,其主要代表为NNLM[2]、word2vec(CBOW[3]、Skip-Gram[3])、Glove[4]等。这一类词嵌入通常采取浅层网络进行训练,而应用于下游任务时,整个模型的其余部分仍需要从头开始学习。因此,对于这一范式的PTMs没有必要采取深层神经网络进行训练,采取浅层网络加速训练也可以产生好的词嵌入[3]。

浅层词嵌入的主要缺陷为:

2、预训练编码器(ContextualEmbeddings)

图2:NLP编码器对比图2给出了NLP各种编码器间的对比。PTMs中预训练编码器通常采用LSTM和Transformer(Transformer-XL),其中Transformer又依据其attention-mask方式分为Transformer-Encoder和Transformer-Decoder两部分。此外,Transformer也可看作是一种图神经网络GNN[10]。

这一类「预训练编码器」范式的PTMs主要代表有ELMO[11]、GPT-1[12]、BERT[13]、XLNet[14]等。

四、PTMs按照任务类型如何分类?PTMs按照任务类型可分为2大类:监督学习和无监督学习/自监督学习。

监督学习在NLP-PTMs中的主要代表就是CoVe[15],CoVe作为机器翻译的encoder部分可以应用于多种NLP下游任务。除了CoVe外,NLP中的绝大多数PTMs属于自监督学习。

自监督学习是无监督学习的一种方法[16],自监督学习[17]主要是利用辅助任务从大规模的无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征。因此,从“构造监督信息”这个角度来看,自监督也可看作是监督学习和无监督学习的一种融合[1]。严格地讲,从是否由人工标注来看,自监督学习属于无监督学习的范畴。

综合各种自监督学习的分类方式,笔者将NLP-PTMs在自监督学习中分为两种类型[16][17]:基于上下文(ContextBased)和基于对比(ContrastiveBased)。

1、基于上下文(ContextBased)

基于上下文的PTMs,主要基于数据本身的上下文信息构造辅助任务,在NLP中我们通常引入语言模型作为训练目标。PTMs中的语言模型主要分为三大类:

图3:三类语言模型之间的对比第一类:自回归语言模型(LM)

[公式]

上述DAE具体的PTMs方法见图4。

第三类:排列语言模型(PLM)

PLM最为典型的代表就是XLNet[14],这是对标准语言模型的一个复兴[33]:提出一个框架来连接标准语言模型建模方法和预训练方法。

一个关键问题:为什么PLM可以实现双向上下文的建模?PLM的本质就是语言模型联合概率的多种分解机制的体现,其将LM的顺序拆解推广到随机拆解。PLM没有改变原始文本序列的自然位置,只是定义了token预测的顺序。PLM只是针对语言模型建模不同排列下的因式分解排列,并不是词的位置信息的重新排列。

最后,我们对基于上述三类语言模型的PTMs进行总结:

图4:基于上下文(ContextBased)的3种语言模型PTMs总结2、基于对比(ContrastiveBased)

基于对比(ContrastiveBased),不同于ContextBased主要基于数据本身的上下文信息构造辅助任利用,ContrastiveBased主要利用样本间的约束信息构造辅助任务,这类方法也是Contrastivelearning[34](CTL)。CTL假设观察到的文本对(正样本)在语义上比随机采样的文本(负样本)更相似。CTL背后的原理是「在对比中学习」。相较于语言建模,CTL的计算复杂度更低,因而在预训练中是理想的替代训练标准。

CTL通过构建正样本(positive)和负样本(negative),然后度量正负样本的距离来实现自监督学习[17]:可以使用点积的方式构造距离函数,然后构造一个softmax分类器,以正确分类正样本和负样本。鼓励相似性度量函数将较大的值分配给正例,将较小的值分配给负例:

相似性度量函数通常可采取两种方式:[公式]或[公式]

第一类:DeepInfoMax(DIM)

InfoWord[35]将DIM引入到NLP中,用MutualInformation的一个下界InfoNCE来重新解释BERT和XLNET的objective,并提出一个新的DIMobjective以最大化一个句子的globalrepresentation和其中一个ngram的localrepresentation之间的MutualInformation。

第二类:ReplacedTokenDetection(RTD)

噪声对比估计(Noise-ContrastiveEstimation,NCE)[36]通过训练一个二元分类器来区分真实样本和假样本,可以很好的训练词嵌入。RTD于与NCE相同,根据上下文语境来预测token是否替换。

word2vec[3]中的negativesampling可看作是RTD,负样本从词表中进行带权采样。ELECTRA[37]提出了一种新的预训练任务框架,构建生成器-判别器,生成器通过MLM任务对被mask的token进行预测,迭代器判断原始句子中的每个token是否被replace过。生成器相当于对输入进行了筛选,使判别器的任务更难,从而学习到更好的表示。生成器-判别器共享embedding,生成器部分采用small-bert,判别器部分对每一个token采用sigmoid计算loss。finetune阶段只采用判别器部分。RTD也被看作解决MLM中「MASK」在预训练和finetune间差异的一种手段。WKLM[38]在实体level进行替换,替换为具有相同实体类型的实体名称。第三类:NextSentencePrediction(NSP)

NSP区分两个输入句子是否为训练语料库中的连续片段,第二个句子50%为第一句子实际的连续片段,50%从其他语料随机选择。NSP可以引导模型理解两个输入句子之间的关系,从而使对此信息敏感的下游任务受益,如QA任务。而RoBERTa[23]表明:NSP在对单个文档中的文本块进行训练时,去除NSP任务或在下游任务上可以稍微提高性能。

第四类:SentenceOrderPrediction(SOP)

图5对上述基于对比(ContrastiveBased)的四类PTMs进行了总结:

图5:基于上下文(ContrastiveBased)的PTMs总结五、PTMs有哪些拓展?1、引入知识

PTMs通常从通用大型文本语料库中学习通用语言表示,但是缺少特定领域的知识。PTMs中设计一些辅助的预训练任务,将外部知识库中的领域知识整合到PTMs中被证明是有效的[1]。

由于预训练的语言模型通常包含至少数亿个参数,因此很难将它们部署在现实应用程序中的在线服务和资源受限的设备上。模型压缩是减小模型尺寸并提高计算效率的有效方法。

5种PTMs的压缩方法为:

图6:不同的知识蒸馏PTMs3、多模态

4、领域预训练

大多数PTM都在诸如Wikipedia的通用语料中训练,而在领域化的特定场景会收到限制。如基于生物医学文本的BioBERT[74],基于科学文本的SciBERT[75],基于临床文本的Clinical-BERT[76]。一些工作还尝试将PTMs适应目标领域的应用,如医疗实体标准化[77]、专利分类PatentBERT[78]、情感分析SentiLR[79]关键词提取[80]。

5、多语言和特定语言

学习跨语言共享的多语言文本表示形式对于许多跨语言的NLP任务起着重要的作用。

Multilingual-BERT[81]在104种Wikipedia文本上进行MLM训练(共享词表),每个训练样本都是单语言文档,没有专门设计的跨语言目标,也没有任何跨语言数据,M-BERT也可以很好的执行跨语言任务。XLM[25]通过融合跨语言任务(翻译语言模型)改进了M-BERT,该任务通过拼接平行语料句子对进行MLM训练。Unicoder[82]提出了3种跨语言预训练任务:1)cross-lingualwordrecovery;2)cross-lingualparaphraseclassification;3)cross-lingualmaskedlanguagemodel.虽然多语言的PTMs在跨语言上任务表现良好,但用单一语言训练的PTMs明显好于多语言的PTMs。此外一些单语言的PTMs被提出:BERT-wwm[83],ZEN[84],NEZHA[85],ERNIE-Baidu[27][28],BERTje[86],CamemBERT[87],FlauBERT[88],RobBERT[89]。

六:如何对PTMs进行迁移学习?PTMs从大型语料库中获取通用语言知识,如何有效地将其知识适应下游任务是一个关键问题。迁移学习的方式主要有归纳迁移(顺序迁移学习、多任务学习)、领域自适应(转导迁移)、跨语言学习等。NLP中PTMs的迁移方式是顺序迁移学习。

1、如何迁移?

1)选择合适的预训练任务:语言模型是PTM是最为流行的预训练任务;同的预训练任务有其自身的偏置,并且对不同的任务会产生不同的效果。例如,NSP任务可以使诸如问答(QA)和自然语言推论(NLI)之类的下游任务受益。

2)选择合适的模型架构:例如BERT采用的MLM策略和Transformer-Encoder结构,导致其不适合直接处理生成任务。

3)选择合适的数据:下游任务的数据应该近似于PTMs的预训练任务,现在已有有很多现成的PTMs可以方便地用于各种特定领域或特定语言的下游任务。

4)选择合适的layers进行transfer:主要包括Embedding迁移、toplayer迁移和alllayer迁移。如word2vec和Glove可采用Embedding迁移,BERT可采用toplayer迁移,Elmo可采用alllayer迁移。

5)特征集成还是fine-tune?对于特征集成预训练参数是freeze的,而fine-tune是unfreeze的。特征集成方式却需要特定任务的体系结构,fine-tune方法通常比特征提取方法更为通用和方便。

2、fine-tune策略:通过更好的微调策略进一步激发PTMs性能

两阶段fine-tune策略:如第一阶段对中间任务或语料进行finetune,第二阶段再对目标任务fine-tune。第一阶段通常可根据特定任务的数据继续进行fine-tune预训练。多任务fine-tune:MTDNN[90]在多任务学习框架下对BERT进行了fine-tune,这表明多任务学习和预训练是互补的技术。采取额外的适配器:fine-tune的主要缺点是其参数效率低,每个下游任务都有自己的fine-tune参数。因此,更好的解决方案是在固定原始参数的同时,将一些可fine-tune的适配器注入PTMs。逐层阶段:逐渐冻结而不是同时对所有层进行fine-tune,也是一种有效的fine-tune策略。七、PTMs还有哪些问题需要解决?(本部分来自[91],有删减和修正)

虽然PTMs已经在很多NLP任务中显示出了他们强大的能力,然而由于语言的复杂性,仍存在诸多挑战。综述论文给出了五个未来PTMs发展方向的建议。

1、PTMs的上限

目前,PTMs并没有达到其上限。大多数的PTMs可通过使用更长训练步长和更大数据集来提升其性能。目前NLP中的SOTA也可通过加深模型层数来更进一步提升。这将导致更加高昂的训练成本。因此,一个更加务实的方向是在现有的软硬件基础上,设计出更高效的模型结构、自监督预训练任务、优化器和训练技巧等。例如,ELECTRA[37]就是此方向上很好的一个解决方案。

2、面向任务的预训练和模型压缩

在实践中,不同的目标任务需要PTMs拥有不同功能。而PTMs与下游目标任务间的差异通常在于两方面:模型架构与数据分布。尽管较大的PTMs通常情况下会带来更好的性能表现,但在低计算资源下如何使用是一个实际问题。例如,对于NLP的PTM来说,对于模型压缩的研究只是个开始,Transformer的全连接架构也使得模型压缩具有挑战性。

3、PTMs的架构设计

对于PTMs,Transformer已经被证实是一个高效的架构。然而Transformer最大的局限在于其计算复杂度(输入序列长度的平方倍)。受限于GPU显存大小,目前大多数PTM无法处理超过512个token的序列长度。打破这一限制需要改进Transformer的结构设计,例如Transformer-XL[92]。

4、finetune中的知识迁移

finetune是目前将PTM的知识转移至下游任务的主要方法,但效率却很低,每个下游任务都需要有特定的finetune参数。一个可以改进的解决方案是固定PTMs的原始参数,并为特定任务添加小型的finetune适配器,这样就可以使用共享的PTMs服务于多个下游任务。

5、PTMs的解释性与可靠性

PTMs的可解释性与可靠性仍然需要从各个方面去探索,它能够帮助我们理解PTM的工作机制,为更好的使用及性能改进提供指引。

THE END
1.unit单词快闪课件2024Welcome+Unit高中英语人教版(2019)必修第一册+ 热度: 页数:22 Welcome+unit单词讲解 高中英语人教版必修第一册 热度: 页数:48 Welcome+Unit+Reading+for+Writing+课件-2023-2024学年高中英语人教版(2019)必修第一册 热度: 页数:16 Welcome+Unit+词汇 高中英语人教版(2019)必修第一册 热度: 页数:31https://www.docin.com/touch_new/preview_new.do?id=4774112466
2.全国通用版人教版高中英语必修一WelcomeUnit易错知识点总结(每日一练)全国通用版人教版高中英语必修一WelcomeUnit易错知识点总结 单选题1、Manyoldpeopleholdahttps://bbs.pinggu.org/thread-13239974-1-1.html
3.英语听说教学新模式12篇(全文)[1]曾卓.建构主义教学理论与多媒体网络英语听力教学. [2]李敏玲.利用网络技术对中学英语口语教学的初步尝试. [3]周巧玲.中小学外语教学[M].人民教育出版社, 2003 (3) . 英语听说课教学模式 第2篇 一、明确话题,呈现目标词汇。 二、词汇训练,巩固强化。 https://www.99xueshu.com/w/ikeyjp5cjxt5.html
4.机器学习(ML)深度学习(DL)和图像处理(opencv)专用英语词典cnn,卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。[1] 它包括卷积层(alternating convolutional layer)和池层(pooling layer)。 CNTK(Computational Network Toolkit)是微软出品的开源深度学习工具包。 https://blog.csdn.net/wyx100/article/details/74635853
5.(人教PEP2024版)英语三年级上册Unit5大单元教学设计(新教材内容提供方:有点 大小:2.37 MB 字数:约2.6万字 发布时间:2024-09-20发布于湖南 浏览人气:173 下载次数:仅上传者可见 收藏次数:1 需要金币:*** 金币 (10金币=人民币1元)(人教PEP2024版)英语三年级上册 Unit5 大单元教学设计(新教材).docx 关闭预览 想预览更多内容,点击免费在线预览全文 免费https://m.book118.com/html/2024/0918/6042011031010223.shtm
6.www.liweihb.com/aplpage98311.html潍柴全系列混合动力产品功率覆盖80kW-500kW,支持柴油、天然气、甲醇等多种燃料,相比同行业同排量产品功率提升25%,每方公里油耗节省35%-50%,展现了强大的燃料灵活性和经济性;采用高效区分燃烧、低阻空气系统及降摩擦技术,降低油耗6.7%;通过多目标磁路优化、高效区定向设计及载频控制,持续降低电耗2%-3%;结合多模态+https://www.liweihb.com/aplpage98311.html
7.大语言模型机器学习一、选择题 1. 以下哪项不是大型语言模型的主要训练方法? A. 监督学习 B. 无监督学习 C. 强化学习 D. 生成对抗网络 2. 在机器学习中,以下哪种算法不涉及对数据进行特征工程? A. 线性回归 B. 决策树 C. 支持向量机 D. 自动编码器 3. 以下哪种技术可以提高模型的泛化能力? https://www.itxiaonv.com/?p=2113
8.河南省教育厅序号 1 2 成果名称 基于web of science 国际科学教育领域研究文献的定 量分析 基于emd 和abc-svm 《函数》 吴新平 378 新乡市一区三校成绩管理系统 杨国防,胡雄彦,孟林,杨然,蔡文慧 379 人教版小学课的翻转课堂模式在大学英语词汇教学中应用的行动研 郭慧敏,庞彦https://zzjy.zhengzhou.gov.cn/attachment/%E5%85%B3%E4%BA%8E%E5%85%AC%E5%B8%83%202016%20%E5%B9%B4%E5%BA%A6%E6%B2%B3%E5%8D%97%E7%9C%81%E4%BF%A1%E6%81%AF%E6%8A%80%E6%9C%AF%E6%95%99%E8%82%B2%20%E4%BC%98%E7%A7%80%E6%88%90%E6%9E%9C%E5%A5%96%E7%9A%84%E9%80%9A%E7%9F%A5.pdf?5MHNdaer2wSDbGwq3aAv5y9GkuYN1ZZZuDta5EzZDwZ9FwR0JuHlQj0pLTFe6UKGUAhQnIdEBHbeKEl2NpSWpCtN2g==
9.现有一临时的紧急项目需要从ABC3个部门抽调人员来协同完成,一共现有一临时的紧急项目需要从ABC 3个部门抽调人员来协同完成,一共需要抽调6个人在1-4号参与工作,因为此项目与部门业务接近,所以部门确定负责一半的工作量。A部门目前可以安排足够的人员支持,但3号开始要开展本部门新业务,不能再继续支持。B部门当前有一个业务在3号上班前才能截止,截止之前无法提供支援那么各部门尽量https://www.shuashuati.com/ti/011097e222b14c00ac4b66af26e39e07.html
10.三亚学院三亚学院(University of Sanya,简称三院),位于海南省三亚市,是由海南省教育厅主管的全日制民办普通本科高等学校,由世界500强企业吉利控股集团出资建设,是中国高校创新创业教育联盟(IEEAC)成员高校。现任党委书记朱双平、校长陆丹。校训为“自立更生、合力更新、有https://baike.sogou.com/v308764.htm
11.Claude3惊喜上线:多模态能力比肩GPT推理能力,多模态,全系模型均能处理超过 100 万个 tokens + + + 瞬时结果虽然也很吸引我,但真正能达到3倍速+就是目前还是只有Haiku,推理能力超越GPT4的Opus响应的速度和上一版大致相同 + + + + + 更少的拒绝,也意味着模型不会动不动拒绝你的问题,但这一情况在我目前使用GPT API和GPT网页端都较少遇到,https://github.com/go2coding/go2coding.github.io/commit/00bc2a86df019d4cf04abc097cba4a2a0249b12b.diff
12.山西省教育厅关于2021年度研究生教育创新计划各类项目结果的公示基于语音的多模态情感识别 2021Y300 301 太原理工大学 李振宇 硕士研究生 张昊 基于复杂系统的图像版权保护技术研究 2021Y301 302 太原理工大学 刘蒙蒙 硕士研究生 牛保宁 关键词最优路径查询研究 2021Y302 303 太原理工大学 冯子坚 硕士研究生 邓红霞 疫情下的口罩人脸识别算法研究http://xxgc.org.cn/show-11593.html
13.IT之家评测室讯飞星火V3.5体验:整体接近GPT1月 30 日,科大讯飞举行了讯飞星火认知大模型 V3.5 升级发布会,会上,讯飞星火 V3.5 版本正式发布,这是是首个基于全国产化算力平台“飞星一号”训练的全民开放大模型。 科大讯飞董事长刘庆峰表示,讯飞星火 V3.5 整体已经接近 GPT-4 水平;其在数学、语言理解、语音交互能力超过 GPT-4Turbo。代码能力方面达到了 GPhttps://www.ithome.com/0/748/075.htm
14.广州中医药大学20212022学年度招收博士后研究人员公告1、专业方向:临床流行病学与卫生统计学,或医学免疫学、分子病毒学选其一; 2、能力素质要求:具有参与多中心临床实验经验,或能够独立开展实验研究,以第一作者发表SCI论文者优先考虑 刘云涛 13560021023 6 刘中秋 中药学 中药药理学 基于中药药代动力学原理的中药药效和毒性作用的机理以及防治肿瘤的转化医学研究 https://www.gccrcw.com/region/guangdong/gdgx/202204/1266719.html