2023年LLM如何入门?请看这篇综述!丨论文解读我们重点关注大型模型,同时排除早期预训练语言模型的内容,特别是,我

注意,本文不涉及太多复杂的公式与数学推导,初学者或者像笔者一样数学不好的读者可以放心阅读!

Q:这些年,我们在做什么?

A:自从图灵测试在1950年代提出以来,人类一直在探索如何让机器掌握语言智能。为了理解和掌握语言,开发能力强的人工智能算法面临着重大挑战。语言模型LM在过去的二十年中被广泛研究,用于语言理解和生成,从统计语言模型发展到神经语言模型。

Q:你说的这些都是比较老的事情了,现在在做什么?

A:确实,那近几年的话,研究人员提出了预训练语言模型PLM,通过对大规模语料库进行Transformer模型的预训练,展现了解决各种NLP任务的强大能力。并且,由于研究人员发现模型缩放可以导致模型容量的提高,他们进一步通过增加参数规模来探究缩放效应。

Q:等会儿等会儿,听不懂了,解释解释什么叫模型缩放,模型容量?

A:

补充一点有趣的,当参数规模超过一定水平时,这些扩大的语言模型不仅可以实现显著的性能提升,还表现出一些特殊的能力,比如上下文学习能力等等,这是小规模语言模型(例如BERT)所没有的,这种现象被称为涌现Emergence。

Q:这么厉害?那是不是越涌现就越好?

A:你都这么问了,显然心存疑虑,实际上,涌现现象也可能导致模型出现一些意外的错误或偏见,因此需要在模型设计和训练中加以注意和控制。

Q:那这么多参数的模型是不是应该给赋予一个新的名字?

A:没错,为了区分不同参数规模的语言模型,研究界为具有包含数十亿或数百亿参数的PLM创造了LLM这一术语,也就是大语言模型LargeLanguageModel。

Q:那就是所谓的ChatGPT了!

A:是的,但LLM不只有ChatGPT,还有很多很多...

Q:这么多?我想更多的了解LLM,你能介绍一下吗?

A:当然可以,我们今天读的这篇综述就是在介绍LLM的背景、关键发现和主流技术。

一般而言,LM的目标是建模单词序列的生成概率,以预测未来的或缺失的token的概率。

StatisticalLanguageModel是一种基于统计方法的语言模型,它通过计算给定上下文条件下各个可能的下一个词出现的概率,来对自然语言进行建模。

SLM通常使用N-gram模型来表示上下文,即假设下一个词的出现只与前面N个词有关。

SLM在NLP和信息检索等领域有着广泛的应用,但是其表现受限于数据量和特征选择,主要的应用如统计机器翻译SMT和GMM+HMM模型。

NeuralNetworkLanguageModel是一种基于神经网络的语言模型,它通过将自然语言转化为向量表示,利用神经网络建模词汇之间的关系来预测下一个词。

NLM通常使用RNN或者变种(如LSTM、GRU)来处理序列数据,并将上下文表示为隐藏状态。

Pre-trainedLanguageModel是一种在大规模数据上进行预训练的语言模型,它通过无监督的方式学习自然语言的特征表示,从而为不同的任务提供通用的特征提取器。

PLM通常使用自编码器、Transformer等模型结构,在大规模数据上进行预训练,并通过微调FT等方式适应不同的下游任务。

PLM的出现极大地促进了NLP的发展,如BERT、GPT等模型就是PLM的代表。

LargeLanguageModel是一种具有大量参数的语言模型,它通过增加模型的容量和训练数据量来提高模型的表现。

LLM通常基于PLM进行设计,通过增加模型规模、调整模型结构、加入更多的任务等方式来增加模型的复杂度和泛化能力。

LLM在NLP领域表现出了惊人的性能,在PLM的基础上,增大模型参数,使得LLM出现PLM不具有的涌现能力,同样采用预训练+微调的形式。

LM与LLM已经逐渐成为热点话题,事实上,我们通过近年来包含这两个关键词的Arxiv论文数量的变化趋势便可窥见一斑:

LLM的研发需要大量的数据处理和分布式训练经验,这与传统的研究和工程界限已经模糊。

目前,LLM对于人工智能领域产生了巨大的影响,ChatGPT和GPT-4已经引发了对于AGI的重新思考。

不过,虽然LLM已经取得了很大的进展和影响,但其底层原理仍然没有得到很好的探索。其中一个很浅显而又重要的问题是,为什么LLM会出现新的能力,而较小的PLM不会?

其次,研究人员很难训练出有能力的LLM,因为需要大量的计算资源,而训练LLM的许多重要细节(如数据收集和清洗)也没有被公开。

再者,如何使LLM符合人类价值观和偏好也是一个挑战,因为它们可能会产生有害的内容。

LLM已经演变成目前的状态,成为通用和有能力的学习器,这得益于多项重要技术。

其中,缩放、训练、能力激发、对齐调整和工具操作是导致LLM成功的关键技术。

简要解释一下:

需要指出的是,实线表示两个模型之间的演化路径存在明确的证据,虚线表示演化关系相对较弱。

LargeLanguageModelAnalysis是一个用于评估大型语言模型的工具集,它由OpenAI开发并开源,旨在帮助研究人员和开发人员评估和理解大型语言模型的行为和性能,并发现其中可能存在的问题和偏见。

LLaMA提供了一系列工具和指标,可以帮助用户对大型语言模型进行各种分析,包括模型的性能评估、模型的内部结构和行为分析、模型的偏见检测等。

LLaMA的主要功能:

下图是LLaMA研究工作的演化图,由于数量庞大,无法将所有的LLaMA变体包括在这个图中。

这些模型通常采用预训练的方式进行训练,并具有较高的性能和泛化能力。OpenAI的GPT系列模型和Google的BERT模型等都是公开可用的模型检查点。

训练大型语言模型需要大量的文本数据,因此,常用语料库是训练大型语言模型所需的重要资源之一。

常用语料库包括CommonCrawl、维基百科、新闻数据、网络文本等。这些语料库通常可以通过互联网公开获取,并且已经被清洗和标记。

这些框架和工具提供了丰富的API和函数库,可以帮助研究人员和开发人员更加高效地构建、训练和评估大型语言模型,比如:

此外,还需要一些数据处理、可视化和模型调试等工具来辅助训练和分析。这些工具和资源通常可以通过互联网免费获取。

LLM的预训练是指在大规模语料库上进行的无监督学习过程,通过学习语料库的统计规律和语言结构,让模型获得基础的语言理解和生成技能。

预训练为LLM的能力奠定了基础,使得LLM在进行特定任务的微调时能够更快、更准确地收敛,并且可以具备更好的泛化能力。

但我们需要注意的是,在预训练过程中,语料库的规模和质量对于LLM获得强大的能力至关重要。一般来说,有如下规律:

为了开发具有强大能力的LLM,需要收集大量自然语言的语料库。

下图是各种数据源在现有LLM预训练数据中的比例:

在收集大量文本数据之后,对数据进行预处理以构建预训练语料库非常重要,尤其是需要去除噪声、冗余、无关和可能有害的数据,这些因素可能会严重影响LLM的容量和性能。

典型的数据清洗流程如下:

下图是三种主流架构中注意力模式的比较。

其中,蓝色、绿色、黄色和灰色的圆角矩形分别表示前缀符号之间的注意力、前缀与目标符号之间的注意力、目标符号之间的注意力和被掩盖的注意力。

我们来解释一下这几个注意力有什么区别:

首先我们要知道,实例格式化是什么?

实例格式化是指将数据实例(如文本、图像、音频等)处理成一种特定的格式,以便它们可以被用于机器学习算法的输入。

下图是实例格式化的说明和用于构造指令格式实例的常见的三种不同方法:

调参是LLM训练过程中的一个重要环节,目的是找到最优的超参数组合,以提高模型在测试集上的性能。

那么,有几种常见的Tuning方法呢?

InstructionTuning是通过添加一些人工规则或指令来对模型进行微调,以使其更好地适应特定的任务或应用场景。

Example:在文本生成任务中,可以添加一些指令来控制生成的文本的长度、内容和风格。

AlignmentTuning是通过对齐源语言和目标语言的数据来对模型进行微调,以提高翻译或文本生成的质量。

Example:在机器翻译任务中,可以通过对齐源语言和目标语言的句子来训练模型,以提高翻译的准确性。

RLHF是使用强化学习算法来对模型进行微调,以使其更好地适应特定的任务或应用场景。

该技术通常分为三个阶段:数据预处理、基准模型训练和强化学习微调。在微调阶段,模型会通过与人类交互来学习如何生成更符合人类预期的文本。

下图是RLHF算法的工作流程:

AdapterTuning是在预训练模型中添加适配器层,以适应特定的任务或应用场景。适配器层可以在不改变预训练模型权重的情况下,对特定任务进行微调。这种技术可以提高模型的效率和泛化能力,同时减少对计算资源的需求。

PrefixTuning是通过在输入中添加一些前缀来对模型进行微调,以使其更好地适应特定的任务或应用场景。前缀可以提供一些额外的信息。

Example:任务类型、领域知识等,以帮助模型更准确地生成文本。

PromptTuning是通过设计合适的Prompt来对模型进行微调,以使其更好地适应特定的任务或应用场景。提示是一些关键词或短语,可以帮助模型理解任务的要求和期望输出的格式。

LoRA是通过将预训练模型分解成低秩矩阵来进行微调,以提高模型的效率和泛化能力。该技术可以减少预训练模型的参数数量,同时保留模型的表示能力,从而提高模型的适应性和泛化能力。

下图是2.42.52.62.7四种调参方法的对比示意图:

Utilization是在预训练或自适应调优之后进行的,一种典型的提示方法是上下文学习,它以自然语言文本的形式制定任务描述或演示。

此外,思维链提示可以通过在提示中加入一系列中间推理步骤来增强上下文学习。对于复杂任务的求解,提出了规划,首先将复杂任务分解为更小的子任务,然后生成一个行动计划来逐个解决这些子任务。

LLM大致可分为Pre-train阶段、Tuning阶段,使用Prompt阶段。

接下来,我们将简要介绍这三种Prompt技术,长话短说:

语境学习旨在通过模型自身的学习过程来改进其在特定上下文中的表现。通过对模型进行反馈和调整,可以使模型逐渐适应不同的语境和场景,从而提高其在各种任务中的性能和泛化能力。

思维链提示通过提示来引导模型生成连贯的、具有逻辑关系的文本。

该技术基于思维链的概念,即人们在思考时通常会按照一定的逻辑顺序组织思维和语言。通过在生成文本时引导模型按照特定的思维链顺序组织文本,可以使生成的文本更加连贯和合理。

下图是情境学习ICL和思维链CoT提示的对比说明。ICL用自然语言描述、几个演示和一个测试查询提示LLM,而CoT提示涉及提示中的一系列中间推理步骤:

其实就是分治,通过将任务分解为多个子任务,并为每个子任务制定计划来解决复杂任务的技术。

该技术可以帮助模型更好地理解任务的结构和要求,从而更有效地解决复杂任务。此外,该技术还可以通过对任务和子任务之间的依赖关系进行建模,来提高模型的泛化能力和鲁棒性。

Bytheway,LLM的涌现实际上也表现在这几个方面。

下图是LLM解决复杂任务的基于提示的规划公式示意图:

注意,此处与原文有出入,我们选择了一些原文中提到的细节,但也添加了一些新的内容。

PromptCreation:关键成分,设计原则,有用技巧。

我们回顾了LLM的最新进展,并介绍了理解和利用LLM的关键概念、发现和技术。

此外,我们还总结了开发LLM的可用资源,并讨论了复现LLM的重要实施指南。

接下来,我们总结了本次调查的讨论,并介绍了LLM在以下方面的挑战和未来方向:

THE END
1.互联网发展概况20241217162342.pptx互联网发展概况;;;中国互联网发展历程;@中国互联网现状;网民规模继续攀升,但增速放缓;手机网民规模爆发;商务应用快速发展;网络购物用户对比;搜索引擎用户对比;企业应用;企业应用互联网的积极性不断提高;企业应用爆发促进相关服务市场增长;传统企业重视互联网应用,但应对手段不够;总结;@互联网的发展趋势;THANKS 下载文档https://max.book118.com/html/2024/1217/6013230004011012.shtm
2.互联网简史互联网发展的四个阶段简图文章浏览阅读5.3k次。互联网简史一张图带你了解 互联网简史 互联网发展关键人物_互联网发展的四个阶段简图https://blog.csdn.net/u013039395/article/details/88073013
3.互联网发展的四个阶段理想股票技术论坛互联网经历了四个发展阶段,每个阶段都有其独特的特征和里程碑。这些阶段包括初级阶段、扩张阶段、成熟阶段和创新发展阶段。每个阶段的特征都反映了互联网技术的不断进步和应用的广泛普及。 ,理想股票技术论坛https://www.55188.com/tag-08648210.html
4.互联网项目计划书重在把大赛作为深化创新创业教育改革的重要抓手,主动服务湖北地方经济发展,创新人才培养机制,切实提高我校学生的创新精神、创业意识和创新创业能力。 三、参赛项目要求 参赛项目要求能够将移动互联网、云计算、大数据、人工智能、物联网等新一代信息技术与经济社会各领域紧密结合,培育基于互联网新时代的新产品、新服务、https://www.oh100.com/a/202401/7559295.html
5.互联网基础结构发展经历了哪几个阶段?每个阶段有何特点?爱因斯坦提出光具有波粒二象性的理论后,法国科学家德布罗意曾这样推测:“凡有质量的都是有能量的,凡实物粒子都是有质量的,所以,凡实物粒子都是有能量的。”这个三段论①大前提是“凡有质量的都是有能量的” ②中项是“凡实物粒子都是有质量的”③小前提是“凡实物粒子都是有质量的” ④结论中的主项“实物https://www.shuashuati.com/ti/fa0f160308504413adc5940f8e198081.html
6.艾媒研报字节跳动研究报告:以智能算法为驱动的互联网新巨头2.1.2发展历程:踩准移动互联网时代泛阅读需求 根据今日头条的日活和月活用户数来看,可以把今日头条的发展分为三个阶段。 初创期:初创期从2012成立之初到2014年12月,产品基本成型,但日活、月活增长并不明显。 成长期:成长期从2015年到2017年7月,本阶段公司快速发展,产品迅速成熟,公司业务也开始多元化,日活跃用户数https://www.iimedia.cn/c1000/63778.html
7.“入网”30年,互联网带来了什么30年来,互联网深深扎根中国。从门户网站到即时通信,从电脑端到移动端,从搜索引擎到万物互联,互联网既打破物理空间的阻隔,向普通人敞开机遇大门,又在时间维度上不停裂变,让无数不起眼的瞬间成为意义深远的开场。由此来看,互联网带来的最宝贵礼物之一,就是拓展了创新创造https://mp.weixin.qq.com/s?__biz=MzI1MzE3OTAxOA==&mid=2661355726&idx=1&sn=1c20dc78efac3ba071171ccf41c3dc0e&chksm=f28dd52bc5fa5c3d476b9a37ed0d7c517f80d8d93ab0ba1c2fb9687ec2220c4934abab55ec52&scene=27
8.社会认知实习报告(精选16篇)通信工程专业认识实习报告 正文 接TMN,TMN实施对接入网的操作、维护和管理。 4.通信行业的发展历史 第一阶段:以语言为主,通过人力、马力、烽火等原始手段传递信息。第二阶段:文字、邮政。(增加了信息传播的手段)第三阶段:印刷。(扩大信息传播范围)第四阶段:电报、电话、广播。(进入电器时代)第五阶段:信息时代,除https://www.diyifanwen.com/fanwen/shixibaogao/13508714.html
9.商务策划书(共16篇)策划书中还附有网站主页简图,可以清楚的了解主页所有项目的具体位置,把公司形象与网站形象统一起来。 五、后期管理 网站建成之后,负责建网公司附上红领网站的推广方案,并提供技术方面的培训,使网站有一个良好的后期推广。 篇9:商务营销的策划书 一、前言。 1、行业背景。 2、互联网行业背景。 远洋旅游商务网,将传https://www.rajj122.com/zhichang/cehuashu/274728.html
10.体育与降课程标准(四) 关注个体差异与不同需求,确保每一个学生受益 体育与健康课程充分注意到学生在身体条件、兴趣爱好和运动技能等方面的个体差异,根据这种差异性确定学习目标和评价方法,并提出相应的教学建议,从而保证绝大多数学生能完成课程学习目标,使每个学生都能体验到学习和成功的乐趣,以满足自我发展的需要。 http://qpzx.qpedu.cn/jhkx/kcgl/kcbz/249082.htm
11.文化创意产品策划书(推荐6篇)策划书千文网小编为你整理了多篇相关的《文化创意产品策划书(推荐6篇)》,但愿对你工作学习有帮助,当然你在千文网还可以找到更多《文化创意产品策划书(推荐6篇)》。 第一篇:创意活动策划书 一、活动前言 心理键康与一个人的成就、贡献、成才关系重大。心理健康可以促进大学生全面发展健康的心理品质,是大学生全面发展的基https://m.588k.com/yyws/chs/1158519.html
12.年会通知模板20篇2、促进化工物流多式联运的发展及布局? 3、推进货运车辆技术升级,"互联网+"货运的创新; 融合共享: 1、安全文化及理念如何更加深入; 2、新技术、新设备、信息化助力产业创新融合发展; 3、探寻适合中国化工物流产业向价值链高端发展的新路径; 四、会议安排 https://www.yjbys.com/tongzhi/2897823.html
13.网络媒体(精选十篇)随着网络的普及以及功能的提升, 互联网的信息发布后, 在其功能上增加了和读者之间的互动环节, 读者有什么想法看法以及建议批评都可以在网络上发表, 信息传播者和信息接收者就会有一个互动环节, 了解双方各自的想法和态度等等, 对于以后信息的发布起到一个促进作用。四是网络媒体读者花费成本低。相对于传统媒体, 网络https://www.360wenmi.com/f/cnkeyjqv1wit.html
14.职称评审中级工程师工作总结范文(通用18篇)5、公司针对员工的工作岗位与职位重新部署了FTP服务器的访问权限与互联网访问,使每个员工都能把重要的文件放到服务器上相关部门的文件夹里作备份,且通过内外网均可实现访问FTP服务器,大大方便了员工在外出差或在家里随时提取相关资料,且员工的访问权限不一样,故某些与自己无关或公司重要资料进行了保密设置,从而大大提https://www.ruiwen.com/zongjie/6218575.html
15.小学美术教育研究论文整体法是指将每个年龄段的小学生都看作不同的整体,根据年龄发展阶段进行教学,主要分为小学低年级(一、二年级)、小学中年级(三、四年级)和小学高年级(五、六年级)等三个年级段,随着年龄的增长和社会经历的积累,不同年级段的孩子对美学有着不同的认知,教师要通过平时与学生的交流和相关的社会经验来选择不同的教https://www.fwsir.com/jy/html/jy_20201129080142_617541.html
16.压缩天然气加气站10篇(全文)费加营CNG加气站工艺流程简图如图1所示。 2 主要工艺设施及其设计要点 由于柳泉加气母站气源来自涩宁兰(四)、安全性 (五)、经济型 第二节、加气站用天然气压缩机行业发展环境分析 一、行业经济环境分析2、“互联网+”系列研究报告 《2017-2021年中国互联网+广告行业运营咨询及投资建议报告》 《2017-2021https://www.99xueshu.com/w/ikeyvxeribce.html
17.实习工作总结(通用15篇)随着现在移动互联网的热门,也可以在移动互联网上进行一系列的宣传广告,例如微信、 UC浏览器等。 我想通过我上面的一系列步骤后,我们店的电脑销售量一定会有一定的上升的。 八、实践心得 公司规模较小,正处于发展阶段,我也发现了公司存在的一些问题如,员工管理上较为混乱,职责不够明确,公司没有一个有效地激励机制https://www.gdyjs.com/shiyongwen/shixizongjie/158740.html
18.什么是TCP拥塞控制及谷歌的BBR算法我们可以看到TCP/IP协议栈是一个简化的分层模型,是互联网世界连接一切的基石,一起来看一张七层模型vs四层模型的简图: 大约在1988年之前TCP/IP是没有拥塞控制的,但是随着网络接入规模的发展之前仅有的端到端窗口控制已经无法满足要求,在1986年引发大规模网络瘫痪,此时就要提到一个重量级人物:Van Jacobson范·雅各布森https://www.51cto.com/article/685201.html
19.工程师工作总结总结是指对某一阶段的工作、学习或思想中的经验或情况进行分析研究,做出带有规律性结论的书面材料,它能够给人努力工作的动力,因此十分有必须要写一份总结哦。你所见过的总结应该是什么样的?下面是小编收集整理的工程师工作总结,欢迎大家分享。 工程师工作总结 篇1 https://www.yuwenmi.com/fanwen/gongzuo/4483472.html
20.计算机应用论文然而,由于其课程内容组织与课程进行的模式、师生与同侪间互动方式、评量方式以及所利用的教学工具与媒体等,皆与传统教学的差别甚大,且其蕴含着大规模参与人数及协同创作等创新特性,故教师的教学模式必须因应时势而有所调整及变革,除了必须发展相关的信息科技能力与的.知识,学校单位亦应了解教师于参与慕课教学过程各阶段https://www.wenshubang.com/jisuanjibiyelunwen/4591740.html