2023年LLM如何入门?请看这篇综述!丨论文解读我们重点关注大型模型,同时排除早期预训练语言模型的内容,特别是,我

注意,本文不涉及太多复杂的公式与数学推导,初学者或者像笔者一样数学不好的读者可以放心阅读!

Q:这些年,我们在做什么?

A:自从图灵测试在1950年代提出以来,人类一直在探索如何让机器掌握语言智能。为了理解和掌握语言,开发能力强的人工智能算法面临着重大挑战。语言模型LM在过去的二十年中被广泛研究,用于语言理解和生成,从统计语言模型发展到神经语言模型。

Q:你说的这些都是比较老的事情了,现在在做什么?

A:确实,那近几年的话,研究人员提出了预训练语言模型PLM,通过对大规模语料库进行Transformer模型的预训练,展现了解决各种NLP任务的强大能力。并且,由于研究人员发现模型缩放可以导致模型容量的提高,他们进一步通过增加参数规模来探究缩放效应。

Q:等会儿等会儿,听不懂了,解释解释什么叫模型缩放,模型容量?

A:

补充一点有趣的,当参数规模超过一定水平时,这些扩大的语言模型不仅可以实现显著的性能提升,还表现出一些特殊的能力,比如上下文学习能力等等,这是小规模语言模型(例如BERT)所没有的,这种现象被称为涌现Emergence。

Q:这么厉害?那是不是越涌现就越好?

A:你都这么问了,显然心存疑虑,实际上,涌现现象也可能导致模型出现一些意外的错误或偏见,因此需要在模型设计和训练中加以注意和控制。

Q:那这么多参数的模型是不是应该给赋予一个新的名字?

A:没错,为了区分不同参数规模的语言模型,研究界为具有包含数十亿或数百亿参数的PLM创造了LLM这一术语,也就是大语言模型LargeLanguageModel。

Q:那就是所谓的ChatGPT了!

A:是的,但LLM不只有ChatGPT,还有很多很多...

Q:这么多?我想更多的了解LLM,你能介绍一下吗?

A:当然可以,我们今天读的这篇综述就是在介绍LLM的背景、关键发现和主流技术。

一般而言,LM的目标是建模单词序列的生成概率,以预测未来的或缺失的token的概率。

StatisticalLanguageModel是一种基于统计方法的语言模型,它通过计算给定上下文条件下各个可能的下一个词出现的概率,来对自然语言进行建模。

SLM通常使用N-gram模型来表示上下文,即假设下一个词的出现只与前面N个词有关。

SLM在NLP和信息检索等领域有着广泛的应用,但是其表现受限于数据量和特征选择,主要的应用如统计机器翻译SMT和GMM+HMM模型。

NeuralNetworkLanguageModel是一种基于神经网络的语言模型,它通过将自然语言转化为向量表示,利用神经网络建模词汇之间的关系来预测下一个词。

NLM通常使用RNN或者变种(如LSTM、GRU)来处理序列数据,并将上下文表示为隐藏状态。

Pre-trainedLanguageModel是一种在大规模数据上进行预训练的语言模型,它通过无监督的方式学习自然语言的特征表示,从而为不同的任务提供通用的特征提取器。

PLM通常使用自编码器、Transformer等模型结构,在大规模数据上进行预训练,并通过微调FT等方式适应不同的下游任务。

PLM的出现极大地促进了NLP的发展,如BERT、GPT等模型就是PLM的代表。

LargeLanguageModel是一种具有大量参数的语言模型,它通过增加模型的容量和训练数据量来提高模型的表现。

LLM通常基于PLM进行设计,通过增加模型规模、调整模型结构、加入更多的任务等方式来增加模型的复杂度和泛化能力。

LLM在NLP领域表现出了惊人的性能,在PLM的基础上,增大模型参数,使得LLM出现PLM不具有的涌现能力,同样采用预训练+微调的形式。

LM与LLM已经逐渐成为热点话题,事实上,我们通过近年来包含这两个关键词的Arxiv论文数量的变化趋势便可窥见一斑:

LLM的研发需要大量的数据处理和分布式训练经验,这与传统的研究和工程界限已经模糊。

目前,LLM对于人工智能领域产生了巨大的影响,ChatGPT和GPT-4已经引发了对于AGI的重新思考。

不过,虽然LLM已经取得了很大的进展和影响,但其底层原理仍然没有得到很好的探索。其中一个很浅显而又重要的问题是,为什么LLM会出现新的能力,而较小的PLM不会?

其次,研究人员很难训练出有能力的LLM,因为需要大量的计算资源,而训练LLM的许多重要细节(如数据收集和清洗)也没有被公开。

再者,如何使LLM符合人类价值观和偏好也是一个挑战,因为它们可能会产生有害的内容。

LLM已经演变成目前的状态,成为通用和有能力的学习器,这得益于多项重要技术。

其中,缩放、训练、能力激发、对齐调整和工具操作是导致LLM成功的关键技术。

简要解释一下:

需要指出的是,实线表示两个模型之间的演化路径存在明确的证据,虚线表示演化关系相对较弱。

LargeLanguageModelAnalysis是一个用于评估大型语言模型的工具集,它由OpenAI开发并开源,旨在帮助研究人员和开发人员评估和理解大型语言模型的行为和性能,并发现其中可能存在的问题和偏见。

LLaMA提供了一系列工具和指标,可以帮助用户对大型语言模型进行各种分析,包括模型的性能评估、模型的内部结构和行为分析、模型的偏见检测等。

LLaMA的主要功能:

下图是LLaMA研究工作的演化图,由于数量庞大,无法将所有的LLaMA变体包括在这个图中。

这些模型通常采用预训练的方式进行训练,并具有较高的性能和泛化能力。OpenAI的GPT系列模型和Google的BERT模型等都是公开可用的模型检查点。

训练大型语言模型需要大量的文本数据,因此,常用语料库是训练大型语言模型所需的重要资源之一。

常用语料库包括CommonCrawl、维基百科、新闻数据、网络文本等。这些语料库通常可以通过互联网公开获取,并且已经被清洗和标记。

这些框架和工具提供了丰富的API和函数库,可以帮助研究人员和开发人员更加高效地构建、训练和评估大型语言模型,比如:

此外,还需要一些数据处理、可视化和模型调试等工具来辅助训练和分析。这些工具和资源通常可以通过互联网免费获取。

LLM的预训练是指在大规模语料库上进行的无监督学习过程,通过学习语料库的统计规律和语言结构,让模型获得基础的语言理解和生成技能。

预训练为LLM的能力奠定了基础,使得LLM在进行特定任务的微调时能够更快、更准确地收敛,并且可以具备更好的泛化能力。

但我们需要注意的是,在预训练过程中,语料库的规模和质量对于LLM获得强大的能力至关重要。一般来说,有如下规律:

为了开发具有强大能力的LLM,需要收集大量自然语言的语料库。

下图是各种数据源在现有LLM预训练数据中的比例:

在收集大量文本数据之后,对数据进行预处理以构建预训练语料库非常重要,尤其是需要去除噪声、冗余、无关和可能有害的数据,这些因素可能会严重影响LLM的容量和性能。

典型的数据清洗流程如下:

下图是三种主流架构中注意力模式的比较。

其中,蓝色、绿色、黄色和灰色的圆角矩形分别表示前缀符号之间的注意力、前缀与目标符号之间的注意力、目标符号之间的注意力和被掩盖的注意力。

我们来解释一下这几个注意力有什么区别:

首先我们要知道,实例格式化是什么?

实例格式化是指将数据实例(如文本、图像、音频等)处理成一种特定的格式,以便它们可以被用于机器学习算法的输入。

下图是实例格式化的说明和用于构造指令格式实例的常见的三种不同方法:

调参是LLM训练过程中的一个重要环节,目的是找到最优的超参数组合,以提高模型在测试集上的性能。

那么,有几种常见的Tuning方法呢?

InstructionTuning是通过添加一些人工规则或指令来对模型进行微调,以使其更好地适应特定的任务或应用场景。

Example:在文本生成任务中,可以添加一些指令来控制生成的文本的长度、内容和风格。

AlignmentTuning是通过对齐源语言和目标语言的数据来对模型进行微调,以提高翻译或文本生成的质量。

Example:在机器翻译任务中,可以通过对齐源语言和目标语言的句子来训练模型,以提高翻译的准确性。

RLHF是使用强化学习算法来对模型进行微调,以使其更好地适应特定的任务或应用场景。

该技术通常分为三个阶段:数据预处理、基准模型训练和强化学习微调。在微调阶段,模型会通过与人类交互来学习如何生成更符合人类预期的文本。

下图是RLHF算法的工作流程:

AdapterTuning是在预训练模型中添加适配器层,以适应特定的任务或应用场景。适配器层可以在不改变预训练模型权重的情况下,对特定任务进行微调。这种技术可以提高模型的效率和泛化能力,同时减少对计算资源的需求。

PrefixTuning是通过在输入中添加一些前缀来对模型进行微调,以使其更好地适应特定的任务或应用场景。前缀可以提供一些额外的信息。

Example:任务类型、领域知识等,以帮助模型更准确地生成文本。

PromptTuning是通过设计合适的Prompt来对模型进行微调,以使其更好地适应特定的任务或应用场景。提示是一些关键词或短语,可以帮助模型理解任务的要求和期望输出的格式。

LoRA是通过将预训练模型分解成低秩矩阵来进行微调,以提高模型的效率和泛化能力。该技术可以减少预训练模型的参数数量,同时保留模型的表示能力,从而提高模型的适应性和泛化能力。

下图是2.42.52.62.7四种调参方法的对比示意图:

Utilization是在预训练或自适应调优之后进行的,一种典型的提示方法是上下文学习,它以自然语言文本的形式制定任务描述或演示。

此外,思维链提示可以通过在提示中加入一系列中间推理步骤来增强上下文学习。对于复杂任务的求解,提出了规划,首先将复杂任务分解为更小的子任务,然后生成一个行动计划来逐个解决这些子任务。

LLM大致可分为Pre-train阶段、Tuning阶段,使用Prompt阶段。

接下来,我们将简要介绍这三种Prompt技术,长话短说:

语境学习旨在通过模型自身的学习过程来改进其在特定上下文中的表现。通过对模型进行反馈和调整,可以使模型逐渐适应不同的语境和场景,从而提高其在各种任务中的性能和泛化能力。

思维链提示通过提示来引导模型生成连贯的、具有逻辑关系的文本。

该技术基于思维链的概念,即人们在思考时通常会按照一定的逻辑顺序组织思维和语言。通过在生成文本时引导模型按照特定的思维链顺序组织文本,可以使生成的文本更加连贯和合理。

下图是情境学习ICL和思维链CoT提示的对比说明。ICL用自然语言描述、几个演示和一个测试查询提示LLM,而CoT提示涉及提示中的一系列中间推理步骤:

其实就是分治,通过将任务分解为多个子任务,并为每个子任务制定计划来解决复杂任务的技术。

该技术可以帮助模型更好地理解任务的结构和要求,从而更有效地解决复杂任务。此外,该技术还可以通过对任务和子任务之间的依赖关系进行建模,来提高模型的泛化能力和鲁棒性。

Bytheway,LLM的涌现实际上也表现在这几个方面。

下图是LLM解决复杂任务的基于提示的规划公式示意图:

注意,此处与原文有出入,我们选择了一些原文中提到的细节,但也添加了一些新的内容。

PromptCreation:关键成分,设计原则,有用技巧。

我们回顾了LLM的最新进展,并介绍了理解和利用LLM的关键概念、发现和技术。

此外,我们还总结了开发LLM的可用资源,并讨论了复现LLM的重要实施指南。

接下来,我们总结了本次调查的讨论,并介绍了LLM在以下方面的挑战和未来方向:

THE END
1.我的图书馆作文感谢你,图书馆!给我提供精神养料,时刻相伴;见证我日益丰富的头脑,不悲不喜;提醒我前进的方向,不离不弃。图书馆,像一片宁静之海一样,与它的美丽邂逅,是一段奇妙而令人难忘的旅程。 我的图书馆作文3 在我心中,图书馆不是庄严的,而是五彩缤纷、五颜六色地。 https://www.oh100.com/a/202305/6858650.html
2.图书馆,新气象图书馆馆员与老师对接进行选书是一个非常好的举措。我校馆员在选购书籍时邀请各系主任与专业课老师参与选书,使我馆的书与学校专业课程、学生的学习需求密切相关,从而更具针对性,更好满足师生需求。专业书目的选购对学生的专业学习具有重要的指引作用,学生通过阅读优质的专业书籍,养成阅读https://mp.weixin.qq.com/s?__biz=MzUyNjU1MjIzMw==&mid=2247487155&idx=1&sn=0e04218f988d796f70788cdb4f78550a&chksm=fa0c5375cd7bda633ac80cfa3989183913721f0e562a89b8df6b96835a029c551123f0e0bd4e&scene=27
3.描写同学们在图书馆的一段话1、一位扎着高马尾的小姑娘,右手托着下巴,盯着书津津有味地看着。有时皱紧眉头想着什么;时而甩甩垂到额前的刘海儿;时而扶扶那滑落到鼻梁上的眼镜。看那神情,好像完全沉浸在有趣的故事情节里了。 2、图书馆里,同学们正沉浸在书的海洋里。一位男同学在伏案及书,时不时皱起眉头,似乎在思考什么。 http://m.lhl4.com/zx-665163/
4.校本教材《阅读与写作》主编/徐继龙近朱者赤,近墨者黑,上图书馆,置身于热爱阅读的人群中对孩子们是很有益处的。现在有些图书馆还开展了一些朗读者活动,把自己读过的书,现场朗读、背诵、交流,这种形式非常利于孩子各方面能力的发展。育红小学春苗文学社的学生有一个共同的爱好,就是乐于阅读,敢于书面表达。学校为学生们无偿提供阅读的书目,形成了“https://www.meipian.cn/232hdv9j
5.说明文的说明方法2.以时间的先后为序。例如,《从甲骨文到缩微图书》,就是以时间的先后为序,介绍了我国书籍演变发展的过程,从书籍的雏形到甲骨文一直到现在的缩微图书。 3.以逻辑关系为序。例如《大自然的语言》,先介绍什么是物候和物候学,接着便按照“纬度”“经度”“高下”“古今”的次序来说明物候现象出现的因素,采取的便是http://mip.yuwenmi.com/zuowen/shuomingwen/3623859.html
6.三年级描写图书馆嘲一段话图书馆是一个非常安静的地方,每当我来到图书馆,就从一个挺着腰板,一个正正当当的人变成了一个蹑手蹑脚的,仿佛做错了事的小不点。因为图书馆太安静了,让你不忍心打破它的宁静,我只得猫着腰尽量不弄出一点声音。 在图书馆,即使一根针落到地上,我也会感到仿佛我得罪了大家,仿佛我得罪了这里的宁静。在这里你https://m.edu.iask.sina.com.cn/jy/2PhRJtcQqgp.html
7.同学们在图书馆看书写一段话同学们在图书馆看书写一段话 在图书馆看书很有看书的氛围,让我重新回到当时在学校,班里的同学练习写毛笔字的场景,真是让人难忘呀。希望可以帮助你。 童鞋们在图书馆里认真的看书 从上幼儿园到现在,我去过很多图书馆,其中我最喜欢去的就是我们学校里的图书馆,在图书馆里不仅可以查找资料,更重要的是可以看好多https://www.oilube.cn/qinggan/qinggan88524.html
8.读书活动方案热温馨提醒:请各班在x月23日星期三第二节下课铃声一打响,马上下课排队去操场集合。把握好时间,以免耽误过多的上课时间,希望各班班主任认真配合! 读书活动方案2 图书馆百万册藏书中,部分藏书由于使用过多而自然损耗,但是也有部分藏书是被人为损坏,为此举办污损图书展览,同时挑出一批破损图书放在大厅处,设置志愿补书台,https://mip.cnfla.com/huodongfangan/2759763.html
9.刚在朋友圈看到一段话:跟朋友聊天能治来自睡不着图书馆刚在朋友圈看到一段话: “跟朋友聊天能治愈一切的丧和难过。 大家在群里吐槽一番,diss一波工作和生活,各种爆笑的梗抛出来,对着屏幕狂笑一阵就啥都忘了。 或者出来外面胡吃海喝一阵,看场电影,吐槽一下身边https://weibo.com/5649202289/FzEoF4mH0
10.看图书作文范文11篇(全文)看图书作文 第1篇 看图书 今天,老师带着我们全班同学来到了图书馆看书.图书馆的书可真多啊!我在这里 看图书作文 第2篇 自从上次看到季老先生的‘我的书斋后’,我也想让我的.图书露一下面。 要说起我的图书角,可分三个时间段,现在听我慢慢将来。 https://www.99xueshu.com/w/file44tqiipf.html
11.初一语文下册《黄生借书说》教学设计六篇第1、2段,就黄生借书一事,阐明“书非借不能读”的观点。 第1段,是这一部分的总领,说明以下的话是专对黄生而言。 第2段,用藏书者不读、借书者快读进行对比,从正反两方面论证“书非借不能读”。 第3段,用自己切身的经历作对比,从正反两方面说明“借书读必专”,再次证明“书非借不能读”。 https://m.ruiwen.com/doc/523371209.html
12.西安市优质教育资源共享平台判参层止边清至万确究书术状厂须离再目海交权且儿青才证低越际八试规斯近注办布门铁需走议县兵固除般引齿千胜细影济白格效置推空配刀叶率述今选养德话查差半敌始片施响收华觉备名红续均药标记难存测士身紧液派准斤角降维板许破述技消底床田势端感往神便贺村构照容非搞亚磨族火段算适讲按http://www.xaeduyun.cn/s26ag/acommonapp/csite/ablog/cblog/ablog/cblog.mblogBrowse.do?blogid=2c90816679e42f6d017a09f1cff3042c
13.科学网—圕人堂周讯(总第396期20211210)1.5高校图书馆文献资源经费状况知多少? 1.6校龄在高校图书馆薪酬中的作用 1.7论文被擅自收录,九旬教授维权获赔70多万 2圕人堂专题与群文件共享 2.1科学网图谋博客圕人堂专题 “圕人堂文摘”助力图情成果科学普及实例一则 关于中国知网“CSSCI”检索功能及其它 https://wap.sciencenet.cn/blog-213646-1316014.html
14.一间书房征稿《人生自有真义在》:欲说还休,欲说还休快来一起看看这位传奇老人 是如何在岁月绵长中 坚守自我,热爱生活 图书介绍 青春期的孩子都会面临人生问题与困惑:如何度过自己的一生,关于人生的意义与价值、缘分与命运、做人与处世、容忍、成功、知足、朋友、毁誉、压力、伦理道德等。季羡林先生结合九十多年的人生经验,向青少年讲述了自己对这些话题的看法与认识,以及https://www.sznews.com/news/content/2022-02/28/content_24958903.htm
15.人生感悟一段很现实的话正能量人生格言接亲网关于人生感悟一段很现实的话小编就介绍到这里了,其实网上有非常多经典的话语,而且这些经典的话语大多都与我们的生活息息相关。当然了,大家在生活中也不要陷入这些现实的话语当中,毕竟我们的生活可不会大起大落,甚至绝大多数的生活都是非常平静而幸福的,所以大家不必陷入太深。https://www.jieqinwang.com/baike/123334
16.2019最新Web前端经典面试试题及答案,持续更新23 用js实现随机选取10–100之间的10个数字,存入一个数组,并排序。 24 把两个数组合并,并删除第二个元素。 25 怎样添加、移除、移动、复制、创建和查找节点 26 简述创建函数的几种方式 27 documen.write和 innerHTML 的区别? 28介绍一下box-sizing属性? https://blog.csdn.net/weixin_37861326/article/details/80620576
17.真好我们的爱情(1~16)(那年,我们的夏天)剧评鱼没有脚7.7[冰岛] 约恩·卡尔曼·斯特凡松 / 2022 / 四川文艺出版社另外,第六集崔雄与延秀在图书馆。雄读的书是我很喜欢的诗人沈甫宣的诗集《没有悲伤的十五秒》,其中也有一首关于“爱”的动人诗作。分享这首全诗https://mp.weixin.qq.com/s/c_h2h_xCrt2zz3dDA62RRw分享诗集里的一些诗https://mp.https://movie.douban.com/review/14054316