2023年LLM如何入门?请看这篇综述!丨论文解读我们重点关注大型模型,同时排除早期预训练语言模型的内容,特别是,我

注意,本文不涉及太多复杂的公式与数学推导,初学者或者像笔者一样数学不好的读者可以放心阅读!

Q:这些年,我们在做什么?

A:自从图灵测试在1950年代提出以来,人类一直在探索如何让机器掌握语言智能。为了理解和掌握语言,开发能力强的人工智能算法面临着重大挑战。语言模型LM在过去的二十年中被广泛研究,用于语言理解和生成,从统计语言模型发展到神经语言模型。

Q:你说的这些都是比较老的事情了,现在在做什么?

A:确实,那近几年的话,研究人员提出了预训练语言模型PLM,通过对大规模语料库进行Transformer模型的预训练,展现了解决各种NLP任务的强大能力。并且,由于研究人员发现模型缩放可以导致模型容量的提高,他们进一步通过增加参数规模来探究缩放效应。

Q:等会儿等会儿,听不懂了,解释解释什么叫模型缩放,模型容量?

A:

补充一点有趣的,当参数规模超过一定水平时,这些扩大的语言模型不仅可以实现显著的性能提升,还表现出一些特殊的能力,比如上下文学习能力等等,这是小规模语言模型(例如BERT)所没有的,这种现象被称为涌现Emergence。

Q:这么厉害?那是不是越涌现就越好?

A:你都这么问了,显然心存疑虑,实际上,涌现现象也可能导致模型出现一些意外的错误或偏见,因此需要在模型设计和训练中加以注意和控制。

Q:那这么多参数的模型是不是应该给赋予一个新的名字?

A:没错,为了区分不同参数规模的语言模型,研究界为具有包含数十亿或数百亿参数的PLM创造了LLM这一术语,也就是大语言模型LargeLanguageModel。

Q:那就是所谓的ChatGPT了!

A:是的,但LLM不只有ChatGPT,还有很多很多...

Q:这么多?我想更多的了解LLM,你能介绍一下吗?

A:当然可以,我们今天读的这篇综述就是在介绍LLM的背景、关键发现和主流技术。

一般而言,LM的目标是建模单词序列的生成概率,以预测未来的或缺失的token的概率。

StatisticalLanguageModel是一种基于统计方法的语言模型,它通过计算给定上下文条件下各个可能的下一个词出现的概率,来对自然语言进行建模。

SLM通常使用N-gram模型来表示上下文,即假设下一个词的出现只与前面N个词有关。

SLM在NLP和信息检索等领域有着广泛的应用,但是其表现受限于数据量和特征选择,主要的应用如统计机器翻译SMT和GMM+HMM模型。

NeuralNetworkLanguageModel是一种基于神经网络的语言模型,它通过将自然语言转化为向量表示,利用神经网络建模词汇之间的关系来预测下一个词。

NLM通常使用RNN或者变种(如LSTM、GRU)来处理序列数据,并将上下文表示为隐藏状态。

Pre-trainedLanguageModel是一种在大规模数据上进行预训练的语言模型,它通过无监督的方式学习自然语言的特征表示,从而为不同的任务提供通用的特征提取器。

PLM通常使用自编码器、Transformer等模型结构,在大规模数据上进行预训练,并通过微调FT等方式适应不同的下游任务。

PLM的出现极大地促进了NLP的发展,如BERT、GPT等模型就是PLM的代表。

LargeLanguageModel是一种具有大量参数的语言模型,它通过增加模型的容量和训练数据量来提高模型的表现。

LLM通常基于PLM进行设计,通过增加模型规模、调整模型结构、加入更多的任务等方式来增加模型的复杂度和泛化能力。

LLM在NLP领域表现出了惊人的性能,在PLM的基础上,增大模型参数,使得LLM出现PLM不具有的涌现能力,同样采用预训练+微调的形式。

LM与LLM已经逐渐成为热点话题,事实上,我们通过近年来包含这两个关键词的Arxiv论文数量的变化趋势便可窥见一斑:

LLM的研发需要大量的数据处理和分布式训练经验,这与传统的研究和工程界限已经模糊。

目前,LLM对于人工智能领域产生了巨大的影响,ChatGPT和GPT-4已经引发了对于AGI的重新思考。

不过,虽然LLM已经取得了很大的进展和影响,但其底层原理仍然没有得到很好的探索。其中一个很浅显而又重要的问题是,为什么LLM会出现新的能力,而较小的PLM不会?

其次,研究人员很难训练出有能力的LLM,因为需要大量的计算资源,而训练LLM的许多重要细节(如数据收集和清洗)也没有被公开。

再者,如何使LLM符合人类价值观和偏好也是一个挑战,因为它们可能会产生有害的内容。

LLM已经演变成目前的状态,成为通用和有能力的学习器,这得益于多项重要技术。

其中,缩放、训练、能力激发、对齐调整和工具操作是导致LLM成功的关键技术。

简要解释一下:

需要指出的是,实线表示两个模型之间的演化路径存在明确的证据,虚线表示演化关系相对较弱。

LargeLanguageModelAnalysis是一个用于评估大型语言模型的工具集,它由OpenAI开发并开源,旨在帮助研究人员和开发人员评估和理解大型语言模型的行为和性能,并发现其中可能存在的问题和偏见。

LLaMA提供了一系列工具和指标,可以帮助用户对大型语言模型进行各种分析,包括模型的性能评估、模型的内部结构和行为分析、模型的偏见检测等。

LLaMA的主要功能:

下图是LLaMA研究工作的演化图,由于数量庞大,无法将所有的LLaMA变体包括在这个图中。

这些模型通常采用预训练的方式进行训练,并具有较高的性能和泛化能力。OpenAI的GPT系列模型和Google的BERT模型等都是公开可用的模型检查点。

训练大型语言模型需要大量的文本数据,因此,常用语料库是训练大型语言模型所需的重要资源之一。

常用语料库包括CommonCrawl、维基百科、新闻数据、网络文本等。这些语料库通常可以通过互联网公开获取,并且已经被清洗和标记。

这些框架和工具提供了丰富的API和函数库,可以帮助研究人员和开发人员更加高效地构建、训练和评估大型语言模型,比如:

此外,还需要一些数据处理、可视化和模型调试等工具来辅助训练和分析。这些工具和资源通常可以通过互联网免费获取。

LLM的预训练是指在大规模语料库上进行的无监督学习过程,通过学习语料库的统计规律和语言结构,让模型获得基础的语言理解和生成技能。

预训练为LLM的能力奠定了基础,使得LLM在进行特定任务的微调时能够更快、更准确地收敛,并且可以具备更好的泛化能力。

但我们需要注意的是,在预训练过程中,语料库的规模和质量对于LLM获得强大的能力至关重要。一般来说,有如下规律:

为了开发具有强大能力的LLM,需要收集大量自然语言的语料库。

下图是各种数据源在现有LLM预训练数据中的比例:

在收集大量文本数据之后,对数据进行预处理以构建预训练语料库非常重要,尤其是需要去除噪声、冗余、无关和可能有害的数据,这些因素可能会严重影响LLM的容量和性能。

典型的数据清洗流程如下:

下图是三种主流架构中注意力模式的比较。

其中,蓝色、绿色、黄色和灰色的圆角矩形分别表示前缀符号之间的注意力、前缀与目标符号之间的注意力、目标符号之间的注意力和被掩盖的注意力。

我们来解释一下这几个注意力有什么区别:

首先我们要知道,实例格式化是什么?

实例格式化是指将数据实例(如文本、图像、音频等)处理成一种特定的格式,以便它们可以被用于机器学习算法的输入。

下图是实例格式化的说明和用于构造指令格式实例的常见的三种不同方法:

调参是LLM训练过程中的一个重要环节,目的是找到最优的超参数组合,以提高模型在测试集上的性能。

那么,有几种常见的Tuning方法呢?

InstructionTuning是通过添加一些人工规则或指令来对模型进行微调,以使其更好地适应特定的任务或应用场景。

Example:在文本生成任务中,可以添加一些指令来控制生成的文本的长度、内容和风格。

AlignmentTuning是通过对齐源语言和目标语言的数据来对模型进行微调,以提高翻译或文本生成的质量。

Example:在机器翻译任务中,可以通过对齐源语言和目标语言的句子来训练模型,以提高翻译的准确性。

RLHF是使用强化学习算法来对模型进行微调,以使其更好地适应特定的任务或应用场景。

该技术通常分为三个阶段:数据预处理、基准模型训练和强化学习微调。在微调阶段,模型会通过与人类交互来学习如何生成更符合人类预期的文本。

下图是RLHF算法的工作流程:

AdapterTuning是在预训练模型中添加适配器层,以适应特定的任务或应用场景。适配器层可以在不改变预训练模型权重的情况下,对特定任务进行微调。这种技术可以提高模型的效率和泛化能力,同时减少对计算资源的需求。

PrefixTuning是通过在输入中添加一些前缀来对模型进行微调,以使其更好地适应特定的任务或应用场景。前缀可以提供一些额外的信息。

Example:任务类型、领域知识等,以帮助模型更准确地生成文本。

PromptTuning是通过设计合适的Prompt来对模型进行微调,以使其更好地适应特定的任务或应用场景。提示是一些关键词或短语,可以帮助模型理解任务的要求和期望输出的格式。

LoRA是通过将预训练模型分解成低秩矩阵来进行微调,以提高模型的效率和泛化能力。该技术可以减少预训练模型的参数数量,同时保留模型的表示能力,从而提高模型的适应性和泛化能力。

下图是2.42.52.62.7四种调参方法的对比示意图:

Utilization是在预训练或自适应调优之后进行的,一种典型的提示方法是上下文学习,它以自然语言文本的形式制定任务描述或演示。

此外,思维链提示可以通过在提示中加入一系列中间推理步骤来增强上下文学习。对于复杂任务的求解,提出了规划,首先将复杂任务分解为更小的子任务,然后生成一个行动计划来逐个解决这些子任务。

LLM大致可分为Pre-train阶段、Tuning阶段,使用Prompt阶段。

接下来,我们将简要介绍这三种Prompt技术,长话短说:

语境学习旨在通过模型自身的学习过程来改进其在特定上下文中的表现。通过对模型进行反馈和调整,可以使模型逐渐适应不同的语境和场景,从而提高其在各种任务中的性能和泛化能力。

思维链提示通过提示来引导模型生成连贯的、具有逻辑关系的文本。

该技术基于思维链的概念,即人们在思考时通常会按照一定的逻辑顺序组织思维和语言。通过在生成文本时引导模型按照特定的思维链顺序组织文本,可以使生成的文本更加连贯和合理。

下图是情境学习ICL和思维链CoT提示的对比说明。ICL用自然语言描述、几个演示和一个测试查询提示LLM,而CoT提示涉及提示中的一系列中间推理步骤:

其实就是分治,通过将任务分解为多个子任务,并为每个子任务制定计划来解决复杂任务的技术。

该技术可以帮助模型更好地理解任务的结构和要求,从而更有效地解决复杂任务。此外,该技术还可以通过对任务和子任务之间的依赖关系进行建模,来提高模型的泛化能力和鲁棒性。

Bytheway,LLM的涌现实际上也表现在这几个方面。

下图是LLM解决复杂任务的基于提示的规划公式示意图:

注意,此处与原文有出入,我们选择了一些原文中提到的细节,但也添加了一些新的内容。

PromptCreation:关键成分,设计原则,有用技巧。

我们回顾了LLM的最新进展,并介绍了理解和利用LLM的关键概念、发现和技术。

此外,我们还总结了开发LLM的可用资源,并讨论了复现LLM的重要实施指南。

接下来,我们总结了本次调查的讨论,并介绍了LLM在以下方面的挑战和未来方向:

THE END
1.可於文化局公共图书馆网站AAA 繁簡PortEng 登入長者 所有圖書館澳門中央圖書館何賢公園圖書館何東圖書館下環圖書館沙梨頭圖書館紅街市圖書館白鴿巢公園黃營均圖書館青洲坊圖書館望廈圖書館紀念孫中山公園黃營均圖書館黑沙環公園黃營均圖書館黑沙環公園黃營均兒童圖書館氹仔圖書館路環圖書館石排灣圖書館議事亭藏書樓所有圖書館 https://www.library.gov.mo/
2.8个领取免费搬家纸箱打包箱及旧纸箱的方法(附买纸箱网站美国的大型超市又很多,比如Walmart、Costco、Sam’s Club、Home Depot、Office Depot、Target、K-Mart 和 Best Buy 等地找到几乎所有类型的盒子。还可以考虑一元店、鞋店、体育用品店和宜家等大型家居用品店。 2、图书馆和书店 大型连锁书店和小型本地书店都有大量箱子,可用于打包小摆设、小件物品和书籍。图书馆和https://www.extrabux.cn/chs/guide/8432988
3.懒人听书官方网站懒人听书是4.8亿用户选择的综合性有声阅读交流平台。热门IP入驻,知名主播云集,原创小说、经典文学、海量精品栏目共筑有声阅读生态圈,解放双眼,畅听世界https://www.lrts.me/
4.在线图书馆有利于RGB彩色图标24小时可用多处访问自定义搜索大型摄图网为设计师提供大量图片素材和摄影照片:在线图书馆有利于RGB彩色图标24小时可用多处访问自定义搜索大型收藏电子学习优势保存和孤立的矢量说明图片,rgb格式,书,互联网,优势,保护,信息,偶像,削减,卡通,可利用性,可定制的,填满,大学,存储库,孤立的,学习,学校,屏幕,巨大的,https://699pic.com/tupian-306787124.html
5.全球开放数字图书馆资源推荐Bibliomania拥有超过2000本在线经典文学图书,如小说、戏剧、诗歌、短篇小说、人物专访、文学笔记、作者自传、书籍摘要和参考书籍。 地址:http://www.bibliomania.com/ 3. DLESE地球系统教育数字图书馆 地球系统教育数字图书馆(DigitalLibrary for Earth System Education)是一个旨在提升地球系统教育数量、质量和效率的分布式https://lib.shisu.edu.cn/2019/0807/c214a90/pagem.htm
6.文献信息检索心得8篇(全文)另外,还有许多网络资源供查找中文科技文献信息,如国内各种大型门户网站的搜索引擎,网易、搜狐、新浪、雅虎中文等,这些网站也能进行分类浏览,查找相关学科资源,同时中国教育科研网、中国科学院网、国家图书馆网、上海图书馆网及各高校图书馆网站等国内大型文献信息机构也有许多中文科技文献信息。这些网络数据库的学习对我https://www.99xueshu.com/w/filesf2ynij5.html
7.学术相关最新整理!绝对不能错过的130个学术网站和26个科研工具1998年,巴西开通了第一个“科技在线电子图书馆(SciELO)”,随后扩展到阿根廷、智利、西班牙、古巴、哥伦比亚、葡萄牙、委内瑞拉七国。目前已提供613种专业期刊、20万篇论文全文供读者免费阅览。 21.Hindawi 出版公司 http://www.hindawi.com/journals/ Hindawi成立于1997年,是一个高速成长的OA学术出版机构,出版200余种https://blog.csdn.net/fengdu78/article/details/126169115
8.少儿绘本有声读物免费用!西安市公共图书馆百万数字资源寻找120名[摘要]在4.23世界读书日到来之际,一场旨在向广大读者推广介绍西安市各家公共图书馆数字资源的大型公益读书活动隆重启动。 在4.23世界读书日到来之际,一场旨在向广大读者推广介绍西安市各家公共图书馆数字资源的大型公益读书活动隆重启动。活动面向社会各界读者,从所有参加本次数字资源阅读活动的读者当中评选出120名“阅https://news.hsw.cn/system/2020/0423/1178684.shtml
9.端午!长沙游玩攻略!展厅:岳麓文化馆·图书馆一楼展厅 票价:免费 8.李自健美术馆 星云大师书法馆一笔字书法展 展期:常设陈列 展厅:李自健美术馆B区3楼 票价:免费 李自健油画展 展期:常设陈列 展厅:李自健美术馆A区(A1/A2/A3/A4) 票价:免费 吾天吾地 —— 张国龙大型空间艺术展 http://yiban.hnedutv.com/content/7062396
10.百年南图南京图书馆现属江苏省省级公共图书馆,国家一级图书馆。南京图书馆是一个管理设备先进,藏书一千多万册特大型图书馆,其中古籍160万册,包括善本14万册,民国文献70万册。馆藏中不乏唐代写本,辽代写经,宋、元、明、清历代写印珍本,已有461部入选国家珍贵古籍名录,藏书总量仅次于北京国家图书馆和上海图书馆,位居全国第https://www.meipian.cn/r89cgeh
11.新华社《图书馆的女友》新版最新完整版高清在线观看媚娘影12月20日,如何评价丘成桐说数学家的形象,色天堂下载:掌握安全技巧,轻松获取多样资源-长发游,爸爸的宝贝小说全文在线阅读爸爸的宝贝小说全文在线,黄品汇mba旧版本下载APP-黄品汇mba旧版本v5.0.2,MGM快手博雅打扑克一直叫视频引关注,网友:,《你是我的荣耀》全集免费在线观看,《图书馆的女友动漫》_爱情 _全集http://www.hy163.com/v/video/141479320_20241220.shtml?id=47-20241220-scm
12.如何免费在线查阅《中国大百科全书》然后,就可以在搜索框输入关键词进行检索了。不过根据 @黄猫 同学的描述以及青小蛙的体验,官方版本的《中国大百科全书》会有知识图谱,而浙江图书馆的在线版本并没有这个功能。 中国大百科全书官方在线版本功能 至此,对于普通用户,就可以在线、免费的检索《中国大百科全书》内容了。 https://www.appinn.com/china-encyclopedia-online/
13.theinternetarchive七色猫视频Please add this domain to one of your websites. Whoops, looks like this domain isn't yet set up correctly. If you're the site owner, please check your site management tools to verify your domain settings.http://archive.org/
14.图书馆员工作总结(15篇)我县图书馆参加这次省市选拔赛、总决赛,为以后参加、组织大型读者活动积累了宝贵经验,有利于我县图书馆读者服务活动的开展。 (四)在第二十一个“全国助残日”时,我们图书馆一如既往,积极参与这次献爱心活动,图书馆工作人员给特校的孩子们送去图书74册,价值760元,表达对孩子们的关爱,受到特校师生的欢迎,让这些残障https://www.oh100.com/a/202305/6795605.html
15.大亚湾没有图书馆?这个地方藏书1.2万册!资讯大亚湾在线 ? 大亚湾 ? 环大亚湾? 资讯 大亚湾没有图书馆?这个地方藏书1.2万册! 原作者: 湾湾 收藏 分享 邀请 说到大亚湾目前比较大型的公园,不得不提到位于西区比亚迪一期西门对面的板樟岭森林公园。不仅占地面积大,还是区内为数不多的已建成的森林公园之一。 公园风景优美,宜动宜静,既可登山远眺澳头和https://www.dywzx.com/portal.php?mod=view&aid=2685&_dsign=9f86a6c3
16.留学德国福利政策一览五、德国大学免费政策 所有德国大学的学生们都可以免费使用学校内的计算机房,享受免费的打印(每个学校享受的页数和次数会有不同),免费使用体育场馆(游泳馆,足球场等),当然最重要的图书馆和自习室也都是免费使用的。 六、德国大学大型活动免费参加 德国的所有大学都会不定期的举行各种大型活动(舞会,招聘会,参观等),https://www.eol.cn/liuxue/qita/qt20230706208622.html
17.图书管家app下载安装最新版图书管家官方下载1.3.2授权方式:免费软件 软件大小:28.4MB 更新时间:2024-09-25 下载地址 软件介绍 图书管家app下载安装最新版是一款专为图书馆及图书存放场所量身打造的高效管理软件,全面覆盖从职工阅读角到大型学校图书馆的多元化管理需求。通过其精密的分类与标签体系,图书管家不仅简化了繁琐的管理流程,更让图书的检索与定位变得前所未有http://www.525566.com/app/2250.htm