2023年LLM如何入门?请看这篇综述!丨论文解读我们重点关注大型模型,同时排除早期预训练语言模型的内容,特别是,我

注意,本文不涉及太多复杂的公式与数学推导,初学者或者像笔者一样数学不好的读者可以放心阅读!

Q:这些年,我们在做什么?

A:自从图灵测试在1950年代提出以来,人类一直在探索如何让机器掌握语言智能。为了理解和掌握语言,开发能力强的人工智能算法面临着重大挑战。语言模型LM在过去的二十年中被广泛研究,用于语言理解和生成,从统计语言模型发展到神经语言模型。

Q:你说的这些都是比较老的事情了,现在在做什么?

A:确实,那近几年的话,研究人员提出了预训练语言模型PLM,通过对大规模语料库进行Transformer模型的预训练,展现了解决各种NLP任务的强大能力。并且,由于研究人员发现模型缩放可以导致模型容量的提高,他们进一步通过增加参数规模来探究缩放效应。

Q:等会儿等会儿,听不懂了,解释解释什么叫模型缩放,模型容量?

A:

补充一点有趣的,当参数规模超过一定水平时,这些扩大的语言模型不仅可以实现显著的性能提升,还表现出一些特殊的能力,比如上下文学习能力等等,这是小规模语言模型(例如BERT)所没有的,这种现象被称为涌现Emergence。

Q:这么厉害?那是不是越涌现就越好?

A:你都这么问了,显然心存疑虑,实际上,涌现现象也可能导致模型出现一些意外的错误或偏见,因此需要在模型设计和训练中加以注意和控制。

Q:那这么多参数的模型是不是应该给赋予一个新的名字?

A:没错,为了区分不同参数规模的语言模型,研究界为具有包含数十亿或数百亿参数的PLM创造了LLM这一术语,也就是大语言模型LargeLanguageModel。

Q:那就是所谓的ChatGPT了!

A:是的,但LLM不只有ChatGPT,还有很多很多...

Q:这么多?我想更多的了解LLM,你能介绍一下吗?

A:当然可以,我们今天读的这篇综述就是在介绍LLM的背景、关键发现和主流技术。

一般而言,LM的目标是建模单词序列的生成概率,以预测未来的或缺失的token的概率。

StatisticalLanguageModel是一种基于统计方法的语言模型,它通过计算给定上下文条件下各个可能的下一个词出现的概率,来对自然语言进行建模。

SLM通常使用N-gram模型来表示上下文,即假设下一个词的出现只与前面N个词有关。

SLM在NLP和信息检索等领域有着广泛的应用,但是其表现受限于数据量和特征选择,主要的应用如统计机器翻译SMT和GMM+HMM模型。

NeuralNetworkLanguageModel是一种基于神经网络的语言模型,它通过将自然语言转化为向量表示,利用神经网络建模词汇之间的关系来预测下一个词。

NLM通常使用RNN或者变种(如LSTM、GRU)来处理序列数据,并将上下文表示为隐藏状态。

Pre-trainedLanguageModel是一种在大规模数据上进行预训练的语言模型,它通过无监督的方式学习自然语言的特征表示,从而为不同的任务提供通用的特征提取器。

PLM通常使用自编码器、Transformer等模型结构,在大规模数据上进行预训练,并通过微调FT等方式适应不同的下游任务。

PLM的出现极大地促进了NLP的发展,如BERT、GPT等模型就是PLM的代表。

LargeLanguageModel是一种具有大量参数的语言模型,它通过增加模型的容量和训练数据量来提高模型的表现。

LLM通常基于PLM进行设计,通过增加模型规模、调整模型结构、加入更多的任务等方式来增加模型的复杂度和泛化能力。

LLM在NLP领域表现出了惊人的性能,在PLM的基础上,增大模型参数,使得LLM出现PLM不具有的涌现能力,同样采用预训练+微调的形式。

LM与LLM已经逐渐成为热点话题,事实上,我们通过近年来包含这两个关键词的Arxiv论文数量的变化趋势便可窥见一斑:

LLM的研发需要大量的数据处理和分布式训练经验,这与传统的研究和工程界限已经模糊。

目前,LLM对于人工智能领域产生了巨大的影响,ChatGPT和GPT-4已经引发了对于AGI的重新思考。

不过,虽然LLM已经取得了很大的进展和影响,但其底层原理仍然没有得到很好的探索。其中一个很浅显而又重要的问题是,为什么LLM会出现新的能力,而较小的PLM不会?

其次,研究人员很难训练出有能力的LLM,因为需要大量的计算资源,而训练LLM的许多重要细节(如数据收集和清洗)也没有被公开。

再者,如何使LLM符合人类价值观和偏好也是一个挑战,因为它们可能会产生有害的内容。

LLM已经演变成目前的状态,成为通用和有能力的学习器,这得益于多项重要技术。

其中,缩放、训练、能力激发、对齐调整和工具操作是导致LLM成功的关键技术。

简要解释一下:

需要指出的是,实线表示两个模型之间的演化路径存在明确的证据,虚线表示演化关系相对较弱。

LargeLanguageModelAnalysis是一个用于评估大型语言模型的工具集,它由OpenAI开发并开源,旨在帮助研究人员和开发人员评估和理解大型语言模型的行为和性能,并发现其中可能存在的问题和偏见。

LLaMA提供了一系列工具和指标,可以帮助用户对大型语言模型进行各种分析,包括模型的性能评估、模型的内部结构和行为分析、模型的偏见检测等。

LLaMA的主要功能:

下图是LLaMA研究工作的演化图,由于数量庞大,无法将所有的LLaMA变体包括在这个图中。

这些模型通常采用预训练的方式进行训练,并具有较高的性能和泛化能力。OpenAI的GPT系列模型和Google的BERT模型等都是公开可用的模型检查点。

训练大型语言模型需要大量的文本数据,因此,常用语料库是训练大型语言模型所需的重要资源之一。

常用语料库包括CommonCrawl、维基百科、新闻数据、网络文本等。这些语料库通常可以通过互联网公开获取,并且已经被清洗和标记。

这些框架和工具提供了丰富的API和函数库,可以帮助研究人员和开发人员更加高效地构建、训练和评估大型语言模型,比如:

此外,还需要一些数据处理、可视化和模型调试等工具来辅助训练和分析。这些工具和资源通常可以通过互联网免费获取。

LLM的预训练是指在大规模语料库上进行的无监督学习过程,通过学习语料库的统计规律和语言结构,让模型获得基础的语言理解和生成技能。

预训练为LLM的能力奠定了基础,使得LLM在进行特定任务的微调时能够更快、更准确地收敛,并且可以具备更好的泛化能力。

但我们需要注意的是,在预训练过程中,语料库的规模和质量对于LLM获得强大的能力至关重要。一般来说,有如下规律:

为了开发具有强大能力的LLM,需要收集大量自然语言的语料库。

下图是各种数据源在现有LLM预训练数据中的比例:

在收集大量文本数据之后,对数据进行预处理以构建预训练语料库非常重要,尤其是需要去除噪声、冗余、无关和可能有害的数据,这些因素可能会严重影响LLM的容量和性能。

典型的数据清洗流程如下:

下图是三种主流架构中注意力模式的比较。

其中,蓝色、绿色、黄色和灰色的圆角矩形分别表示前缀符号之间的注意力、前缀与目标符号之间的注意力、目标符号之间的注意力和被掩盖的注意力。

我们来解释一下这几个注意力有什么区别:

首先我们要知道,实例格式化是什么?

实例格式化是指将数据实例(如文本、图像、音频等)处理成一种特定的格式,以便它们可以被用于机器学习算法的输入。

下图是实例格式化的说明和用于构造指令格式实例的常见的三种不同方法:

调参是LLM训练过程中的一个重要环节,目的是找到最优的超参数组合,以提高模型在测试集上的性能。

那么,有几种常见的Tuning方法呢?

InstructionTuning是通过添加一些人工规则或指令来对模型进行微调,以使其更好地适应特定的任务或应用场景。

Example:在文本生成任务中,可以添加一些指令来控制生成的文本的长度、内容和风格。

AlignmentTuning是通过对齐源语言和目标语言的数据来对模型进行微调,以提高翻译或文本生成的质量。

Example:在机器翻译任务中,可以通过对齐源语言和目标语言的句子来训练模型,以提高翻译的准确性。

RLHF是使用强化学习算法来对模型进行微调,以使其更好地适应特定的任务或应用场景。

该技术通常分为三个阶段:数据预处理、基准模型训练和强化学习微调。在微调阶段,模型会通过与人类交互来学习如何生成更符合人类预期的文本。

下图是RLHF算法的工作流程:

AdapterTuning是在预训练模型中添加适配器层,以适应特定的任务或应用场景。适配器层可以在不改变预训练模型权重的情况下,对特定任务进行微调。这种技术可以提高模型的效率和泛化能力,同时减少对计算资源的需求。

PrefixTuning是通过在输入中添加一些前缀来对模型进行微调,以使其更好地适应特定的任务或应用场景。前缀可以提供一些额外的信息。

Example:任务类型、领域知识等,以帮助模型更准确地生成文本。

PromptTuning是通过设计合适的Prompt来对模型进行微调,以使其更好地适应特定的任务或应用场景。提示是一些关键词或短语,可以帮助模型理解任务的要求和期望输出的格式。

LoRA是通过将预训练模型分解成低秩矩阵来进行微调,以提高模型的效率和泛化能力。该技术可以减少预训练模型的参数数量,同时保留模型的表示能力,从而提高模型的适应性和泛化能力。

下图是2.42.52.62.7四种调参方法的对比示意图:

Utilization是在预训练或自适应调优之后进行的,一种典型的提示方法是上下文学习,它以自然语言文本的形式制定任务描述或演示。

此外,思维链提示可以通过在提示中加入一系列中间推理步骤来增强上下文学习。对于复杂任务的求解,提出了规划,首先将复杂任务分解为更小的子任务,然后生成一个行动计划来逐个解决这些子任务。

LLM大致可分为Pre-train阶段、Tuning阶段,使用Prompt阶段。

接下来,我们将简要介绍这三种Prompt技术,长话短说:

语境学习旨在通过模型自身的学习过程来改进其在特定上下文中的表现。通过对模型进行反馈和调整,可以使模型逐渐适应不同的语境和场景,从而提高其在各种任务中的性能和泛化能力。

思维链提示通过提示来引导模型生成连贯的、具有逻辑关系的文本。

该技术基于思维链的概念,即人们在思考时通常会按照一定的逻辑顺序组织思维和语言。通过在生成文本时引导模型按照特定的思维链顺序组织文本,可以使生成的文本更加连贯和合理。

下图是情境学习ICL和思维链CoT提示的对比说明。ICL用自然语言描述、几个演示和一个测试查询提示LLM,而CoT提示涉及提示中的一系列中间推理步骤:

其实就是分治,通过将任务分解为多个子任务,并为每个子任务制定计划来解决复杂任务的技术。

该技术可以帮助模型更好地理解任务的结构和要求,从而更有效地解决复杂任务。此外,该技术还可以通过对任务和子任务之间的依赖关系进行建模,来提高模型的泛化能力和鲁棒性。

Bytheway,LLM的涌现实际上也表现在这几个方面。

下图是LLM解决复杂任务的基于提示的规划公式示意图:

注意,此处与原文有出入,我们选择了一些原文中提到的细节,但也添加了一些新的内容。

PromptCreation:关键成分,设计原则,有用技巧。

我们回顾了LLM的最新进展,并介绍了理解和利用LLM的关键概念、发现和技术。

此外,我们还总结了开发LLM的可用资源,并讨论了复现LLM的重要实施指南。

接下来,我们总结了本次调查的讨论,并介绍了LLM在以下方面的挑战和未来方向:

THE END
1.意义生活:符号学导论超星尔雅学习通网课答案6.2指示性:图书馆里如何抢位子? 1、【单选题】指示符号之所以能指向对象,是因为()。 A、指示符号与对象有部分与整体,或现象与结果等关系 B、指示符号与对象有形式上的关联 C、指示符号是社会承认的关联 D、指示符号与对象有时间关系 2、【单选题】指示符号能够给意义活动带来一定的秩序,因为()。 http://changchun.ehqc.cn/show/32_29.html
2.教育政策法规知识问答18、中小学图书馆(室)应包括哪些书籍? 应包括有益于青少年身心健康发展的各类图书和报刊及供教师使用的教学参考书,教育、教学研究的理论书籍,中学图书馆(室)应备有应用型的书籍。 19.什么是义务教育? 依据法律规定适龄儿童和青少年都必须接受国家、社会、家庭必须予以保证的国民教育(九年制义务教育)https://www.wuning.gov.cn/nzmhd/wdzsk/201303/t20130326_4431958.html
3.泸州市第一次“哲学社会科学优秀科研成果”获奖项目2、《增强乡(镇)财政活力迫在眉睫》(论文) 《四川财政研究》 1989年2期 《泸州财政研究》 1988年3期 王甘霖(泸州市财政科研所) 二等奖(23项) 1、《试论孙中山的社会主义思想》(论文) 《大连师范学院学报》 1989年第1期 刘启柏(泸州市图书馆) http://www.lzskl.com/jsp/detail_content/1327
4.《第一本经济学》课后习题标准答案(全部23课)程晔的财新博客3、**如果政府修建一座图书馆,我们能否因此得知私营部门本不该这么干? 这是一个微妙的问题。一般来说,政府的资源导向与私营部门不同,否则,政府项目就没有存在的必要了。然而,却不能得出所有政府服务范畴(如养老金或“免费”图书馆等)的存在是因为私营部门的缺失。如果政府一座图书馆都不建,尤其是相应地消减当前为https://chengye.blog.caixin.com/archives/54958
5.葛剑雄最新专访:作为图书馆馆长,大家有共同的语言,就是钱不够编者按:本文系城市观察类系列访谈节目《龙中对》第三季专访香港中文大学(深圳)图书馆馆长葛剑雄教授。 作为著名历史地理学家、新中国培养的首批文科博士之一,葛剑雄教授于2024年3月12日宣布就任香港中文大学(深圳)图书馆馆长。拥有7年复旦大学图书馆管理经验的他“年近八十,重操旧业”,致力于在深圳这座“活力之城”https://m.thepaper.cn/newsDetail_forward_26947001
6.面向高校图书馆智慧服务的大语言模型探索性研究——以命名实体[目的/意义] 智慧服务已成为高校图书馆转型发展的重要方向。自然语言处理技术赋能了高校图书馆智慧化服务,带来了服务模式与流程的重构,有助于提升高校图书馆的整体服务水平。命名实体识别是自然语言处理中的一个重要任务,对图书馆智慧化服务产生重要影响和价值,可有效识别信息中的人名、地名、组织机构、资源利用、服务https://www.xdqb.net/CN/10.3969/j.issn.1008-0821.2024.12.010
7.书札(图书馆情报学概论)书评绪论 图书馆情报学的基本问题学科历史图书馆情报学( Library and Information Science,缩写LIS)于20世纪70年代由原来的图书馆学和情报学合并而成。1808年,德国图书馆员施莱廷格( Martin Schrettinger)第一次用“图书馆学”表达图书馆工作所需知识19世纪末,一批先进的信息组织整理技术[如美国学者杜威(Melvil Dewey)发明https://book.douban.com/review/13263500/
8.分类检索语言LTD知识百科增长黑武器体系分类语言广泛使用于图书分类和检索,世界上比较有影响的图书分类法是杜威十进分类法、国际十进分类法、冒号分类法、中国科学院图书馆图书分类法、中国图书馆分类法等。 1.杜威十进分类法 杜威十进分类法(Dewey Decimal Classification,DDC)是美国人麦维尔·杜威在1876年首次提出的,该分类法由大类、门、纲、目https://ltd.com/article/5374114204892065.html
9.著名语言学家李如龙做客市图书馆为读者揭示闽南方言背后的文化厦门网讯 (文/厦门日报记者 张觉尹 许舒昕 图/厦门市图书馆 提供)近日,厦门文史沙龙第100期在厦门市图书馆集美新城馆区举行。中国著名语言学家李如龙以“闽南方言与文化研究的广阔天地”为主题开讲。李如龙从厦门话韵书《渡江书》讲起,分享闽南方言的流播及其在闽方言中的重要地位、闽南方言的特征等。 https://www.xmnn.cn/news/xmxw/202305/t20230528_81704.html
10.目录《上海法学研究》集刊2023年第5卷内容摘要:作为凝萃于科技、经济、文化、法律等诸多学科的一体化信息资源存储、整合与输出性数字媒体服务平台,数字图书馆建设在推进我国图书馆治理体系与治理能力现代化过程中扮演着举足轻重的角色。当前,随着 ChatGPT这一新型生成式人工智能系统在各领域的广泛适用,充分挖掘该语言模型在新时代数字图书馆建设中的价值作用具https://www.jfdaily.com/sgh/detail?id=1115367
11.学生礼仪规范4.在图书馆、阅览室等公共学习场所,要遵守规则,爱护书籍,保持安静和卫生,不吃零食;看完图书应放回原处,走动时脚步要轻。不要为别人预占位置。入座时应该轻轻搬出椅子,离开前应该轻轻将椅子还原摆好。 5.在公共场所出门进门时,应看身后是否有人随后出入,如有人相随,则应把门推(拉)开,等身后的人出入后方可轻https://www.jy135.com/zhichang/1557441.html
12.移动应用开发(APP开发)市场调研报告12篇(全文)图书馆服务系统功能模块包括:书目检索模块、个人用户模块、读者定制服务模块、数字资源服务模块、图书馆信息模块。书目检索模块主要功能是读者在进行书目检索时可按作者、书名、出版日期等字段信息查找;个人用户模块包括个人借阅查询功能、读者账户管理功能、预约功能;读者定制服务模块可为读者定制个人服务, 包括:图书推荐、https://www.99xueshu.com/w/file015bgpe9.html
13.1.4.2信息检索语言的类型用标题词语言编写的词表称为标题词表,如《美国国会图书馆标题词表》、美国《工程标题词表》等。由于标题词语言的检索标识是组配式的,同体系分类法一样仍然存在“集中与分散”的矛盾,解决这一难题的关键在于采用组配法,单元词语言的出现正好解决了这个问题。 2)单元词语言 单元词语言是在标题词语言基础上发展起来https://special.chaoxing.com/special/screen/tocard/84671730?courseId=84671715
14.证书项目(MiniMBA,营销,人力资源管理等)德州国际领袖学校的最大优势在于具有全美独一无二的课程设置和领袖品质培养。开创了多语言、多种领袖才能培养、多种教学法等元素融合,培养具有世界竞争力学生的教学理念。具体体现在以下几个方面: 1. 英语、西班牙语、汉语三种语言教学 考虑到西班牙语是世界使用人口最多的语言,而中国已经跃为世界第二大经济体,又是http://www.chinaeducation.net/cn/programdev.html
15.图书馆语言艺术,languageartinlibrary,音标,读音,翻译,英文北京语言大学图书馆成立于1962年,当时被称为北京外国留学生高等预备学校图书馆。1965年,正式改名为北京语言学院图书馆。1969年北京语言学院撤销,图书馆也随之停止工作。1972年复校,图书馆恢复正常工作。1982年图书馆从教务处领导改为由学校直接领导,升格为处级单位。1996年6月13日更名为北京语言文化大学图书馆。2002年http://www.dictall.com/indu/200/20000003C4D.htm