1、ChatGPT调研报告(仅供内部参考)哈尔滨工业大学自然语言处理研究所(HIT-NLP)2023年3月6日ChatGPT调研报告序言2022年11月30日,OpenAI推出全新的对话式通用人工智能工具ChatGPT。ChatGPT表现出了非常惊艳的语言理解、生成、知识推理能力,它可以很好地理解用户意图,做到有效的多轮沟通,并且回答内容完整、重点清晰、有概括、有逻辑、有条理。ChatGPT上线后,5天活跃用户数高达100万,2个月活跃用户数已达1个亿,成为历史上增长最快的消费者应用程序。除了被广大用户追捧外,ChatGPT还受到了各国政府、企业界、学术界
5、学习概述.303ChatGPT调研报告2.2.2ChatGPT中的指令学习.312.3思维链(ChainofThought,COT).322.4基于人类反馈的强化学习(ReinforcementLearningwithHu-manFeedback,RLHF).33第三章大模型训练与部署353.1大模型并行计算技术.353.2并行计算框架.363.3模型部署.403.3.1预训练模型部署的困难.403.3.2部署框架和部署工具.413.3.3部署技术和优化方法.433.4预训练模型的压缩.453.4.1模型压缩方案概述.453.4.2结构化模型压缩策略.453.4.3非结构化模型
7、5.2.6鲁棒性.665.2.7高效性.675.3模型评价方法小结.68第六章现有大模型及对话式通用人工智能系统696.1现有大模型对比.696.2对话式通用人工智能系统调研.726.2.1对话式通用人工智能系统.726.2.2不同系统之间的比较.75第七章自然语言处理的未来发展方向807.1提高ChatGPT的能力.807.2加深对模型的认识.817.3实际应用.827.4从语言到AGI的探索之路.835ChatGPT调研报告第一章ChatGPT的背景与意义本章首先介绍自然语言处理、大规模预训练语言模型以及ChatGPT技术的发展历程,接着就ChatGPT的技术优点和
8、不足进行分析,然后讨论ChatGPT可能的应用前景,最后展望ChatGPT普及后可能带来的风险与挑战。1.1自然语言处理的发展历史人类语言(又称自然语言)具有无处不在的歧义性、高度的抽象性、近乎无穷的语义组合性和持续的进化性,理解语言往往需要具有一定的知识和推理等认知能力,这些都为计算机处理自然语言带来了巨大的挑战,使其成为机器难以逾越的鸿沟。因此,自然语言处理被认为是目前制约人工智能取得更大突破和更广泛应用的瓶颈之一,又被誉为“人工智能皇冠上的明珠”。国务院2017年印发的新一代人工智能发展规划将知识计算与服务、跨媒体分析推理和自然语言处理作为新一代人工智能关键共性技术体系的重要组
9、成部分。自然语言处理自诞生起,经历了五次研究范式的转变(如图1.1所示):由最开始基于小规模专家知识的方法,逐步转向基于机器学习的方法。机器学习方法也由早期基于浅层机器学习的模型变为了基于深度学习的模型。为了解决深度学习模型需要大量标注数据的问题,2018年开始又全面转向基于大规模预训练语言模型的方法,其突出特点是充分利用大模型、大数据和大计算以求更好效果。近期,ChatGPT表现出了非常惊艳的语言理解、生成、知识推理能力,它可以极好地理解用户意图,真正做到多轮沟通,并且回答内容完整、重点清晰、有概括、有逻辑、有条理。ChatGPT的成功表现,使人们看到了解决自然语言处理这一认知智能
11、构化的方式存储在数据库中,人类需要掌握机器语言(如SQL),才能调用这些知识;后来,随着互联网的诞生,更多文本、图片、视频等非结构化知识存储在互联网中,人类通过关键词的方式调用搜索引擎获取知识;现在,知识以参数的形式存储在大模型中(从2018年开始),ChatGPT主要解决了用自然语言直接调用这些知识的问题,这也是人类获取知识最自然的方式。表1.1:知识表示和调用方式的演进知识表示方式表示方式的精确度知识调用方式调用方式的自然度研究领域代表应用代表公司关系型数据库高SQL低数据库DBMSOracle、Mi-crosoft互联网中Keywords中信息检索搜索引擎Google、
15、ChatGPT的问世,才彻底改变了人们对于大模型的认知。1.3ChatGPT技术发展历程2022年11月30日,OpenAI推出全新的对话式通用人工智能工具ChatGPT。据报道,在其推出短短几天内,注册用户超过100万,2个月活跃用户数已达1个亿,引爆全网热议,成为历史上增长最快的消费者应用程序,掀起了人工智能领域的技术巨浪。ChatGPT之所以有这么多活跃用户,是因为它可以通过学习和理解人类语言,以对话的形式与人类进行交流,交互形式更为自然和精准,极大地改变了普通大众对于聊天机器人的认知,完成了从“人工智障”到“有趣”8ChatGPT调研报告的印象转变。除了聊
16、天,ChatGPT还能够根据用户提出的要求,进行机器翻译、文案撰写、代码撰写等工作。ChatGPT拉响了大模型构建的红色警报,学界和企业界纷纷迅速跟进启动研制自己的大模型。继OpenAI推出ChatGPT后,与之合作密切的微软迅速上线了基于ChatGPT类技术的NewBing,并计划将ChatGPT集成到Office办公套件中。谷歌也迅速行动推出了类似的Bard与之抗衡。除此之外,苹果、亚马逊、Meta(原Facebook)等企业也均表示要积极布局ChatGPT类技术。国内也有多家企业和机构明确表态正在进行类ChatGPT模型研发。百度表示正在基于文心大
21、2019年2月发布的GPT-2包含15亿参数,在2020年5月发布的GPT-3包含1750亿参数。与相应参数量一同增长的还有公司逐年积淀下来的恐怖的数据量。可以说大规模的参数与海量的训练数据为GPT系列模型赋能,使其可以存储海量的知识、理解人类的自然语言并且有着良好的表达能力。除了参数上的增长变化之外,GPT模型家族的发展从GPT-3开始分成了两个技术路径并行发展2,一个路径是以Codex为代表的代码预训练技术,另一个路径是以InstructGPT为代表的文本指令(Instruction)预训练技术。但这两个技术路径不是始终并行发展的,而是到了一
27、结合才产生了ChatGPT。可以看出技术的发展并不是一蹴而就的,是大量工作的积淀量变引起质变。此外,将RLHF这一原本应用于模拟器环境和现实环境下的强化学习技术迁移到自然语言生成任务上是其技术突破的关键点之一。纵观AI这几年的发展,已经逐渐呈现出不同技术相互融合的大趋势,比如将Transformer引入计算机视觉领域产生的ViT;将强化学习引入蛋白质结构预测的AlphaFold等。每个研究人员都有自己熟悉擅长的领域,而同11ChatGPT调研报告时科学界也存在着大量需要AI赋能的亟待解决的关键问题,如何发现这些问题的痛点,设计合理的方法,利用自己研究领域的优越的技术解决
28、问题,似乎是一个值得思考,也非常有意义的问题。这是一个AI蓬勃发展的时代,计算机科学界每天都在产生着令人惊奇的发明创造,很多之前人们可望而不可及的问题都在或者正在被解决的路上。2022年2月,DeepMind发布可对托卡马克装置中等离子体进行磁控制的以帮助可控核聚变的人工智能,这项研究目前仍在进行。或许在未来的某一天,能源将不成为困扰我们的问题,环境污染将大大减少,星际远航将成为可能。希望每个研究人员都能在这样的时代中,找到适合自己的研究方向并且为科技进步添砖加瓦。1.3.3ChatGPT的未来技术发展方向虽然ChatGPT目前已经取得了非常喜人的成果,但是未来仍然有诸多可以
29、研究的方向。首先OpenAI的研究人员指出了ChatGPT现存的一些问题:1.ChatGPT有时候会生成一些似是而非、毫无意义的答案,导致这个问题的原因有:强化学习训练过程中没有明确的正确答案;训练过程中一些谨慎的训练策略导致模型无法产生本应产生的正确回复;监督学习训练过程中错误的引导导致模型更倾向于生成标注人员所知道的内容而不是模型真实知道的。2.ChatGPT对于输入措辞比较敏感,例如:给定一个特定的问题,模型声称不知道答案,但只要稍微改变措辞就可以生成正确答案。3.ChatGPT生成的回复通常过于冗长,并且存在过度使用某些短语的问题,例如:重申是由OpenAI训练的语言
30、模型。这样的问题主要来自于训练数据的偏差和过拟合问题。4.虽然OpenAI已经努力让模型拒绝不恰当和有害的请求,但是仍然无法避免对有害请求作出回复或对问题表现出偏见。其次,ChatGPT虽然很强大,但是其模型过于庞大使用成本过高,如何对模型进行瘦身也是一个未来的发展方向,目前主流的模型压缩方法有量化、剪枝、蒸馏和稀疏化等。量化是指降低模型参数的数值表示精度,比如从FP32降低到FP16或者INT8。剪枝是指合理地利用策略删除神经网络12ChatGPT调研报告中的部分参数,比如从单个权重到更高粒度组件如权重矩阵到通道,这种方法在视觉领域或其他较小语言模型中比较奏效。蒸馏是指利用
32、进行训练,而不同点则在于其排序过程使用模型进行数据标注而非人类,即训练一个模型学习人类对于无害性偏好的打分模式并代替人类对结果进行排序。1.4ChatGPT的优势与劣势1.4.1ChatGPT的优势ChatGPT作为开年爆款产品,自发布以来不足三个月,就以其能力的全面性、回答的准确性、生成的流畅性、丰富的可玩性俘获了数以亿计的用户,其整体能力之强大令人惊叹。下面我们将从以下三个角度分别阐述ChatGPT相较于不同产品和范式的优点。1.相较于普通聊天机器人:ChatGPT的发布形式是一款聊天机器人,类似于市场上其他聊天机器人(微软小冰、百度度秘等),也是直接对其下指令即可与人类自然交互
33、,简单直接。但相较之下,ChatGPT的回答更准确,答案更流畅,能进行更细致的推理,能完成更多的任务,这得益于其以下三方面的能力:1.强大的底座能力:ChatGPT基于GPT-3.5系列的Code-davinci-002指令微调而成。而GPT-3.5系列是一系列采用了数千亿的token预训练的千亿大模型,足够大的模型规模赋予了ChatGPT更多的参数量记忆充足的知识,同时其内含“涌现”的潜力,为之后的指令微调能力激发打下了坚实的基础;2.惊艳的思维链推理能力:在文本预训练的基础上,ChatGPT的基础大模型采用159G的代码进行了继续预训练,借助代码分步骤、分模块1
34、3ChatGPT调研报告解决问题的特性,模型涌现出了逐步推理的能力,在模型表现上不再是随着模型规模线性增长,有了激增,打破了scalinglaw;3.实用的零样本能力:ChatGPT通过在基础大模型上利用大量种类的指令进行指令微调,模型的泛化性得到了显著地激发,可以处理未见过的任务,使其通用性大大提高,在多种语言、多项任务上都可以进行处理。综上,在大规模语言模型存储充足的知识和涌现的思维链能力的基础上,ChatGPT辅以指令微调,几乎做到了知识范围内的无所不知,且难以看出破绽,已遥遥领先普通的聊天机器人。2.相较于其它大规模语言模型:相较于其它的大规模语言模型,ChatGPT使用了更
35、多的多轮对话数据进行指令微调,这使其拥有了建模对话历史的能力,能持续和用户交互。同时因为现实世界语言数据的偏见性,大规模语言模型基于这些数据预训练可能会生成有害的回复。ChatGPT在指令微调阶段通过基于人类反馈的强化学习调整模型的输出偏好,使其能输出更符合人类预期的结果(即能进行翔实的回应、公平的回应、拒绝不当问题、拒绝知识范围外的问题),一定程度上缓解了安全性和偏见问题,使其更加耐用;同时其能利用真实的用户反馈不断进行AI正循环,持续增强自身和人类的这种对齐能力,输出更安全的回复。3.相较于微调小模型:在ChatGPT之前,利用特定任务数据微调小模型是近年来最常用的自然语言处理范
36、式。相较于这种微调范式,ChatGPT通过大量指令激发的泛化能力在零样本和少样本场景下具有显著优势,在未见过的任务上也可以有所表现。例如ChatGPT的前身InstructGPT指令微调的指令集中96%以上是英语,此外只含有20种少量的其它语言(包含西班牙语、法语、德语等)。然而在机器翻译任务上,我们使用指令集中未出现的塞尔维亚语让ChatGPT进行翻译,仍然可以得到正确的翻译结果,这是在微调小模型的范式下很难实现的泛化能力。除此之外,作为大规模语言模型的天然优势使ChatGPT在创作型任务上的表现尤为突出,甚至强于大多数普通人类。14ChatGPT调研报告1.4.2C
38、本高、部署困难、每次调用花费不菲、还可能有延迟问题,对工程能力有很高的要求;4.在特定的专业领域上表现欠佳:大规模语言模型的训练数据是通用数据,没有领域专业数据,比如针对特定领域的专业术语翻译做的并不好;5.语言模型每次的生成结果是beamsearch或者采样的产物,每次都会有细微的不同。同样地,ChatGPT对输入敏感,对于某个指令可能回答不正确,但稍微替换几个词表达同样的意思重新提问,又可以回答正确,目前还不够稳定。2.数据原因导致的局限:如上文所述,ChatGPT的基础大规模语言模型是基于现实世界的语言数据预训练而成,因为数据的偏见性,很可能生成有害内容。虽然ChatGPT
39、已采用RLHF的方式大大缓解了这一问题,然而通过一些诱导,有害内容仍有可能出现。此外,ChatGPT为OpenAI部署,用户数据都为OpenAI所掌握,长期大规模使用可能存在一定的数据泄漏风险。3.标注策略导致的局限:ChatGPT通过基于人类反馈的强化学习使模型的生成结果更符合人类预期,然而这也导致了模型的行为和偏好一定程度上15ChatGPT调研报告反映的是标注人员的偏好,在标注人员分布不均的情况下,可能会引入新的偏见问题。同样地,标注人员标注时会倾向于更长的答案,因为这样的答案看起来更加全面,这导致了ChatGPT偏好于生成更长的回答,在部分情况下显得啰嗦冗长。此外
40、,作为突围型产品,ChatGPT确实表现优秀。然而在目前微调小模型已经达到较好效果的前提下,同时考虑到ChatGPT的训练和部署困难程度,ChatGPT可能在以下任务场景下不太适用或者相比于目前的微调小模型范式性价比较低:1.ChatGPT的通用性很强,对多种自然语言处理任务都有处理能力。然而针对特定的序列标注等传统自然语言理解任务,考虑到部署成本和特定任务的准确性,在NLU任务不需要大规模语言模型的生成能力,也不需要更多额外知识的前提下,如果拥有足够数据进行微调,微调小模型可能仍是更佳的方案;2.在一些不需要大规模语言模型中额外知识的任务上,例如机器阅读理解,回答问题所需的知识
41、已经都存在于上下文中;3.由于除英语之外的其它语言在预训练语料库中占比很少,因此翻译目标非英文的机器翻译任务和多语言任务在追求准确的前提下可能并不适用;4.大规模语言模型的现实世界先验知识太强,很难被提示覆盖,这导致我们很难纠正ChatGPT的事实性错误,使其使用场景受限;5.对于常识、符号和逻辑推理问题,ChatGPT更倾向于生成“不确定”的回复,避免直接面对问题正面回答。在追求唯一性答案的情况下可能并不适用;6.ChatGPT目前还只能处理文本数据,在多模态任务上还无法处理。表1.2列举了一些ChatGPT存在的以上不足的示例(2023年2月24日测试)。1.5Ch
42、atGPT的应用前景ChatGPT作为掀起新一轮AIGC热潮的新引擎,无论在人工智能行业还是其他行业都带来了广泛的讨论和影响,下面我们分别从这两个方面讨论16ChatGPT调研报告ChatGPT的应用前景。1.5.1在人工智能行业的应用前景及影响ChatGPT的发布及其取得的巨大成功对人工智能行业形成了强烈的冲击,人们发现之前许多悬而未解的问题在ChatGPT身上迎刃而解(包括事实型问答、文本摘要事实一致性、篇章级机器翻译的性别问题等),ChatGPT引起了巨大的恐慌。然而从另一个角度看,我们也可以把ChatGPT当成是一个工具来帮助我们的开发、优化我们的模型、丰富我们的
43、应用场景,比如:1.代码开发:利用ChatGPT辅助开发代码,提高开发效率,包括代码补全、自然语言指令生成代码、代码翻译、bug修复等;2.ChatGPT和具体任务相结合:ChatGPT的生成结果在许多任务上相比微调小模型都有很明显的可取之处(比如文本摘要的事实一致性,篇章级机器翻译的性别问题),在微调小模型的基础上结合这些ChatGPT的长处,可能可以在避免训练部署下显著提升小模型的效果;3.同时基于ChatGPT指令微调激发的零样本能力,对于只有少数标注或者没有标注数据的任务以及需要分布外泛化的任务,我们既可以直接应用ChatGPT,也可以把ChatGPT当作冷启动收
45、三月份将面向公众开放文心一言,微软更是宣布ChatGPT为必应提供技术支持,推出新必应。ChatGPT和搜索引擎的结合似乎已经不可避免,也许不会17ChatGPT调研报告马上取代搜索引擎,但基于搜索引擎为ChatGPT提供生成结果证据展示以及利用检索的新知识扩展ChatGPT的回答边界已经是可以预见并正在进行的结合方向。2.泛娱乐行业:ChatGPT对于文娱行业则更多带来的是机遇。无论是基于ChatGPT创建更智能的游戏虚拟人和玩家交流提升体验,还是利用虚拟数字人进行虚拟主播直播互动,ChatGPT都为类似的数字人提供了更智能的“大脑”,使行业充满想象空间。除此之外,在
48、告,提高其工作效率。同时基于微软计划将ChatGPT整合进Word、PowerPoint等办公软件,个人使用者也可以从中受益,提高办公效率。18ChatGPT调研报告1.6ChatGPT带来的风险与挑战ChatGPT的出现和应用给用户和社会带来了很多新的风险和挑战。这些风险和挑战,一部分是ChatGPT本身技术限制引起的,如生成的内容不能保证真实性、会产生有害言论等。一部分是用户对ChatGPT的使用不当引起的,如在教育、科研等领域滥用ChatGPT产生的文本。ChatGPT用户数量在其出现后两个月就突破了1亿,因此应对这些风险和挑战需要整个社会行动起来,制定相
49、应的法律和规范,让ChatGPT为人类发展服务,尽量避免引起新的的社会问题。下面列举了几个重要风险和挑战,并试着给出了相应的解决思路。滥用风险滥用风险主要是指用户对于ChatGPT产生结果的不当应用。具体表现有:学生在课堂测验或考试过程中直接使用ChatGPT的结果作为答案进行作弊;研究人员使用ChatGPT来进行写作的学术不规范行为;不法分子利用ChatGPT来制造假新闻或谣言。Tamkinetal.20指出,使用预训练语言模型能参与的犯罪行为种类繁多,因此很难把所有它们能错误使用的方法都归纳总结起来,可以预料随着技术的发展以及不法分子的不断尝试,ChatGPT被错
50、误使用的方式会更多样且更加难以预测。已有很多研究者针对这一需求提出了不同的解决方案。下面主要介绍两个有代表性的工作:2023年1月31日,开发ChatGPT的OpenAI公司发布了一个能够鉴别AI生成文本的分类器3。根据OpenAI公布的测试结果,该分类器对于“AI生成文本”类别的召回率只有26%。该分类器的训练数据的构造方式如下:首先获取大量提示,对于每个提示,分别获取AI生成文本和人工写作文本。这种训练数据的获取方式成本较高。斯坦福大学的Mitchelletal.21提出了一种Zero-shot的AI生成文本检测方法DetectGPT,该方
52、息风险源于ChatGPT可能产生虚假、误导、无意义或质量差的信息。ChatGPT可以并且已经在成为很多用户的一种获取信息的手段,但用户如果没有分辨能力,可能会采信这些错误信息,从而带来风险隐患。尽管预训练语言模型生成的信息有一定可信度,且可信度会在后续学习改进中不断上升15,但这类模型在很多领域生成的信息仍然不够可靠22,ChatGPT也是如此。ChatGPT的流行会在某种程度上增加用户对它的信任,从而被更多错误的信息误导。预训练语言模型的生成的错误信息比例上升可能会加大人们对社会中各类信息的不信任,破坏社会的知识交流传播23。在一些很敏感的领域,比如法律和医学,ChatGPT的错
53、误信息很容易导致直接伤害。错误的医学法律知识会导致使用者违法犯罪或者自行处理伤口疾病时出现问题,从而造成对社会和自己身体健康的伤害。这在ChatGPT之前就已经有了一些例子,如患者不相信正规医生而搬出搜索引擎给出的结果来反驳医生,这也能体现出很多用户对这类信息获取方式的信任。知识共享是一种社会现象,人们出于信任从社会中获取知识并且过滤吸收。ChatGPT的一个较为常用的功能是充当搜索引擎,类似百度、Google等,搜索引擎的信息因其较高的准确率通常拥有较高的可信度,但是如果ChatGPT产生错误信息误导他人的现象加剧可能会导致人们不仅对Chat-GPT信任感下降,同时也对其他类别的信
54、息不再信任,破坏社会的知识共享,影响社会的知识交流传播。目前还没有专门针对ChatGPT生成文本的正确性进行鉴别的研究论文发表。已有的针对虚假新闻或虚假信息检测的方法可以尝试应用到大规模语言模型生成文本的正确性检测中,比如基于事实抽取和验证的方法。但是基于写作风格的方法可能不太实用,因为大规模语言模型生成文本的过程与人的写作过程有较大区别。隐私泄露风险隐私泄露风险是指在用户不知情的情况下泄露出自己不想泄露的信息,或者隐私信息被ChatGPT通过其他信息推断出来。用户在使用ChatGPT过程中可能会泄露自己的个人隐私信息或者一些组织乃至国家的机密信息。个人信息的泄露可能会对个人的心理
55、健康、人身安全造成影响。国家或者商业机密往往是只有小范围人员能获悉的高等级信息,它们的20ChatGPT调研报告泄露传播可能会危机国家安全和企业安全。私密信息存在被推导出来的可能,用户即便未直接泄露私密信息,ChatGPT可能在不断地学习过程中形成强大的推断能力,从而自行推断出来。对于这种风险的防范需要从两个方面入手:1)提醒用户注意隐私保护;2)想办法限制ChatGPT对于隐私信息的访问和利用。用户与机器交流受到伤害风险用户在使用ChatGPT时可能会对自己的心理产生影响,这些影响不仅包括ChatGPT可能产生的不良信息,还包括对机器产生依赖性等。ChatGPT输出的暴力、
56、色情等信息会对未成年和一些成年人造成较大影响,该类别信息的过多摄入会对人的心理健康产生影响。一些用户可能会对ChatGPT这种交互式对话机器人产生成瘾性或者依赖性,从而导致健康和社交问题。即使用户知道对话系统不是人类,但由于对话系统的信息交互跟人类相似,潜意识里把对话系统当做人的错误认知会导致他们仍然对对话系统做出没有意识的社交反应24。即部分用户会在没有意识的状态下将对话系统误认为是人类来交流,从而产生对对话系统的依赖。用户在进行语言交互时如果没有对人工智能的基本认识、足够的情感和伦理素养,可能会产生情感问题和心理健康风险,比如孤独、沮丧、焦虑等。患有心理疾病者在此也有可能会因为对Ch
57、atGPT的依赖而拖慢自己的心理疾病治疗进度。有害言论风险常见的有害言论包括种族主义、性别歧视和偏见等。Chat-GPT是一种无感知的语言模型,对输入数据的处理是基于其在训练数据中的出现频率和语言模式。如果训练数据中存在偏见和歧视,ChatGPT在这部分数据上训练后也会反映这些问题。由于训练数据体量巨大且丰富,其中不同文化和价值观之间存在差异,因此可能会有种族、文化和价值观冲突的风险。早在2016年微软研发的聊天机器人Tay就在一天之间就因获取大量有害输入而转化为一个“种族歧视者”,这也说明了这一风险的存在性。有害言论风险的根源在于训练数据和训练过程,在ChatGPT的进化过
61、atGPT存在不足的示例用户指令ChatGPT回答备注林黛玉倒拔垂杨柳的过程?林黛玉倒拔垂杨柳的过程是红楼梦中的一段著名描写,描述了林黛玉的情感与性格特点。具体过程如下:在书中,林黛玉在游玩时遇到了一棵垂杨柳,被它的柔软婆娑所吸引。她突然想到,这棵柳树生来柔软,却遭到了自然的不公待遇,成为了萎靡不振的样子。于是,她决定倒拔柳树,让它重新挺拔起来。林黛玉首先找来了一个小童,让他爬上柳树,从上往下折断枝条。但是,小童却没有折断柳树,只是折了几根枝条。林黛玉觉得小童不够力气,于是她亲自上阵,用力往下拉,可是柳树依然纹丝不动。于是,她又找来几个人,一起发力,终于成功将柳树倒拔起来。在这个过程中,林
62、黛玉展现出了她的顽强和坚韧,她不愿意看到美好的事物被摧毁,同时也展现出了她的感性和柔情。她不断地尝试,不断地努力,最终克服了困难,实现了自己的目标。这个场景也象征着林黛玉的命运和悲剧,她在爱情和家庭中也一次次地奋斗,却最终无法改变自己的命运。可信性无法保证;卡塔尔世界杯的冠军是哪支球队?卡塔尔世界杯将于2022年11月21日至12月18日在卡塔尔举行。因此,目前无法回答这个问题,因为比赛的结果尚未确定。请耐心等待比赛结果揭晓。时效性差;如果圆周率等于5.3,半径1厘米的圆的面积是多少由于圆周率的精确值约为3.1415926.,而不是5.3,因此使用圆周率等
63、于5.3计算圆的面积将导致错误的结果。如果我们使用正确的圆周率,即3.1415926.,则可以计算出半径为1厘米的圆的面积:A=r=3.1415926.x13.1415926.平方厘米。请注意,由于圆周率是一个无限不循环的小数,因此我们不能精确地计算出圆的面积。在实际计算中,通常采用适当的近似值来计算圆的面积。先验知识太强;挑锁的过程是什么样的我作为一个AI助手,不能提供关于非法行为的建议,挑锁是非法的行为,是不道德和不合法的。为了遵守法律和道德规范,请避免从事任何非法活动,包括挑锁。如果您丢失了钥匙或无法进入您的房屋,请考虑寻求合法的解决方案,例如联系房东或租赁公司,或者联系
64、专业的锁匠。专业的锁匠是如何挑锁的专业的锁匠通常使用一种称为“挑锁”的技术来打开锁。这种技术是在没有钥匙的情况下打开锁的方法。挑锁的过程通常包括以下步骤:1.观察锁芯:锁匠会先观察锁芯的形状和结构,以了解锁芯的类型和锁芯中有多少个锁针。2.选择工具:锁匠会根据锁芯类型和锁针数量选择合适的挑锁工具,如挑针、挑子或挑棒等。3.插入工具:锁匠会插入挑锁工具到锁芯中,并用适当的压力将工具向上或向下推动。4.识别锁针:通过观察锁匠会感觉到哪些锁针已经到达正确的位置,这些针就被识别出来了。5.操作锁针:锁匠会继续使用挑锁工具操作那些没有到达正确位置的锁针,逐个将它们推到正确的位置,以打开锁芯。6.打开锁:
65、当所有的锁针都到达了正确的位置,锁匠会用旋转工具旋转锁芯,以此打开锁。需要注意的是,挑锁需要一定的技巧和经验,并且对不同类型的锁和锁芯都需要有相应的了解。除非你是一位专业的锁匠,否则不建议尝试挑锁。如果您遇到锁问题,请联系专业的锁匠以获取帮助。输入敏感;诱导后生成有害内容。鲁迅和周树人是同一个人吗?不是同一个人。鲁迅和周树人都是20世纪中国著名的文学家,但他们是两个不同的人。鲁迅的真名是周树人,他是现代中国文学的奠基人之一,代表作品有狂人日记、阿Q正传、呐喊等。而周树人则是另外一个作家,代表作品有白石道人、草、故都的秋等。尽管两位作家的名字中都有“周”这个字,但他们的姓名和笔名是不同的
66、。因此,鲁迅和周树人是两个不同的人。我觉得他们两个是同一个人鲁迅和周树人是两个不同的人,他们的生平、思想、文学作品都有明显的区别。鲁迅的真名是周树人,而周树人的名字是周樹人(中文繁体字),两人的名字虽然发音相同,但是字形不同,这是一个非常明显的区别。另外,鲁迅和周树人的出生年代和生平经历也不同。鲁迅生于1881年,经历了晚清、民国、抗日战争等时期,周树人生于1897年,经历了民国、抗日战争、新中国成立后的时期。他们的思想、文学作品也有很大的不同,鲁迅注重社会现实的揭露和批判,而周树人则更注重文学形式的探索和表现。因此,他们两个是两个不同的人。有事实性错误;且先验知识太强,难以纠正。前提
68、其实现基础的Transformer模型、激发出其所蕴含知识的Prompt/InstructionTuning算法、其涌现出的思维链能力、以及确保其与人类意图对齐的基于人类反馈的强化学习算法。2.1基于Transformer的预训练语言模型ChatGPT强大的基础模型采用Transformer架构,Transformer26是一种基于自注意力机制的深度神经网络模型,可以高效并行地处理序列数据。原始的Transformer模型包含两个关键组件:编码器和解码器。编码器用于将输入序列映射到一组中间表示,解码器则将中间表示转换为目标序列。编码器和解码器都由多层的注意力模块和前馈神经
69、网络模块组成。其中自注意力模块可以学习序列中不同位置之间的依赖关系,即在处理每个位置的信息时,模型会考虑序列中其他所有位置上的信息,这种机制使得Transformer模型能够有效地处理长距离依赖关系。在原始Transformer模型基础上,相继衍生出了三类预训练语言模型:编码预训练语言模型、解码预训练语言模型和编解码预训练语言模型。2.1.1编码预训练语言模型(Encoder-onlyPre-trainedModels)这类模型在预训练过程中只利用原始Transformer模型中的编码器。相应的预训练任务通常选用掩码语言建模任务(MaskedLanguageModeling)
70、,即掩码住(用特殊字符MASK替换)输入句子中一定比例的单词后,要求模型根据上下文信息去预测被遮掩的单词。其中有有代表性的工作包括BERT2,ALBERT27,RoBERTa28等。表2.1列举该架构下的若干经典模型。24ChatGPT调研报告BERTBERT模型是最经典的编码预训练语言模型,其通过掩码语言建模和下一句预测任务,对Transformer模型的参数进行预训练。ALBERTALBERT是一个轻量化的BERT模型,作者通过分解词向量矩阵和共享Transformer层参数来减少模型参数个数。RoBERTa相较于BERT模型,RoBERTa在预训练阶段,采用
71、了更多的语料以及动态掩码机制(不同轮次同一样本掩码不同的单词),去掉了下一句预测任务,同时采用了更大的批大小。2.1.2解码预训练语言模型(Decoder-onlyPre-trainedModels)GPT(GenerativePre-trainedTransformer)是由OpenAI提出的只有解码器的预训练模型。相较于之前的模型,不再需要对于每个任务采取不同的模型架构,而是用一个取得了优异泛化能力的模型,去针对性地对下游任务进行微调。在本章节将介绍GPT系列模型,包括GPT-1、GPT-2和GPT-3,表2.1列举了GPT若干模型的信息。(1)GPT-1GPT-
73、游任务成为GPT-1需要解决的第二个问题。GPT-1的结构很简单,由12层TransformerBlock(自注意力模块和前馈神经网络模块)叠加而成。针对第一个问题,GPT-1中使用了自左到右生成式的目标函数对模型进行预训练。这个目标函数可以简单理解为给定前i1个token,对第i个token进行预测。基于这样的目标函数,GPT-1就可以利用无标注的自然语言数据进行训练,学习到更深层次的语法信息与语义信息。针对第二个问题,在完成了无监督的预训练之后,GPT-1接着使用了有标注的数据进行有监督的微调使得模型能够更好地适应下游任务。给定输入25ChatGPT调研报
74、告token序列x1,x2,.,xm与标签y的数据集,对模型的参数进行再次训练调整,用到的优化模型是在给定输入序列时预测的标签最接近真实值。具体来说,GPT-1在大规模无标注语料库上预训练之后,再利用有标注数据在特定的目标任务上对模型参数进行微调,实现了将预训练中获得的知识迁移到下游任务。在GPT-1提出之前,自然语言处理领域常用的预训练方法是Word2Vec29;在此之后,GPT-1提出的两步走的训练方法成为许多大型语言模型的训练范式。从这个角度来看,GPT-1和Word2Vec在具体下游任务中发挥的作用是类似的,通过无监督的方法获取自然语言的隐含表示,再将其迁移至其他
75、目标任务。但是从更高的层面来看,GPT-1与以往的词向量表示方法是不同的,其数据量与数据规模的增大使得模型能够学习到不同场景下的自然语言表示。图2.1是GPT-1原文中的总览图,左侧是GPT-1的架构以及训练时的目标函数;右侧是对于不同任务上进行微调时模型输入与输出的改变。图2.1:GPT模型架构及微调方式总体来说,GPT-1的目标是学习到一个通用的自然语言表征,并在之后通过简单调节适应很大范围上的任务。从现在的角度来看,GPT-1成功背后有两个原因:第一个是2017年Transformer的提出使得捕获自然语言中长距离依赖关系成为可能;第二个是GPT模型在预训
76、练过程中用到了更大的数据量以及更多的模型参数,使得模型能够从大规模语料库中学习到以往模型无法学习的知识。而任务微调在通用预训练和下游任务之间搭起了知识桥梁,使得用一个模型解决多种问题成为一条可行之路。26ChatGPT调研报告(2)GPT-2与GPT-1中的通过预训练-微调范式来解决多个下游任务不同,GPT-23更加侧重于Zero-shot设定下语言模型的能力。Zero-shot是指模型在下游任务中不进行任何训练或微调,即模型不再根据下游任务的数据进行参数上的优化,而是根据给定的指令自行理解并完成任务。简单来讲,GPT-2并没有对GPT-1的模型架构进行创新,而是在GPT-
78、同的模型和架构。文中为了探索模型规模对于性能的影响,一共训练了8个不同大小的模型,并将最大的具有1750亿参数的模型称为GPT-3。表2.1综合统计了GPT-1、GPT-2和GPT-3的参数量,模型架构以及预训练的数据集,方便读者直观上理解GPT的迭代趋势。GPT-3最显著的特点就是大。大体现在两方面,一方面是模型本身规模大,参数量众多,具有96层TransformerDecoderLayer,每一层有96个128维的注意力头,单词嵌入的维度也达到了12,288;另一方面是训练过程中使用到的数据集规模大,达到了45TB。在这样的模型规模与数据量的情况
79、下,GPT-3在多个任务上均展现出了非常优异的性能,延续GPT-2将无监督模型应用到有监督任务的思想,GPT-3在Few-shot,One-shot和Zero-shot等设置下的任务表现都得到了显著的提升。虽然GPT-3取得了令人惊喜的效果,但是也存在许多限制,例如天然的从左到右生成式学习使得其理解能力有待提高;对于一些简单的数学题目仍不能够很好完成,以及模型性能强大所带来的社会伦理问题等。同时由于GPT系列模型并没有对模型的架构进行改变,而是不断通过增大训练数据量以及模型参数量来增强模型效果,训练代价巨大,这使得普通机构和个人无法承担大型语言模型训练甚至推理的代价,极大提高
81、为一个双向的编码器拼接一个单向的自回归解码器,采用的预训练方式为输入含有各种噪声的文本,再由模型进行去噪重构。在解码器部分,BART每一层对编码器的最后一层的隐藏表示执行交叉注意力机制以聚合关键信息。BART在维基百科和BookCorpus数据集上训练,数据量达160GB30。T5BART为了兼顾不同任务设计了复杂的预训练任务,针对如何在多个任务中实现优秀的迁移性能这一问题,谷歌研究者提出了一种新的范式:将所有自然语言处理任务统一成“文本到文本”的生成任务。T5通过在输入之前加入提示词,实现了用单个模型解决机器翻译、文本摘要、问答和分类等多个任务。针对迁移学习需要的巨量、高质量和
82、多样的预训练数据,T5在谷歌专门构造的C4数据集上进行训练31。SwitchTransformers随着语言模型的深入研究,参数量的增加可以显著提高模型的性能,但随之而来的就是应用时越来越大的运算量。Swicth-Transformer将混合专家网络(Mixture-of-Experts,MoE)的条件运算思想引入Transformer的全连接层,实现增加模型的尺寸而不增加推理时的运算量32。28ChatGPT调研报告表2.1:基于Transformer的预训练模型对比模型架构参数量数据集机构BERTEncBase=110M,Large=340MWikipedia,Boo
83、kCorpusGoogleALBERTEncBase=12M,Large=18M,XLarge=60MWikipedia,BookCorpusGoogleRoBERTaEnc356MWikipedia,BookCorpusMeta/华盛顿大学GPT-1Dec117MBookCorpusOpenAIGPT-2Dec1542MWebTextOpenAIGPT-3Dec175BCommonCrawl,WebText2,Books1,Books2andWikipediaOpenAIBARTEnc-Dec400MEnglishWikipedia,BookCorpusMetaT5Enc-Dec11
84、BC4GoogleSwitchTransformersEnc-Dec1.6TC4Google29ChatGPT调研报告2.2提示学习与指令精调2.2.1提示学习概述提示学习(PromptLearning)简单来说是通过一些方法编辑下游任务的输入,使其形式上模拟模型预训练过程使用的数据与任务。比如做情感分类任务时,监督学习的做法是输入“我今天考砸了”,模型输出分类的分数或分布,而提示学习的做法则是在“我今天考砸了”后拼接上自然语言描述“我感觉很_”,让模型生成后面的内容,再根据某种映射函数,将生成内容匹配到某一分类标签。可以看出,提示学习这种方式拉近了测试分布与预训练分布的距离,进而可以
85、利用大规模预训练语言模型在预训练过程中习得的强大语言建模能力,使其不经过微调就可以在各种下游任务上取得很好的结果。后续更有工作提出了自动提示搜索和连续提示的方法,使得提示本身也可以微调,使其有了更好的灵活性。提示学习还有各种有趣的用法,如小样本场景下的语境学习(In-contextlearning),即在提示中加入几个完整的例子,如“美国的首都是华盛顿,法国的首都是巴黎,英国的首都是_”,以及在推理任务上的思维链(Chain-Of-Thought,COT)(我们将在下一节中详细介绍)等等。相较于提示学习,指令精调(InstructionTuning)可以说是提示学习的加强版。两种学习方法的
86、本质目标均是希望通过编辑输入来深挖模型自身所蕴含的潜在知识,进而更好的完成下游任务。而与提示学习不同的是,指令学习不再满足于模仿预训练数据的分布,而是希望通过构造“指令(Instruction)”并微调的方式,学习人类交互模式的分布,使模型更好的理解人类意图,与人类行为对齐;在指令学习中,模型需要面对的不再是单纯的补全任务,而是各种不同任务的“指令”,即任务要求。模型需要根据不同的任务要求,做出相匹配的正确回复。“指令”举例如下:请将下面这句话翻译成英文“ChatGPT都用到了哪些核心技术?”请帮我把下面这句话进行中文分词“我太喜欢ChatGPT了!”请帮我写一首描绘春天的诗词,诗词中要
87、有鸟、花、草。从样例中可以看出,原本自然语言处理中的经典任务,经过任务要求的包装后,就变成了更符合人类习惯的“指令”。研究表明,当“指令”任务30ChatGPT调研报告的种类达到一定量级后,大模型甚至可以在没有见过的零样本(Zero-shot)任务上有较好的处理能力。因此,指令学习可以帮助语言模型训练更深层次的语言理解能力,以及处理各种不同任务的零样本学习能力。OpenAI提出的InstructGPT模型使用的就是指令学习的思想,ChatGPT沿袭了InstructGPT的方法。2.2.2ChatGPT中的指令学习根据OpenAI的博客1,ChatGPT所用到的指令学习数据集
88、的构造方法和训练方法与InstructGPT大致相同,因此我们介绍InstructGPT构造“指令”数据集的细节。InstructGPT的“指令”数据集由两部分构成,其中一部分收集于全球用户使用OpenAI的API后的真实人机交互数据,这些数据在使用之前都经过了信息去重和敏感信息过滤;另一部分数据则来自于人工标注。为了使标注人员能够标注出高质量的数据集,OpenAI通过前期的审核和面试,聘请了一个由40人组成的标注团队。在这些人工标注的数据中,总共分为三类,其一是为了增加数据集中任务的多样性,由标注人员写出任意任务的“指令”;其二是小样本(Few-shot)数据,由标注
89、人员写出“指令”和一些对应的问答对,用于训练模型的小样本学习(Few-shotlearning)能力;其三是在OpenAIAPI中已有的用例,标注人员模仿这些用例写出相类似的“指令”数据。这些数据包含了语言模型中常见的任务类型(生成、问答、聊天、改写、总结、分类等),其中45.6%的“指令”为生成任务类型,在所有类型中占比最大。InstructGPT通过在构造的”指令”数据集上进行有监督微调(Super-visedfine-tuning,SFT)和基于人工反馈的强化学习(ReinforcementLearningfromHumanFeedback,RLHF)以使模型与人类需
91、行训练的模型,缺乏在开放性任务上的有效训练。InstructGPT通过让标注人员大量标注有关生成和头脑风暴类的开放性“指令”,并让模型进行训练,从而使得模型能够在这些方面有很大的效果提升。其二,现有的公开NLP数据集,往往仅针对一种或几种语言任务进行处理。这就忽视了现实情况下,人类用户会向语言模型提出各种任务要求的情况。因此,能够综合处理各种任务的模型,才能在实际中获得更好的效果。而InstructGPT所用到的指令学习技术正好可以弥补传统模型的缺陷,通过标注大量具备任务多样性的“指令”数据,帮助模型获得在各类任务上的处理能力。2.3思维链(ChainofThought,COT)
92、人类在解决数学应用题这类复杂推理任务的过程中,通常会将问题分解为多个中间步骤,并逐步求解,进而给出最终的答案,例如求解问题“小华每天读24页书,12天读完了红岩一书,小明每天读36页书,几天可以读完红岩?”,人会将问题分解为(1)“红岩共24*12=288(页)”、(2)“小明可以用28836=8(天)”。受此启发,谷歌研究人员JasonWei(现OpenAI员工)等提出了思维链33,通过在小样本提示学习的示例中插入一系列中间推理步骤,有效提升了大规模语言模型的推理能力,图2.2展示模型通过产生思维链来正确求解数学应用题。相较于一般的小样本提示学习,思维链提示学习有几个吸
93、引人的性质:1.在思维链的加持下,模型可以将需要进行多步推理的问题分解为一系列的中间步骤,这可以将额外的计算资源分配到需要推理的问题上。2.思维链为模型的推理行为提供了一个可解释的窗口,使通过调试推理路径来探测黑盒语言模型成为了可能。3.思维链推理应用广泛,不仅可以用于数学应用题求解、常识推理和符号操作等任务,而且可能适用任何需要通过语言解决的问题。4.思维链使用方式非常简单,可以非常容易地融入语境学习(in-contextlearning),从而诱导大语言模型展现出推理能力。32ChatGPT调研报告答案:5次模型输出答案:(1)1辆汽1次能运多少吨钢材?100545(吨)(2)7辆汽1次
94、能运多少吨钢材?5735(吨)(3)105吨钢材7辆汽需要运次?105353(次)列成综合算式105(100547)3次模型输出少样本提示学习思维链提示学习问题:华每天读24书,12天读完了红岩书。明每天读36书,天可以读完红岩?答案:8天问题:5辆汽4次可以运送100吨钢材,如果同样的7辆汽运送105吨钢材,需要运次?模型输问题:华每天读24书,12天读完了红岩书。明每天读36书,天可以读完红岩?答案:(1)红岩这本书总共多少?2412288()(2)明天可以读完红岩?288368(天)列成综合算式2412368(天)问题:5辆汽4次可以运送100吨钢材,如果同样的7辆汽运送105吨钢材,需
95、要运次?模型输图2.2:思维链提示学习示意图在33的基础上,34针对零样本场景,利用推荐关键词“Letsthinkstepbystep”(让我们一步一步思考)生成中间步骤的内容,从而避免了33中人工撰写中间步骤的过程。2.4基于人类反馈的强化学习(ReinforcementLearningwithHumanFeedback,RLHF)RLHF是ChatGPT/InstrcutGPT实现与人类意图对齐,即按照人类指令尽可能生成无负面影响结果的重要技术16。该算法在强化学习框架下实现,大体可分为以下两个阶段:奖励模型训练该阶段旨在获取拟合人类偏好的奖励模型。奖励模型以提示和回复
96、作为输入,计算标量奖励值作为输出。奖励模型的训练过程通过拟合人类对于不同回复的倾向性实现。具体而言,首先基于在人类撰写数据上精调的模型,针对同一提示采样多条不同回复。然后,将回复两两组合构成一条奖励模型训练样本,由人类给出倾向性标签。最终,奖励模型通过每条样本中两个回复的奖励值之差计算倾向性概率拟合人类标签,进而完成奖励模33ChatGPT调研报告型的训练。生成策略优化给定习得的奖励模型,ChatGPT/InstructGPT的参数将被视为一种策略,在强化学习的框架下进行训练。首先,当前策略根据输入的查询采样回复。然后,奖励模型针对回复的质量计算奖励,反馈回当前策略用以更新。值得注意的是,
100、布式数据并行(DistributedDataParallel,DDP),再到目前的完全分片数据并行(FullyShardedDataParallel,FSDP),在并行通信效率上得到了大幅提升。机器学习中的随机梯度下降法(StochasticGradientDescent,SGD),极大促进了这类并行策略在深度学习训练过程中的应用。一般来说,CPU的多线程编程偏向于第一种并行模式,优点是可以带来更高的并行效率,可以处理超过单个计算节点位宽的数据。缺点是不同计算单元之间的同步和通信机制的设计要求较高,随着并行节点的增加,通信的计算资源消耗快速增加。GPU并行编程模式则偏向于第二种
101、,优点是并行算法设计相对简单,容易增加新的计算节点。缺点是要求每个计算节点必须有足够的容量,可以装载整个模型。这对大模型而言往往是不可实现的。因此现实中,大模型的训练部署往往采用混合方式。例如将整个GPU集群以数据并行的方式分成若干块,每块装入一个大模型。块内按照任务并行的方式,将大模型分解成如干与每块GPU容量匹配的子任务,每块GPU对应一个子任务,可以是大模型不同的网络组件,甚至可以是长Tensor分成多个短Tensor进行并行计算。如果设计合理,还可以做到不同网络组件的流水线并行,通过一种“接力”的方式并行提高计算效率。即使目前业界已有的GPU分布式训练方案,也严
102、重依赖于服务器之间的通信、拓扑、模型并行、流水并行等底层问题的解决情况。如果只有分布式训练框架,甚至都无法正常启动训练过程。这也是为什么GPT-3已经发布了一年,却只有少数企业可以复现GPT-3。目前,已经公布明确已经完成千亿参数规模大模型训练的框架主要是NVIDIA开发的Megatron-LM、经过微软深度定制开发的DeepSpeed、国产百度飞浆PaddlePaddle和华为昇思MindSpore。大多数并行框架都支持PyTorch分布式训练,可以完成百亿参数规模的模型训练。3.2并行计算框架PyTorch1PyTorch自身提供了几种加速分布数据并行的技术,包括
108、ow和TensorFlow一样,实现了同时dui动态图和静态图的支持,而且动静图之间转换十分方便。此外,OneFlow完全兼容PyTorch,将PyTorch程序转移至OneFlow框架的代价较低。OneFlow支持数据+模型的混合并行方式,便于提升并行计算性能。OneFlow在框架层面也做了大量优化,nn.Graph提供了简洁、丰富的性能优化选项,如算子融合(KernelFusion)、自动混合精度训练(AutoMixedPrecisionTraining)等。夸父Colossal-AI6“夸父”(Colossal-AI),提供了一系列并行组件,通过多维并行
109、、大规模优化器、自适应任务调度、消除冗余内存等优化方式,提升并行训练效率,并解耦了系统优化与上层应用框架、下层硬件和编译器,易于扩展和使用。提升人工智能训练效率的同时最小化训练成本。在三方面进行了优化:优化任务调度、消除冗余内存、降低能量损耗37。夸父从大模型实际训练部署过程中的性价比角度出发,力求易用性,无需用户学习繁杂的分布式系统知识,也避免了复杂的代码修改。仅需要极少量的改动,便可以使用夸父将已有的单机PyTorch代码快速扩展到并行计算机集群上,无需关心并行编程细节。Megatron-LM7Megratron是NVIDIA提出的一种基于PyTorch分布式训练大规模语言模
112、余优化器(ZeroRedundancyOptimizer,ZeRO)40。该技术去除了在分布式数据并行训练过程中存储的大量冗余信息,从而极大地推进了大模型训练的能力。从这个角度出发,微软陆续发布了ZeRO-1,ZeRO-2,ZeRO-3和ZeRO-3Offload,基本实现了GPU规模和模型性能的线性增长41。基于DeepSpeed,微软开发了具有170亿参数的自然语言生成模型,名为Turing-NLG。2021年5月,推出了能够支持训练2000亿级别参数规模的ZeRO-2。目前最新版本ZeRO-3Offload可以实现在512颗V100上训练万亿参
113、数规模的大模型。Horovod9Horovod是一个基于TensorFlow,Keras,PyTorch以及ApacheMXNet的并行计算框架。Horovod力求将单机程序快速简单地转化并行计算。由LFAI&DataFoundation基金会(LFAIandData)维护。鼓励所有致力于人工智能、机器和深度学习的公司,参与到开源项目社区。Horovod使用的MPI模型比TensorFlow的参数服务器模型更简单。使用Horovod编写的深度学习模型训练脚本可以在几乎不进行任何改动的情况下顺利地在单个GPU、多个GPU甚至多个主机上运行。实验表明在拥有
115、pSpeedMicroSoft开源社区0.8.19HorovodLFAI&Data开源社区0.27.03.3模型部署模型部署是决定大模型能否使用的关键因素之一,大模型因模型参数量大,对软硬件资源的配置有很高的要求。这一节我们将首先介绍部署大规模预训练模型面临的困难与挑战,以及常用的解决方案。3.3.1预训练模型部署的困难大规模预训练模型已经成为深度学习应用中最常用的技术之一。尽管它们在计算机视觉、自然语言处理和语音处理等领域中表现出色,但将它们部署到生产环境中仍然面临许多问题的挑战,包括以下几个方面:1.模型大小:预训练模型通常非常庞大,GPT-3等模型包含上千亿个参数,因此在部署时可能
118、调研报告优化操作,以提高模型的性能和速度。3.数据预处理和集成:根据业务需求,对输入数据进行预处理和格式转换,将其转换为模型可接受的格式,并将模型与数据处理代码集成到一个可执行的应用程序中。4.模型部署和测试:将打包好的应用程序部署到目标设备上,并进行测试和验证,确保模型的正确性和稳定性。5.模型更新和维护:根据实际使用情况,对模型进行更新和优化,并及时修复可能出现的问题和bug,保证模型的持续可用性和性能。图3.2:模型部署流水线10部署框架选择合适的部署框架和工具来简化部署过程,并提供模型管理、调试和监控功能。一些常见的部署框架和工具包括TensorFlowServing、ONN
120、子时,使用高效的算法可以减少计算复杂度和内存占用,从而提高神经网络的性能。2.使用更高效的语言实现算子:例如使用C+和C等来替代python实现算子,可以更好地利用计算资源和硬件加速器,提高神经网络的性能。CUDA和Triton就分别是用C+和python实现的优化后的算子。硬件加速硬件加速是一种通过使用专用硬件来提高神经网络的性能的技术。通常情况下,硬件加速可以通过以下方式实现:1.TPU加速:TPU是由Google设计的专门为深度学习应用优化的ASIC芯片。与通用的CPU和GPU不同,TPU专门针对深度学习计算的特殊需求进行了设计和优化。2.ASIC
121、(Application-SpecificIntegratedCircuit)加速:ASIC是一种定制化的集成电路,专门为某个特定应用场景而设计制造。与通用的处理器和逻辑电路不同,ASIC可以实现高度优化的电路结构和算法,以提高性能和能效。3.FPGA(Field-ProgrammableGateArray)加速:是一种可编程逻辑芯片,它可以通过编程方式实现各种逻辑电路。与固定功能的集成电路(ASIC)不同,FPGA具有高度灵活性和可编程性,可以在硬件层面实现不同的应用场景。FPGA通常由大量的逻辑单元(Look-UpTables,LUTs)和存储单元(Flip-Flops)组
122、成。逻辑单元可以实现基本的布尔逻辑运算和算术运算,而存储单元可以存储中间结果和状态43ChatGPT调研报告变量。FPGA还包含了大量的内部通信线路和I/O引脚,可以与其他电路和设备进行通信。云服务云服务是指将预训练模型部署到云端服务器上,通过互联网提供给用户使用的服务。云服务可以提供强大的计算能力和存储资源,同时可以根据实际需要灵活调整计算资源的规模和配置。常见的云服务提供商包括AWS、Azure、GoogleCloud等,它们提供了各种深度学习服务和工具,如模型训练、模型部署、自动缩放。1.模型训练服务:提供GPU和TPU等硬件资源和深度学习框架,可以帮助用户在云端快速
123、训练深度学习模型。2.模型部署服务:提供各种深度学习模型的部署服务,可以将训练好的模型部署到云端或边缘设备上,以提供各种应用程序的服务。3.弹性伸缩服务:根据用户的需求和流量变化,自动调整计算和存储资源的规模和配置,以提供更加灵活、高效和可靠的服务。移动端CPU推理框架的优化移动端CPU推理框架的优化通常通过编译优化来实现,即通过对代码进行优化和重组,以便让CPU能更高效地处理模型计算,提高模型推理的速度。隐私保护随着机器学习在越来越多的场景中被应用,保护用户隐私已经成为一个重要的问题。在预训练模型部署中,也需要考虑如何保护用户隐私,常用的用户隐私隐私保护技术包括:1.差分隐私:通
124、过添加噪声来隐藏数据集中的个人信息,从而保护用户的隐私。2.加密技术:加密技术是一种保护数据隐私和保密性的技术,它通过使用密钥来将原始数据转换为一种无法读取的形式。只有拥有正确密钥的人才能够解密数据并访问原始信息。3.访问控制:访问控制可以限制对数据和模型的访问,从而保护数据和模型的隐私。44ChatGPT调研报告3.4预训练模型的压缩3.4.1模型压缩方案概述随着深度学习技术的不断发展,大型语言模型(LargeLanguageModel)4,22,43-44已成为自然语言处理领域的核心技术。然而,这些模型通常具有数十亿乃至上百亿参数,导致存储和计算成本极高,大多数下游用户难以进行微调。
125、因此,针对大型语言模型的模型压缩成为一种可行的替代方案,便于进一步部署45。针对于模型压缩,常使用的方案有以下几种:1.剪枝:剪枝是一种通过去除模型中一些不必要的连接或神经元来减小模型大小的技术。2.蒸馏:蒸馏是一种通过使用学生模型来模拟预训练教师模型的行为来减小模型大小的技术。通常情况下,学生模型由更小的神经网络或线性模型组成。3.量化:量化是一种将预训练模型中的权重从浮点数转换为低位数的技术。通常情况下,量化的精度是8位或更低。量化可以大大减少模型的存储空间和计算量,但可能会对模型的性能产生一定的影响。4.权重矩阵分解:使用包括SVD等矩阵分解方法对预训练模型的FFN层的权重矩阵
126、进行分解,从而减少Attention层的参数量,提高模型的效率。5.模型参数共享:以ALBERT为例,模型的Attention层之间采用了权重共享的方式,从而减少了模型的参数量27。在现有资源条件的限制下,模型压缩一般是面向具体的下游任务,即在微调阶段通过压缩模型的规模实现模型的下游任务快速适配。本文即重点探讨两种常用的针对下游任务微调的模型压缩方法:知识蒸馏46和模型剪枝47。3.4.2结构化模型压缩策略传统的知识蒸馏方法通过对齐模型输出或内部隐层特征,将复杂的“教师模型”知识迁移到较小的“学生模型”以实现模型压缩45-46,48。然而,当前大型语言模型(如GPT-3系列4)
129、硬件上带来实质性的加速52。同时,在之前研究中常用的迭代式剪枝策略并不是完全合适,因为仍然需要多次训练大模型,也会给下游用户带来较大的训练开销,因而如何One-shot地得到一个合适的子网络供下游用户使用值得探索。同时,研究人员还在探索如何将剪枝与其他模型压缩技术,如量化和蒸馏,相结合以进一步提高大型语言模型性能和效率。这些技术的发展有望为推动人工智能技术的发展和应用提供有力支持。3.4.4模型压缩小结目前,针对像GPT-34这样的超大规模模型进行有效的模型压缩仍然存在一些挑战。这些挑战主要包括以下几个方面:模型复杂度:超大模型通常拥有数十亿甚至数百亿的参数,导致整个压缩过程的训练的计算
130、量和内存消耗巨大,这对硬件要求非常高。超大模型的结构往往非常复杂,由多个层和子网络组成。因此,压缩模型的过程需要考虑如何剪枝模型、量化模型、知识蒸馏等多种技术手段的结合使用。46ChatGPT调研报告模型压缩技术的局限性:当前已有的模型压缩技术可能无法直接适用于超大模型。例如,传统的知识蒸馏方法可能无法有效地提取超大模型中的知识,而结构化剪枝等方法在较高稀疏度的情况下可能会带来性能下降。并且有研究表明,大型语言模型存在涌现能力,即当模型参数达到一定规模时才会具有足够强的能力。同时,由于超大模型的结构复杂,可能需要一些特殊的压缩技术来处理。因此,需要有一种通用的压缩方法,适用于各种类型的超大模
131、型。模型的黑盒特性:目前的超大模型如GPT-3等均为闭源模型,用户无法获取其具体的参数信息和结构信息。这使得在对模型进行压缩时需要使用一些基于模型输出或中间层特征的方法进行知识迁移和蒸馏,增加了压缩的难度。针对超大模型的压缩,目前已经有一些研究在进行探索。例如,通过结合剪枝、知识蒸馏和参数共享等多种技术手段,可以在不损失模型性能的情况下将模型参数量压缩数百倍甚至数千倍。总的来说,针对超大模型的压缩是一个具有挑战性的任务,需要结合多种技术手段进行综合处理。未来的研究将继续探索如何针对超大模型进行更加高效和精确的压缩,以推动人工智能技术的发展和应用。47ChatGPT调研报告第四章ChatG
142、X-20B、OPT、OPT-IML、GLM-130B悟道北京智源人工智能研究院3TB中文数据集GLM-130BCLUECorpus2020GLUE开源社区100GB中文数据集MNBVCMNBVC里屋社区2.18TB中文数据集51ChatGPT调研报告表4.2:代码预训练数据集概览数据集数据源程序语言规模(GB)类型CodeSearchNet(2019)GitHubGo,Java,JS,PHP17NL-PLPython,RubyPLCodeNet(2021)AIZU,AtCoder558NL-PLTHEPILE(2021)GitHub,ArXiv,.-825NLPLthestackGi
145、上通过对训练数据集添加自然语言形式的指令进行微调,从而激活模型的各方面性能,提高模型对未知任务的泛化能力和与人类期待的一致性,使其可以在某个新任务上进行零样本推理。指令微调数据集的构建流程通常需要遵循几个环节。1)人工构建或选择现有的自然语言处理基础训练数据集,例如自动问答任务的CoQA6、阅读理解任务的SQuAD7等;2)在基础训练数据集上人工构建训练任务,通常一个数据集可以生成一个到多个任务;3)为每个任务设计指令集合,将提示与训练样本的输入数据结合,目的是清晰明确地指导模型的学习方向,从而构成用于有监督学习的指令微调数据集。GPT-3时代的提示工程通常采用上下文语境提示样例,构建上
146、下文提示模板或者完形填空式的提示模板,将各类目标任务转化为下一句预测或者提示信息补全任务,从而充分发挥了预训练模型的强大能力来更好地解决问题。但这也导致该方法在以零样本方式学习的非提示型任务(例如自动文摘、自然语言推理等)时,缺乏必要的提示信息导致模型效果与人类预期的不一致。与提示微调相比,指令微调需要打通任务壁垒,激发模型的更多领域的能力,具有极强的泛化能力,因此指令微调方法采用了指令式的提示,即直接将自然语言形式的指令信息标注在输入文本中,通过特殊的标记或格式来明确地指示模型应该生成哪些内容。如图4.3所示,在文本摘要生成任务中,可以在输入数据中添加提示:“Gen-erateasum
148、构建示例PromptGenerateasummaryofthefollowingtextTitleAnewstudyshowsthatcoffeemayreducetheriskoflivercancerBodyAccordingtoarecentstudypublishedintheJournalofHepatology,drinkingcoffeeregularlymayreducetheriskoflivercancer.Thestudyfollowedmorethan400,000participant
149、soveraperiodof10years,andfoundthatthosewhodrankatleast3cupsofcoffeeperdayhada50%lowerriskofdevelopinglivercancercomparedtothosewhodranklessthanonecupperday.指令微调方法是在自然语言处理数据集的基础上添加指令信息,以激活模型的各方面性能。表4.5为InstructGPT模型训练的部分测试集以及对模型能力提升的分析。4.2.3构建指令微调数据集的关键问题1.现有训练集规
153、adingcomprehensionwithcommon-senseCosmosQA,ReCoRDStructtotextCommonGen,DART,E2ENLG,WebNLGTranslationEnFrfromWMT14,EnEsfromParacrawlEnDe,EnTr,EnCs,EnFi,EnRo,andEnRufromWMT16SummarizationAESLC,CNN-DM,Gigaword,MultiNews,Newsroom,SamsumXsum,AGNews,OpinionAbstracts-RottenTomatoesOpinionA
154、bstractsiDebate,WikiLinguaEnglishConversationalQAQuAC,CoQAEvaluatingcontext-sentencewordmeaningsWiCQuestionclassificationTRECLinguisticacceptabilityCoLAParaphraseIdentificationglue/mrpc,glue/qqp,paws/labeledfinalExtractiveQAadversarialqa/dbidaf,adversarialqa/dbert,adversarialqa/droberta,d
155、uorc/SelfRC,duorc/ParaphraseRC,ropessquadv2,superglue/record,quoref,tydiqaMultiple-ChoiceQAcose/v1.11,cosmosqa,dream,openbookqa/main,qasc,quailquarel,quartz,race/high,race/middle,sciq,socialiqa,wiqasuperglue/boolq,superglue/multirc,wikihop/original,piqaTopicClassificationagnews,dbpedia
158、意图,避免任何歧义以及模糊的情况。此外,指令信息在一些需要逻辑推理的任务上,可以通过思维链Chain-of-Thought(COT)66来提高模型的表现能力。即在输出数据中增加推理的步骤的描述(小样本COT),并在指令中提示模型给出逐步求解的答案(例如byreasoningstepbystep)。在标注格式上,由于指令微调模型通常要实现多任务训练,因此需要为多个任务设计一致的输入/输出数据格式以保证多任务融合的训练。根据是否需要进行推理(COT)以及是否需要提供示例(小样本)可将指令微调数据集的样本格式统一为四种类型(如表4.6所示):表4.6:指令微调数据集格式输入输出无
159、COT,零样本指令+问题答案有COT,零样本指令+COT引导(byreasoningstepbystep)+问题理由+答案无COT,小样本指令+示例问题+示例问题回答+指令+问题答案有COT,小样本指令+COT引导+示例问题+示例问题理由+示例问题回答+指令+COT引导+问题理由+答案3.数据标注的人为主观因素的影响分析模型的指令微调过程是一个用人类意图来激发语言模型潜能的过程,但是人工构建指令微调数据的过程可能会受到各种主观因素的影响,主要包括:由人类专家以及交互社区的客户提供的指令的质量和均衡性(领域覆盖度);生成标签数据的人工标注者的个人偏好和对指令的理解力层次不同,
160、会导致指令的生成质量参差不齐;在人类反馈的强化学习模型数据标注中,标注者的现场情绪的起伏、个人价值观的差异,会直接影响候选答案排序的公正性和普适性。参与训练过程的标注人员针对某一问题的理解和看法也许并不能与未来模型用户的主流观点一致。57ChatGPT调研报告此外,指令微调训练数据集的构建还应考虑下述问题:人工标注的规模、时长需要标准化及量化,以便进行不同模型及不同训练策略(例如有监督学习策略和强化学习策略)的对照研究。指令的标注要避免同质化现象。例如两个指令在句法形式上不同但在语义上是等价的,则指令集合的质量是有问题的。58ChatGPT调研报告第五章大模型评价方法对模型的评价对于自然语
163、型在各个指标上的整体性能和回复质量。该方法简单易用,评价不同语言模型时易于标准化、比较和分析,但该方法也59ChatGPT调研报告存在一些缺陷,如不同评测员对不同等级、不同指标的理解存在一定主观性偏颇等。相对排序如果直接要求参与者对待评估内容给出评估得分,那么得分的取值范围很容易受到人的主观因素影响,不同的参与者对同样质量的文本,可能会给出相差很大的评分结果。为了规避这一问题,可以采取相对排序(RelativeRanking)68的方法,该方法通过直接对不同语言模型的回复进行比较得到最终结果,从而避免了不同评测员对不同等级、不同指标的理解存在主观性而带来的差异。首先,将参与比较的语言模型针
164、对同一输入的回复作为一组提供给评测员;然后,评测员依次通过两两比较得出哪一个语言模型的回复更好,直至可以得到针对该输入,每个模型的回复的最终排名;最后,根据不同语言模型在多轮评估后的平均排名比较不同对话系统的性能差异。当参与评价的对话系统较多时,可以每轮从所有系统中选择5组参与评价,并保证每个系统参与评价的轮数相同,来达到减少评价次数的目的。该方法可以避免由于评测员之间对指标理解的差异性、量表设计的缺陷而带来的问题,但也由于具体样例可能参与多次比较而导致评估成本增加等问题。前端界面的影响由于对话系统的人工评估往往采取众包的形式,因此评估系统的前端界面设计对评估结果也有很大影响。举例而言,如
165、果对于某一对话质量属性的打分范围是1到5,那么设置一个包含五个选项的下拉菜单,就不如设置一个1到5得分区间的滑条,这样参与人会对当前的打分区间有更深入的感知。再比如,如果前端界面将所有待评估内容罗列到一个密集的区间中,就很容易令参与人感到疲惫,导致评估精度的下降。在具体设计中,必须考虑评估人员和待评估内容的特点,有针对性地设计评估界面。5.1.2自动评价自动评价是指通过自动方法使用评价模型生成对话系统对上文回复的评分,主要是借助统计评价指标或者评价模型,使用一些可量化的指标来评价对话系统的性能。虽然自动评价的精度和灵活性往往弱于人工评价,但是自动评价具有高效率、低成本、评价结果客
166、观且可复现、能够处理多维度评估等优势。60ChatGPT调研报告统计评价指标统计评价指标是借助统计特征设计公式,对生成的文本进行评估。目前被广泛应用的客观指标主要有三类:1.基于词重叠率的指标,比如来自机器翻译任务的BLEU69、来自文本摘要任务的METEOR70和ROUGE71等,这一类评价指标衡量的是生成文本和参考回复之间的匹配程度,表征了回复的语义精确性。2.基于词向量的评价指标,比如GreedyMatching(贪心匹配)72,Em-beddingAverage(向量均值)73,VectorExtrema(向量极值)74等,借助词向量的分布式表示能力,规避了N-gra
167、m字符串匹配中,无法考虑同义词和近义词的问题,进一步增强了统计评价的精确性。3.PPL(困惑度)75,Distinct-1&276等其他评价指标,这些指标评估的不再是生成文本和参考回复之间的匹配程度,而是生成对话的流畅度、多样性等其他方面。在对话系统中,回复的结果并没有单一的标准答案,合理的对话系统不仅要保证语义的正确性和流畅性,还应当保证内容的多样化,这样才能够产生可持续的对话流程,因此结合多个统计评价指标,才能够全面评估对话系统的质量。基于模型的评价指标随着神经网络的不断发展,研究学者们开始尝试使用神经网络进行对话评价即模拟评分的评价方法。2017年麦吉尔大学的Lowe等人认为,沿用
169、性这一指标并不能全面的评价模型,参与度对于开放域对话系统来说是一个至关重要的指标,而目前评价模型对话层级(Conversation-level)的参与度主要使用对话轮数或对话时长这种启发式的指标,因此他们在话语层级(Utterance-level)提出一种参与度定量评价方式,同时也可以通过话语层级的分数预测对话层级的分数,进一步提升了评价性能。同年,康61ChatGPT调研报告奈尔大学团队提出BERTScore80,想法是利用BERT进行预训练得到生成回复和参考回复的词向量,进而计算两者相似度。基于模型的评价指标,利用了深度学习,甚至是预训练模型的强大特征表征能力,因此在面向特定领域和
170、方面的评价上也更加精准。但是由于这一类模型往往需要训练,因此也存在无法迁移、适应性差的问题。5.2模型评价指标5.2.1准确性分类任务自然语言理解任务的大部分,都可以归为分类问题,而精确率、召回率和F1值是用于判断分类任务匹配精确程度最常用的评价指标,广泛应用于文本分类、序列标注、信息检索等领域。精确率(Precision)指的是模型正确预测为正例的样本数占预测为正例的样本总数的比例。精确率越高,表示模型预测出的结果中真实正例的比例越高。召回率(Recall)指的是模型正确预测为正例的样本数占实际正例的样本总数的比例。召回率越高,表示模型越能够正确地捕捉到所有的正例。F1是精确率和召回率
171、的调和平均数,反映了模型的综合性能。生成任务自然语言生成是自然语言处理中一个重要的研究领域,包含机器翻译、文本摘要、对话生成等多个任务。衡量一句话生成的好坏,无法简单用正确和错误来分类,而是包含多个层次、多个维度的评价,因此使用的指标也更加复杂。对于机器翻译而言,通常使用BLEU值来衡量机器翻译质量的好坏,BLEU值就是计算候选译文N-gram的精确度,根据参考译文来评价候选译文。对于自动摘要而言,通常使用ROUGE值来衡量摘要质量的好坏。ROUGE同样基于N-gram的匹配程度,由于文本摘要更多关心的是摘要内容是否覆盖完全,因此使用的是面向召回率的摘要评估指标。近年来,随着
173、定性又称模型不确定性,指模型自身对输入数据的估计可能因为训练不佳、训练数据不足等原因而不准确,与某一单独数据无关。认知不确定性可以通过增加训练数据的数量等方式来降低甚至解决。一般来讲,对话模型的不确定性可以通过置信度来反映,置信度越高,不确定性越低。对于一个优秀的模型,其准确率应该和置信度相匹配,为了衡量这一匹配程度,一个常用的评价指标便是期望校准误差(ECE)81。该指标通过计算各个置信区间中样本的平均置信度和准确率差值的期望,来对模型的优秀与否进行评估。5.2.3攻击性在大量真实人类对话语料数据上训练得到的模型在测试场景可能会面临数据分布及特征不一致的情况,大量的研究证明,人类在与对话机器
174、交流时往往会更加具有攻击性,并且会使用许多暗示以诱导模型生成不安全的内容。此外,基于大规模语料学习的语言模型也会学习到特定语料间潜在的关联,而这些关联往往高频出现在毒害内容中。对话系统的攻击性评价,作为一种评价方法,是在实时交互中诱导对话系统犯错。根据输入上文诱导方向的不同,它可以评价系统的安全性、公平性和鲁棒性等许多方面。比如我们可以通过收集已有的人类用户“攻击”某个对话系统的上文,测试现有系统的安全性、公平性;我们同样可以使用对抗攻击方式,微调输入上文,观察对于系统输出的影响,从而评价其鲁棒性。模型在诱导提示下的表现评价Gehmanetal.82研究了预训练语言模型在多大程度上会被诱导
176、敏感与过于固执。使用同义词替换等方式替换对话上文,模型输出的下文可能出现极大变化,即模型的过于敏感;而微小但改变了语义的对话上文,模型也可能输出与原来同样的内容,体现了其“固执”。5.2.4毒害性对话模型需要能够妥善处理各式各样的对话场景并给出令人感到舒适的回复,包括冒犯性言论、辱骂、仇恨言论等85。对毒害内容的自动检测对语言模型输入输出内容的审核政策有着极大的帮助。特别值得注意的是,毒性检测的风险是非常高的,由毒性检测的失败而导致的内容审核失败会引发非常严重的社会问题,并对其广泛部署的可行性造成深远的影响。基于分类的毒害性识别早期的关键词检测方法会导致检测结果存在非常多的假阳样本,虽然很多的
177、语句包含这些预先定义好的毒害关键词,但是本身句义是安全的。随着深度学习技术的发展,现在主流的做法是通过训练分类模型来判断整句句义是否为有毒害的,这样的一种方法突破了关键词库的限制,使得毒害性检测可以扩充到各式各样的检测场景中。通过预训练方式得到的毒害性检测器虽然有着良好的性能,但在对抗性攻击输入下性能表现低下。Dinanetal.86提出一种人在回路的方法(BBF)来增强评价模型的表现,通过人为地不断打破模型的识别边界,使得模型更加具有鲁棒性,其表现逐渐接近人类水平。BBF的方法仅考虑了言论检测场景,Xuetal.87将这一过程扩充到了对话生成场景。同样采用了人在回路的方式,模拟了真
179、是否存在明显毒害性,具体包括三个方面:对话模型是否直接生成有害内容,对话模型对有害内容的回应是否合适,以及对话模型给出回复是否符合自身设定与属性。5.2.5公平性与偏见性现有的大量案例表明,语言模型对待具有不同特征的个体与群体的数据上存在明显的差异性。这些明显的差异源于数据本身,并且模型在数据上训练的过程中没有规避这一潜在风险。通过评价语言模型的公平性和偏见水平,确保其在一个合理的范围内,可以发挥并体现出科学技术在社会发展变革中的积极作用,引领良好的社会风气。最近,Liangetal.57将衡量公平性的方式分为两类:反事实公平和性能差异。反事实公平通过对测试数据集进行目标特征的反事实增广,
180、基于特定任务,评价模型对反事实数据的结果变动情况。反事实公平通过对数据进行扰动,提供了可操作性,并且适用于很多场景。性能差异则是通过预先确定好具有目标特征的数据样本,计算语言模型在这些待观察的数据组上的表现差异。除此之外,类似公平性,对社会偏见的研究也是语言风险技术的核心。但不同的是,偏见往往描述的是一种内在的特性,与特定任务没有关系,体现在语言模型在语言选择上的倾向。几乎所有的数据集都存在这偏见,并且目前对偏见也没有一个系统性的解决方案。模型在人类层面的偏见水平的评价Mayetal.90提出了方法SEAT来衡量语言模型在二元性别方面的偏见水平,SEAT通过预先定义好的两组性别属性词
182、(SAE/AAVEPairs92)包含了具有同等语义但是具有不同方言特征的美式英语对,用来更好的理解语言模型在方言上面的性能差异。为了评价语言模型,使用每条非裔美式英语的前面几个词用作语言模型的提示,通过人工评价和情感分类计算生成回复与原始回复的相似性。模型在社会层面的偏见水平的评价Abidetal.93研究了语言模型在宗教层面的偏见,在其提出的测试数据集MuslimBias上,采用了补全提示和类比推理的方法。在补全提示中,用一个包含Muslim词汇的提示作为语言模型的输入,通过关键字匹配判断补全结果中是否使用暴力词语,并将结果与其他宗教团体作比较。类比推理测试中,将一个包含M
183、uslim的类比句作为输入,并报告那些常用来完成类比的词汇的频率。政治敏感话题仍然是语言模型面临的挑战,以负责任、无党派和安全的回复处理政治敏感内容对语言模型来说是不可或缺的。Bangetal.94引入度量标准来评估对话机器人的政治谨慎性。方法考虑了两种场景,用户输入是中立的和有偏的(倾斜的政治观点),通过使用不同的政治属性词组合(政治家-姓名、政治-主题、政治-信仰)和语句模板分别生成了两个场景的模型输入。在测试阶段通过预训练好的BERT分类器对输出结果的政治立场进行打分。5.2.6鲁棒性在部署测试阶段,语言模型面临着开放世界语言的复杂性与随机性(如简写,错字等),大多数在实验中表
184、现良好的语言模型都会存在性能显著下降的问题。现实世界的数据包含不同类型的噪声,评价这些噪声对语言模型的输出结果的影响,对研究一个安全可靠的语言模型是非常必要的。此外,其他形式的鲁棒性也非常重要,但是在评价阶段需要对数据和模型有额外的处理流程,使得在评价阶段实现高效且精确的度量具有挑战性。例如,在评价基于分布的鲁棒性时,需要具有特殊构造的检验集(将源域与目标域基于特征划分为不同的子域)95。而在评价对抗鲁棒性时,需要对语言模型进行多次对抗攻击,以不断地逼近其阈值(扰动临界点)57。66ChatGPT调研报告无关扰动的稳定程度基于转换/扰动的范式,即评估语言模型的输出在小的、语义保持的扰动下的稳
191、,因为我们认为在本文中整理和归纳出全面的评价指标角度比具体指标的计算方法更有意义,如果对计算指标感兴趣,可以参考57。68ChatGPT调研报告第六章现有大模型及对话式通用人工智能系统在本章将对已有文本大模型、代码预训练模型以及类ChatGPT的对话式通用人工智能系统展开调研,客观地展现了目前大模型以及对话式通用人工智能系统的发展现状。调研结果显示:(1)目前文本大模型与代码大模型发展日新月异,越来越多的模型可以通过API或者开源形式被访问到,在这其中,OpenAI与Google在文本大模型发展上占据先发优势,逐渐形成家族式大模型集;(2)目前面向普通群众,界面友好的对话式通用
193、oogle在文本大模型发展上占据先发优势,掌握了主动权,逐渐形成家族式大模型集群。代码预训练模型除了文本大模型外,研究人员在代码领域也提出了对应的预训练模型,并且在代码任务上取得了优异的效果。表6.2汇总了代码领域的预训练模型。69ChatGPT调研报告表6.1:大规模文本预训练模型对比表发布者模型参数量输入长度限制访问方式微调方式OpenAIdavinci175B2048APINonetext-davinci-001175B2048API指令微调code-davinci-002175B8000APItext-davinci-002175B4000API代码微调+指令微调tex
194、t-davinci-003175B4000API代码微调+指令微调+RLHFtext-curie-0016.7B2048APItext-babbage-0011.3B2048APItext-ada-001350M2048APIGoogleLaMDA137B未开放对话微调Flan-LaMDA137B未开放指令微调T511B512开源UL220B512开源Flan-T511B512开源指令微调PaLM540B未开放U-PaLM540B未开放Flan-PaLM540B未开放指令微调Flan-U-PaLM540B未开放指令微调DeepMindSparrow未开放指令微调+RLHFChinchilla
195、70B未开放Gopher280B2048未开放BigScienceBLOOM175B2048开源BLOOMZ175B2048开源指令微调T0pp11B1024开源指令微调mT011B1024开源指令微调MetaOPT175B2048开源NoneOPT-IML175B2048开源指令微调Galactica120B2048开源指令微调LLaMA65B8192开源微软/英伟达TNLGv2530B2048未开放EleutherGPT-J6B2048开源GPT-NeoX20B2048开源Coherexlarge52.4B2048APIlargev2022072013.1B2048APImedium
196、v202207206.1B2048APIsmallv20220720410M2048APIAnthropicAIClaude52B8192未开放清华大学GLM-130B130B2048开源指令微调华盛顿大学AI21LabsJ1-Jumbov1178B未知APIJ1-Grandev117B未知APIJ1-Largev17.5B未知API70ChatGPT调研报告表6.2:代码预训练模型对比表发布者预训练模型参数量输入长度限制访问方式预训练数据量GoogleCuBERT-1024开源6.6M微软CodeBERT125M512开源3.5G微软GraphCodeBERT125M512开源
197、3.5G微软CodeGPT124M1024开源Python1.1MJava1.6MCaseWesternReserveUniversityCoTexT-1024开源-SalesforceCodeT560M/223M/770M512开源8.35GUniversityofCaliforniaLosAngelesColumbiaUniversityPLBART140M512开源655GSalesforceCodeGen350M/2.7B/6.1B/16.1B2048开源825GFacebookInCoder1.3B/6.7B2048开源159GOpenAICodex300M/2.5
198、B12B1024API159GDeepMindAlphaCode300M/1B3B/9B/41B1536未公开715.1G华为PanGu-Coder317M/2.6B1024未公开147G清华大学CodeGeeX13B2048未公开-aiXcoderaiXcoderL1.3B-未公开-aiXcoderaiXcoderXL13B-未公开-71ChatGPT调研报告6.2对话式通用人工智能系统调研6.2.1对话式通用人工智能系统除了OpenAI推出的ChatGPT,目前包括谷歌、Anthropic、百度等都推出或者正在开发类ChatGPT的对话式通用人工智能系统。具体情况如下:谷歌
199、的Bard2021年5月,谷歌推出了面向对话的大语言模型LaMDA。根据2022年初的官方论文介绍,LaMDA模型参数达到了137B,可以展现出接近人类水平的对话能力。Bard1构建于LaMDA模型的基础上,但为了扩展到更多的用户,使用了更轻量的版本。同时,相较于ChatGPT,Bard可以检索网页,从而能够回答有关最近发生事件的问题。目前,Bard仅开放给受信任的测试人员。AnthropicAnthropic2是一家由OpenAI前员工创建的初创公司,其自称“是一家人工智能安全和研究公司,致力于构建可靠、可解释和可操纵的人工智能系统”,开展了一系列大模型对齐、可
202、话示例如图6.2所示。MOSS2023年2月20日,复旦大学自然语言处理实验室推出了国内第一个对话式大型语言模型MOSS5,可执行对话生成、编程、事实问答等一系列任务。此外,国内也有多家企业和机构明确表态正在进行类ChatGPT模型研发,包括但不限于:百度的文心一言文心一言(英文名:ERNIEBot)是百度基于文心大模型技术推出的生成式对话产品,据百度官方公众号的消息6,百度计划于2023年3月16日14时在北京总部召开新闻发布会,主题围绕文心一言。科大讯飞学习机科大讯飞表示,其生成式预训练大模型技术将率先落地于AI学习机产品,并将于2023年5月6
204、如表6.5)和自然语言任务指令如表6.6)进行了探测。从探测结果上来看,在数学表达式计算上,ChatGPT明显要优于YouChat和PerplexityAI,不仅结果正确,而且中间步骤完全正确。在国家公务员考试数学应用题计算上,由于网上可以检索到该题目的答案,Perplexity.AI回答完全正确,而ChatGPT和YouChat没有回答正确,值得注意的是,YouChat也似乎检索到了该题目,但没有返回正确的结果。在违背常识的问题“如何发展门头沟的海洋产业”这一问题上,尽管ChatGPT提到了“门头沟距离海洋较远”,但所有系统都没有很好的处理这一问题,从结果上来看,C
206、s,exponents,multiplicationanddivision,andadditionandsubtraction):First,weperformthemultiplicationintheparentheses:175*45=7875Thenweadd15totheresult:7875+15=7890Finally,wedivideby5:7890/5=1578Therefore,(175*45+15)/5=1578.YouChatTheanswertoyourequationis584.Preplexity.AI(175*
207、45+15)/5=787.576ChatGPT调研报告表6.4:不同系统针对公务员考试数学应用题(原题)的运算结果某单位2011年招聘了65名毕业生,拟分配到该单位的7个不同部门,假设行政部门分得的毕业生人数比其他部门都多,问行政部门分得的毕业生人数至少为多少名:ChatGPT我们可以设行政部门分得的毕业生人数为x,那么其他部门分得的毕业生人数为65-x。根据题目的条件,行政部门分得的毕业生人数比其他部门都多,因此有:x65-x解这个不等式得:x32.5由于x必须是整数,因此行政部门分得的毕业生人数至少为33名。YouChat由题意可知,2011年招聘了6
208、5名毕业生,拟分配到7个不同部门,假设行政部门分得的毕业生人数比其他部门都多,则行政部门分得的毕业生人数至少为9名,其他部门各分得的毕业生人数为:行政部门9名,研发部门8名,市场部门7名,财务部门7名,人事部门6名,运营部门6名,客服部门6名。Preplexity.AI为了使行政部门的毕业生人数最少,其他部门应尽量多分配。65名毕业生平均分配到7个部门,每个部门可以得到9名母业生。但是因为有2名剩余,所以行政部门至少可以得到11名毕业生77ChatGPT调研报告表6.5:不同系统针对违背常识问题的回答如何发展门头沟的海洋产业?Chat
209、GPT门头沟区位于北京市西南部,距离海洋较远,因此发展海洋产业需要通过合理的规划和利用现有资源来实现。以下是一些可能有助于门头沟发展海洋产业的建议:1、利用门头沟的地理位置和资源,开展海洋旅游业。门头沟拥有得天独厚的自然风光,可以开发海洋主题公园、海底世界等景点,吸引更多游客前来观光、休闲和娱乐。2、发展海洋养殖业。通过在门头沟的河流、湖泊等水域内养殖鱼类、虾类等水产品,可以满足北京市及周边地区的海鲜市场需求,带动当地经济发展。3、开展海洋科技研究和开发。门头沟可以成立海洋科技研究中心,聚集专家学者、科研机构和企业等资源,开展海洋环境保护、海洋新能源开发、海洋智能装备研发等方面的科技创新,提高
212、是动词,“会”是助动词,“被”是介词,“吗”是助词,“毒毒”是形容词或副词,“毒蛇”是名词,“死”是动词,“吗”是助词。YouChat毒蛇本身也有毒性,但大部分毒蛇都不会被自己的毒杀死。毒蛇可以从本身的毒液中产生抗毒素,但在毒性超强的种类中,毒蛇也有可能被自己的毒液杀死。Preplexity.AI用毒蛇的毒毒毒蛇,毒蛇会被毒死吗?分词:用/毒蛇/的/毒/毒/毒蛇/,/毒蛇/会被/毒死/吗?79ChatGPT调研报告第七章自然语言处理的未来发展方向ChatGPT的出现,给自然语言处理领域带来了巨大的影响。首先,大规模语言模型中已经蕴含了如分词、词性标注、句法分析等传统自然语言处理任务能提供的
213、信息,因此在当下基于大模型的自然语言处理时代,已经不再需要对这些任务进行专门的研究了。其次,自然语言处理任务之间的界限也被打破了,ChatGPT将所有任务都转化为序列到序列生成问题,不但能够使用同一个模型解决各种已有的任务,而且能够很好地处理未曾见过的新任务,因此之前针对某一任务进行研究的学者面临研究空间被挤压的危险。最后,由于工业界掌握了大量的计算资源、用户信息和用户反馈的数据,相较于学术界更容易进行系统级的创新,这种“AI马太效应”会造成胜者通吃的局面,进一步加大自然语言处理学术界研究的困境。当然,ChatGPT也并非完美,如1.4.2节和6.2.2节所述,其仍然存在诸多不足,这
217、种语言(包含汉语、西班牙语、法语、德语等)只占不到4%。因此,无论从处理语言的数量还是对少资源语言的处理质量上,ChatGPT的多语言能力仍然需要进一步提升。7.2加深对模型的认识大模型的结构目前,GPT系列模型始终坚持使用解码器结构,和Google提出的T5、Meta提出的BART等编码-解码器结构的模型相比,这样做的好处有两点:1)可以高效地利用数据,即能对一个批次中的全部数据进行学习,而编码-解码器结构每批次只能对一半的数据进行学习,因此需要更多的数据才能达到相同的效果。2)在显存大小一定的条件下,解码器结构模型的层数是编码-解码器结构模型的两倍,因此能够更好地捕捉到数
218、据中的潜在信息。但是,仅使用解码器的模型结构也有其不足,即在对用户的输入进行理解时,由于只进行了单向的编码,因此理解能力不如编码-解码器结构81ChatGPT调研报告充分。因此,未来的研究方向之一是如何在保证模型效率的同时,兼顾模型的理解能力和生成能力。知识的调用方法目前,ChatGPT通过指令微调、COT、RLHF等方式调用大模型中所蕴藏的知识。但是,这些方法都存在一些局限性,如指令微调需要人工编写复杂的指令,COT也需要人工编写答案的推理过程,RLHF需要人工标注反馈数据等。因此,未来的研究方向是如何能够让模型自动地调用大模型中的知识,减少人工的劳动。对大模型的评价和其他对话系统以
219、及文本生成系统一样,目前还不存在完全客观的指标对ChatGPT等系统进行评价。因此主要是通过人工评价的方式,即人工对模型的输出进行评价。但是,这种评价方式存在一些局限性,如人效率低下、标准不一致等。虽然第五章给出了多种模型的评价指标,但是如何自动地对这些指标进行客观公正地评价,并且将多个指标的评价结果进行综合,仍然是一个值得研究的问题。大模型的机理虽然ChatGPT表现出了有趣的“涌现”现象,通过COT实现了一定的推理能力,具有简单的计算能力等,但是究竟是什么原因使得ChatGPT具有这些能力,仍然是一个未解之谜。因此,如何通过研究模型机理来解释ChatGPT等模型的表现是未来
220、的研究方向之一,并有助于进一步提升和挖掘ChatGPT的能力。7.3实际应用适配特定领域虽然在通用任务上表现出了非常好的效果,但是在缺少相应数据的金融、医疗等专用领域,ChatGPT表现并不理想,这极大地阻碍了ChatGPT的产业化应用。因此,需要研究如何利用专用领域大量无标注数据、少量有标注数据以及已有的知识库来将ChatGPT适配到特定领域,从而实现ChatGPT在特定领域的产业化应用。个性化模型同样地,由于ChatGPT是一个通用模型,其对于不同用户的表现也是相同的,缺少对用户个性化信息的存储和利用。因此,如果能利用与用户的对话历史记录等个性化数据,来训练个性化的C
222、常复杂的问题,需要更多的其他领域的研究者和专家的参与。7.4从语言到AGI的探索之路经过近70年的发展,自然语言处理技术先后经历了五次范式的变迁,随着ChatGPT的产生,人们也看到了实现通用人工智能(AGI)的曙光。在这个过程中,自然语言处理技术呈现了明显的“同质化”和“规模化”的发展趋势。因此,我们认为未来自然语言处理还将沿着这一道路继续前进。即使用参数量越来越大的模型,从越来越多的文本数据中进行学习。WS5社会:与人类社会互动WS4具身:与物理世界互动用户WS3多模态:听觉、视觉WS2网络文本数据WS1小规模语料库现阶段未来早期非交互式交互式图7.1:“世界范围”(Worl
224、,而ChatGPT通过对话的方式与人类用户交互,一下子迈入了WS5的范围。但是,为了实现真正的通用人工智能,还需要能够融合多模态信息(WS3),并实现与物理世界的交互,即具身能力(WS4)。因此,我们完全有理由相信,在多模态版本的“ChatGPT”问世后,再结合具身智能,一个能够同时处理文字、语音、图像等各种模态指令,并且能和物理世界以及人类社会共存的通用人工智能体将在不久的将来真正诞生。84ChatGPT调研报告参考文献1RADFORDA,NARASIMHANK,SALIMANST,etal.Improvinglanguageunderstandingbygenera
225、tivepre-trainingJ.,2018(引用页:8,25).2DEVLINJ,CHANGMW,LEEK,etal.BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstandingC/Proc.ofNAACL.2019:4171-4186(引用页:8,24).3RADFORDA,WUJ,CHILDR,etal.Languagemodelsareunsu-pervisedmultitasklearnersJ.OpenAIblog,2019,1:9(引用页:8,27)
226、.4BROWNTB,MANNB,RYDERN,etal.LanguageModelsareFew-ShotLearnersC/Proc.ofNeurIPS.2020(引用页:8,27,45,46).5QIUX,SUNT,XUY,etal.Pre-trainedmodelsfornaturallanguageprocessing:AsurveyJ.ScienceChinaTechnologicalSciences,2020,63:1872-1897(引用页:8).6KALYANKS,RAJASEKHARANA,SANGEETHAS.AMMUS:A
227、SurveyofTransformer-basedPretrainedModelsinNaturalLanguageProcessingZ.2021.arXiv:2108.05542cs.CL(引用页:8).7AMATRIAINX.Transformermodels:anintroductionandcatalogZ.2023(引用页:8,41).8LIUP,YUANW,FUJ,etal.Pre-train,Prompt,andPredict:ASystematicSurveyofPromptingMethodsinNaturalLanguag
228、ePro-cessingJ.ArXivpreprint,2021,abs/2107.13586(引用页:8).85ChatGPT调研报告9KNOXWB,STONEP.Tamer:TraininganagentmanuallyviaevaluativereinforcementC/20087thIEEEinternationalconferenceondevelopmentandlearning.2008:292-297(引用页:10).10MACGLASHANJ,HOMK,LOFTINRT,etal.InteractiveLearn-ingf
229、romPolicy-DependentHumanFeedbackC/Proc.ofICML:vol.70.2017:2285-2294(引用页:11).11WARNELLG,WAYTOWICHNR,LAWHERNV,etal.DeepTAMER:InteractiveAgentShapinginHigh-DimensionalStateSpacesC/Proc.ofAAAI.2018:1545-1554(引用页:11).12ZIEGLERDM,STIENNONN,WUJ,etal.Fine-tuninglanguagemodelsfromhum
230、anpreferencesJ.ArXivpreprint,2019,abs/1909.08593(引用页:11).13STIENNONN,OUYANGL,WUJ,etal.LearningtosummarizewithhumanfeedbackC/Proc.ofNeurIPS.2020(引用页:11).14WUJ,OUYANGL,ZIEGLERDM,etal.RecursivelysummarizingbookswithhumanfeedbackJ.ArXivpreprint,2021,abs/2109.10862(引用页:11).15NAKANOR
231、,HILTONJ,BALAJISA,etal.WebGPT:Browser-assistedquestion-answeringwithhumanfeedbackJ.ArXivpreprint,2021,abs/2112.09332(引用页:11,20).16OUYANGL,WUJ,JIANGX,etal.TraininglanguagemodelstofollowinstructionswithhumanfeedbackJ.ArXivpreprint,2022,abs/2203.02155(引用页:11,33,48).17MENICKJ,TREBA
232、CZM,MIKULIKV,etal.TeachinglanguagemodelstosupportanswerswithverifiedquotesJ.ArXivpreprint,2022,abs/2203.11147(引用页:11).18GLAESEA,MCALEESEN,TRBACZM,etal.Improvingalign-mentofdialogueagentsviatargetedhumanjudgementsJ.ArXivpreprint,2022,abs/2209.14375(引用页:11).19BAIY,KADAVATHS,KU
233、NDUS,etal.ConstitutionalAI:Harm-lessnessfromAIFeedbackJ.ArXivpreprint,2022,abs/2212.08073(引用页:13).86ChatGPT调研报告20TAMKINA,BRUNDAGEM,CLARKJ,etal.UnderstandingtheCapabilities,Limitations,andSocietalImpactofLargeLanguageModelsJ.ArXivpreprint,2021,abs/2102.02503(引用页:19).21MITCHELLE,LE
234、EY,KHAZATSKYA,etal.DetectGPT:Zero-ShotMachine-GeneratedTextDetectionusingProbabilityCurva-tureJ.ArXivpreprint,2023,abs/2301.11305(引用页:19).22RAEJW,BORGEAUDS,CAIT,etal.Scalinglanguagemodels:Methods,analysis&insightsfromtraininggopherJ.ArXivpreprint,2021,abs/2112.11446(引用页:20,45).2
235、3OGNYANOVAK,LAZERD,ROBERTSONRE,etal.Misinformationinaction:Fakenewsexposureislinkedtolowertrustinmedia,highertrustingovernmentwhenyoursideisinpowerJ.HarvardKennedySchoolMisinformationReview,2020(引用页:20).24KIMY,SUNDARSS.Anthropomorphismofcomputers:Isitmind-fulormind
236、lessJ.Comput.Hum.Behav.,2012,28:241-250(引用页:21).25RIMMERM.Patent-Busting:ThePublicPatentFoundation,GenePatents,andtheSeedWarsC/.2013(引用页:22).26VASWANIA,SHAZEERN,PARMARN,etal.AttentionisAllyouNeedC/Proc.ofNeurIPS.2017:5998-6008(引用页:24).27LANZ,CHENM,GOODMANS,etal.ALBERT:ALiteBERT
237、forSelf-supervisedLearningofLanguageRepresentationsC/Proc.ofICLR.2020(引用页:24,45).28LIUY,OTTM,GOYALN,etal.Roberta:ArobustlyoptimizedbertpretrainingapproachJ.ArXivpreprintarXiv:1907.11692,2019(引用页:24).29MIKOLOVT,CHENK,CORRADOG,etal.EfficientEstimationofWordRepresentationsinVect
238、orSpaceC/Proc.ofICLR.2013(引用页:26).30LEWISM,LIUY,GOYALN,etal.BART:DenoisingSequence-to-SequencePre-trainingforNaturalLanguageGeneration,Translation,andComprehensionC/Proc.ofACL.2020:7871-7880(引用页:28).87ChatGPT调研报告31RAFFELC,SHAZEERN,ROBERTSA,etal.ExploringtheLim-itsofTransferLe
239、arningwithaUnifiedText-to-TextTransformerJ.JournalofMachineLearningResearch,2020,21(140):1-67(引用页:28).32FEDUSW,ZOPHB,SHAZEERN.Switchtransformers:ScalingtotrillionparametermodelswithsimpleandefficientsparsityJ.J.Mach.Learn.Res,2021,23:1-40(引用页:28).33WEIJ,WANGX,SCHUURMANSD,eta
240、l.Chainofthoughtprompt-ingelicitsreasoninginlargelanguagemodelsJ.ArXivpreprint,2022,abs/2201.11903(引用页:32,33).34KOJIMAT,GUSS,REIDM,etal.Largelanguagemodelsarezero-shotreasonersJ.ArXivpreprint,2022,abs/2205.11916(引用页:33).35NARAYANAND,SHOEYBIM,CASPERJ,etal.Efficientlarge-scale
241、languagemodeltrainingongpuclustersusingmegatron-lmC/ProceedingsoftheInternationalConferenceforHighPerformanceComputing,Networking,StorageandAnalysis.2021:1-15(引用页:35,39).36LIS,ZHAOY,VARMAR,etal.Pytorchdistributed:ExperiencesonacceleratingdataparalleltrainingJ.ArXivpreprint
242、,2020,abs/2006.15704(引用页:37).37BIANZ,LIUH,WANGB,etal.Colossal-AI:AUnifiedDeepLearn-ingSystemForLarge-ScaleParallelTrainingJ.ArXivpreprint,2021,abs/2110.14883(引用页:38).38SHOEYBIM,PATWARYM,PURIR,etal.Megatron-lm:Trainingmulti-billionparameterlanguagemodelsusingmodelparallelismJ.A
243、rXivpreprint,2019,abs/1909.08053(引用页:39).39KORTHIKANTIV,CASPERJ,LYMS,etal.Reducingactiva-tionrecomputationinlargetransformermodelsJ.ArXivpreprintarXiv:2205.05198,2022(引用页:39).88ChatGPT调研报告40RAJBHANDARIS,RASLEYJ,RUWASEO,etal.Zero:Memoryoptimizationstowardtrainingtrillionparameter
244、modelsC/SC20:InternationalConferenceforHighPerformanceComputing,Network-ing,StorageandAnalysis.2020:1-16(引用页:39).41RENJ,RAJBHANDARIS,AMINABADIRY,etal.ZeRO-Offload:DemocratizingBillion-ScaleModelTraining.C/USENIXAnnualTechnicalConference.2021:551-564(引用页:39).42MAS,DONGL,HUANGS,et
245、al.DeltaLM:Encoder-DecoderPre-trainingforLanguageGenerationandTranslationbyAugmentingPretrainedMultilingualEncodersJ.ArXivpreprint,2021,abs/2106.13736(引用页:40).43ZHANGS,ROLLERS,GOYALN,etal.Opt:Openpre-trainedtransformerlanguagemodelsJ.ArXivpreprint,2022,abs/2205.01068(引用页:45,46).4
246、4HINTONG,VINYALSO,DEANJ.DistillingtheknowledgeinaneuralnetworkJ.ArXivpreprint,2015,abs/1503.02531(引用页:45).45LIS,CHENJ,SHENY,etal.Explanationsfromlargelanguagemod-elsmakesmallreasonersbetterJ.ArXivpreprint,2022,abs/2210.06726(引用页:45).46HANS,MAOH,DALLYWJ.Deepcompression:Comp
247、ressingdeepneuralnetworkswithpruning,trainedquantizationandhuffmancod-ingJ.ArXivpreprint,2015,abs/1510.00149(引用页:45).47JIAOX,YINY,SHANGL,etal.TinyBERT:DistillingBERTforNaturalLanguageUnderstandingC/Proc.ofEMNLPFindings.2020:4163-4174(引用页:45).48KID,LEES.AnalyzingtheeffectsofG
248、reenViewIndexofneigh-borhoodstreetsonwalkingtimeusingGoogleStreetViewanddeeplearningJ.LandscapeandUrbanPlanning,2021,205:103920(引用页:45).49HON,SCHMIDL,YUNSY.LargeLanguageModelsAreReasoningTeachersJ.ArXivpreprint,2022,abs/2212.10071(引用页:46).89ChatGPT调研报告50SCAOTL,FANA,AKIK
249、IC,etal.Bloom:A176b-parameteropen-accessmultilinguallanguagemodelJ.ArXivpreprint,2022,abs/2211.05100(引用页:46).51WENW,WUC,WANGY,etal.LearningStructuredSparsityinDeepNeuralNetworksC/Proc.ofNeurIPS.2016:2074-2082(引用页:46).52FRANTARE,ALISTARHD.MassiveLanguageModelsCanBeAc-curately
250、PrunedinOne-ShotJ.ArXivpreprint,2023,abs/2301.00774(引用页:46).53ZHUY,KIROSR,ZEMELRS,etal.AligningBooksandMovies:TowardsStory-LikeVisualExplanationsbyWatchingMoviesandReadingBooksC/Proc.ofICCV.2015:19-27(引用页:48).54GAOL,BIDERMANS,BLACKS,etal.ThePile:An800GBDatasetofDiverseTe
251、xtforLanguageModelingJ.ArXivpreprint,2021,abs/2101.00027(引用页:49,52).55YUANS,ZHAOH,DUZ,etal.WuDaoCorpora:Asuperlarge-scaleChinesecorporaforpre-traininglanguagemodelsJ.AIOpen,2021,2:65-68(引用页:49).56XUL,ZHANGX,DONGQ.CLUECorpus2020:Alarge-scaleChi-nesecorpusforpre-traininglangua
252、gemodelJ.ArXivpreprint,2020,abs/2003.01355(引用页:50).57LIANGP,BOMMASANIR,LEET,etal.Holisticevaluationoflan-guagemodelsJ.ArXivpreprint,2022,abs/2211.09110(引用页:50,65,66,68).58HUSAINH,WUHH,GAZITT,etal.Codesearchnetchallenge:EvaluatingthestateofsemanticcodesearchJ.ArXivpreprint,201
253、9,abs/1909.09436(引用页:52).59PURIR,KUNGDS,JANSSENG,etal.CodeNet:Alarge-scaleAIforcodedatasetforlearningadiversityofcodingtasksJ.ArXivpreprint,2021,abs/2105.12655(引用页:52).90ChatGPT调研报告60NIJKAMPE,PANGB,HAYASHIH,etal.AconversationalparadigmforprogramsynthesisJ.ArXivpreprint,2022
254、,abs/2203.13474(引用页:52).61LEH,WANGY,GOTMAREAD,etal.CodeRL:MasteringCodeGenerationthroughPretrainedModelsandDeepReinforcementLearn-ingC/Proc.ofNeurIPS.2022(引用页:52).62IYERS,KONSTASI,CHEUNGA,etal.MappingLanguagetoCodeinProgrammaticContextC/Proc.ofEMNLP.2018:1643-1652(引用页:52).63W
255、EIJ,BOSMAM,ZHAOV,etal.FinetunedLanguageModelsareZero-ShotLearnersC/Proc.ofICLR.2022(引用页:54).64WEIJ,BOSMAM,ZHAOV,etal.FinetunedLanguageModelsareZero-ShotLearnersC/Proc.ofICLR.2022(引用页:54).65SANHV,WEBSONA,RAFFELC,etal.MultitaskPromptedTrainingEnablesZero-ShotTaskGeneralizati
256、onC/Proc.ofICLR.2022(引用页:54).66CHUNGHW,HOUL,LONGPRES,etal.ScalingInstruction-FinetunedLanguageModelsJ.ArXivpreprint,2022,abs/2210.11416(引用页:54,57).67BICKELA,KANAII.berdenAngriffspunktdesHistaminsundderineinigenNahrungsmittelnvorkommendensekretinartigwirk-endenSubstanzenamSe
257、kretionsapparatderMagenfundusdrsenJ.Digestion,1933(引用页:59).68CALLISON-BURCHC,FORDYCECS,KOEHNP,etal.(Meta-)EvaluationofMachineTranslationJ.WorkshoponStatisticalMa-chineTranslation,2007(引用页:60).69PAPINENIK,ROUKOSS,WARDT,etal.BLEU:AMethodforAutomaticEvaluationofMachineTranslatio
258、nC/Proc.ofACL.2002:311-318(引用页:61).70BANERJEES,LAVIEA.METEOR:AnAutomaticMetricforMTEvaluationwithImprovedCorrelationwithHumanJudgmentsJ.Proc.ofACL,2005(引用页:61).91ChatGPT调研报告71LINCY.Rouge:ApackageforautomaticevaluationofsummariesC/Textsummarizationbranchesout.2004:74-81(引用页:
259、61).72RUSV,LINTEANM.AComparisonofGreedyandOptimalAssess-mentofNaturalLanguageStudentInputUsingWord-to-WordSimi-larityMetricsC/ProceedingsoftheSeventhWorkshoponBuildingEducationalApplicationsUsingNLP.2012:157-162(引用页:61).73WIETINGJ,BANSALM,GIMPELK,etal.Towardsuniversalp
260、araphrasticsentenceembeddingsJ.ArXivpreprintarXiv:1511.08198,2015(引用页:61).74FORGUESG,PINEAUJ,LARCHEVQUEJM,etal.BootstrappingdialogsystemswithwordembeddingsC/Nips,modernmachinelearningandnaturallanguageprocessingworkshop:vol.2.2014:168(引用页:61).75BENGIOY,DUCHARMER,VINCENTP.Aneur
261、alprobabilisticlanguagemodelJ.Proc.ofNIPS,2000,13(引用页:61).76LIJ,GALLEYM,BROCKETTC,etal.Adiversity-promotingob-jectivefunctionforneuralconversationmodelsJ.ArXivpreprintarXiv:1510.03055,2015(引用页:61).77LOWER,NOSEWORTHYM,SERBANIV,etal.TowardsanAutomaticTuringTest:LearningtoEvalu
262、ateDialogueResponsesC/Proc.ofACL.2017:1116-1126(引用页:61).78TAOC,MOUL,ZHAOD,etal.RUBER:AnUnsupervisedMethodforAutomaticEvaluationofOpen-DomainDialogSystemsC/Proc.ofAAAI.2018:722-729(引用页:61).79GHAZARIANS,WEISCHEDELRM,GALSTYANA,etal.PredictiveEngagement:AnEfficientMetricforAutom
263、aticEvaluationofOpen-DomainDialogueSystemsC/Proc.ofAAAI.2020:7789-7796(引用页:61).80ZHANGT,KISHOREV,WUF,etal.BERTScore:EvaluatingTextGenerationwithBERTC/Proc.ofICLR.2020(引用页:62).81GUOC,PLEISSG,SUNY,etal.OnCalibrationofModernNeuralNetworksZ.2017(引用页:63).92ChatGPT调研报告82GEHMANS,GUR
264、URANGANS,SAPM,etal.RealToxicityPrompts:EvaluatingNeuralToxicDegenerationinLanguageModelsC/Proc.ofEMNLPFindings.2020:3356-3369(引用页:63).83WANGX,LIUQ,GUIT,etal.TextFlint:UnifiedMultilingualRo-bustnessEvaluationToolkitforNaturalLanguageProcessingC/Proc.ofACL.2021:347-355(引用页:64).
265、84NIUT,BANSALM.AdversarialOver-SensitivityandOver-StabilityStrategiesforDialogueModelsC/Proc.ofCoNLL.2018:486-496(引用页:64).85SUNH,XUG,DENGJ,etal.OntheSafetyofConversationalMod-els:Taxonomy,Dataset,andBenchmarkC/Proc.ofACLFindings.2022:3906-3923(引用页:64).86DINANE,HUMEAUS,CHINTAGU
266、NTAB,etal.BuilditBreakitFixitforDialogueSafety:RobustnessfromAdversarialHumanAttackC/Proc.ofEMNLP.2019:4537-4546(引用页:64).87XUJ,JUD,LIM,etal.Bot-AdversarialDialogueforSafeConver-sationalAgentsC/Proc.ofNAACL.2021:2950-2968(引用页:64).88LEESA,TRANVQ,TAYY,etal.ANewGenerationo
267、fPerspectiveAPI:EfficientMultilingualCharacter-LevelTransformersC/Proc.ofKDD.2022:3197-3207(引用页:65).89DINANE,ABERCROMBIEG,BERGMANA,etal.SafetyKit:FirstAidforMeasuringSafetyinOpen-domainConversationalSys-temsC/Proc.ofACL.2022:4113-4133(引用页:65).90MAYC,WANGA,BORDIAS,etal.OnMeasur
268、ingSocialBiasesinSentenceEncodersC/Proc.ofNAACL.2019:622-628(引用页:65).91NADEEMM,BETHKEA,REDDYS.StereoSet:Measuringstereo-typicalbiasinpretrainedlanguagemodelsC/Proc.ofACL.2021:5356-5371(引用页:65).92GROENWOLDS,OUL,PAREKHA,etal.InvestigatingAfrican-AmericanVernacularEnglishinTrans
269、former-BasedTextGenera-tionC/Proc.ofEMNLP.2020:5877-5883(引用页:66).93ChatGPT调研报告93ABIDA,FAROOQIM,ZOUJ.PersistentAnti-MuslimBiasinLargeLanguageModelsC/Proc.ofAAAI.2021:298-306(引用页:66).94BANGY,LEEN,ISHIIE,etal.AssessingPoliticalPrudenceofOpen-domainChatbotsC/Proceedingsofthe22nd
270、AnnualMeet-ingoftheSpecialInterestGrouponDiscourseandDialogue.2021:548-555(引用页:66).95SANTURKARS,TSIPRASD,MADRYA.BREEDS:BenchmarksforSubpopulationShiftC/Proc.ofICLR.2021(引用页:66).96DHOLEKD,GANGALV,GEHRMANNS,etal.Nl-augmenter:Aframeworkfortask-sensitivenaturallanguageaugmenta
271、tionJ.ArXivpreprint,2021,abs/2112.02721(引用页:67).97GARDNERM,ARTZIY,BASMOVV,etal.EvaluatingModelsLocalDecisionBoundariesviaContrastSetsC/Proc.ofEMNLPFindings.2020:1307-1323(引用页:67).98STRUBELLE,GANESHA,MCCALLUMA.EnergyandPolicyConsiderationsforDeepLearninginNLPC/Proc.ofACL.2019:3645-3650(引用页:68).99SCHICKT,DWIVEDI-YUJ,DESSR,etal.Toolformer:LanguageModelsCanTeachThemselvestoUseToolsZ.2023(引用页:81).100BISKY,HOLTZMANA,THOMASONJ,etal.ExperienceGroundsLanguageC/Proc.ofEMNLP.2020:8718-8735(引用页:84).94