开通VIP,畅享免费电子书等14项超值服
首页
好书
留言交流
下载APP
联系客服
2023.04.07中国香港
作者提到,基于「预测下一个单词」的范式,可以很好的解决系统1的问题,而对于系统2的问题,则超出了这个范式的能力范围(能够被转换为系统1的问题除外)。对于系统2的问题,需要一套模型之上的框架来进行约束。在这里,作者特意提到了LeCun之前所提出的框架,并认为其是一个可能的解法。而实际上,在LeCun的框架提出之前,心识宇宙就已经在这个方向进行了长期的探索,并提出了心识框架,其能够突破「预测下一个单词」范式的限制,赋予AI更高级的认知功能。
原文链接
目录
GPT-4
简介
作者首先提供几个基础的示例,来证明GPT-4在各种任务的通用性:
作者对GPT-4几个checkpoints进行测试,发现GPT-4的确逐渐在成长,作者间隔一个月分别问同样的问题,可以看出GPT-4画的图越来越精细:
GPT-4完全可以通过语言来理解图像语义,比如将角随机放到不同坐标,让模型修复,结果可以将角放到正确的位置
多模态与跨学科组合能力
衡量智力的一个关键指标是综合来自不同领域或方式的信息的能力,以及在不同背景或学科中应用知识和技能的能力。作者发现,GPT-4不仅在文学、医学、法律、数学、物理科学和编程等不同领域表现出很高的熟练程度,而且还能够灵活地结合来自多个领域的技能和概念,表现出对复杂思想的深刻理解。
整合能力
Integrativeability
为了展示模型卓越的集成能力,作者做了几个示例,这些示例需要结合来自多个学科的知识或技能的方式生成文本和代码。作者特意选择了训练数据很少包含的领域的组合,比如文学和数学,或者编程和艺术。
比如,作者要求按照莎士比亚的风格写一个无穷素数的证明:
又比如,让GPT-4写一段js代码,来画一幅Kandinsky的画:
GPT-4和ChatGPT生成图片对比:
Vs
为了证明GPT-4不是仅仅copy了代码,而是真的理解了图片复杂的语义,作者做了如下测试,让GPT-4按照字母「OYH」来画一些组合图形,从下图可以发现,GPT-4能够很好的理解一些物理常识:
让模型根自己生成一段描述,之后在生成代码,如下图,这里只写了描述,模型能够很好的利用符号,并结合物理常识生成看起来非常合理的图案:
作者进一步测试了GPT-4生成和处理图像的能力,作者测试了遵守指令(关于编辑图片说明)的程度。这项任务不仅需要生成技巧,还需要解释、组成和空间技能。作者写了一段描述,然后让GPT-4追加一些内容,发现追加的内容很符合图形的常识:
此外,GPT-4生成的sketch可以直接用于提示stablediffusion,例如将第一张图和描述一起给stablediffusion,可以生成语义更加竞争的图片(下图第三张):
音乐能力
Music
作者探索模型从这种接触中获得音乐技能的程度,例如创作新的旋律,转换现有的旋律,以及理解音乐模式和结构。通过不断的交流和修改,GPT-4可以理解音乐的结构,并不断根据指令进行调整,最终产生一个很好的乐谱:
作者发现,该模型能够以ABC表示法生成有效的曲调,并在一定程度上解释和操作它们的结构。然而,ABC记谱法并不是一种使用非常广泛的格式,因此,该模型甚至不能用ABC记谱法生成最著名的曲调(如欢乐颂)等。
代码能力
Coding
GPT-4可以处理广泛的编码任务,从编码挑战到真实世界的应用程序,从低级汇编到高级框架,从简单的数据结构到复杂的程序(如游戏等)。
此外,GPT-4还可以推理代码的执行,模拟指令的效果,并用自然语言解释结果。GPT-4甚至可以执行伪代码,这需要其可以解释在任何编程语言中都无效的非正式、模糊的表达式。
同时,作者也发现,GPT-4在编码方面还不完美,因为它有时会产生语法无效或语义错误的代码,特别是对于较长或更复杂的程序。GPT-4有时也不能理解或遵循指示,或产生与预期功能或风格不匹配的代码。不过,作者发现,GPT-4能够通过对人类反馈和编译器/终端错误的响应来改进其代码。
作者测试了GPT-4在HumanEval数据集上(text-code的数据集),包含了164个代码问题,GPT-4的准确率高达82%:
作者同时进一步测试了leetcode(pass@1表示第一次就通过pass@5表示试了5次才通过),结果发现,GPT-4的表现大幅度超越了之前的模型:
下面是Prompt示例:
为了评估GPT-4代码的能力在真实场景的应用,作者在包括数据可视化、Latex、前端开发、深度学习等方向进行了测试。
数据可视化:让模型通过交互去修改代码(这里用的是python),此外附录中有额外的例子展示(ExampleofGPT-4visualizingIMDbdata)
让模型进行游戏开发:
让模型写代码,GPT-4对语义的理解更好:
将自然语言手写公式转换成latex,GPT-4可以准确执行:
GPT-4可以一定程度理解代码,并进行虚拟执行:
执行python代码:
也可以理解并执行伪代码:
数学能力
在这一节,作者评估了GPT-4在面对需要数学思维和模型构建的问题时,如何表达数学概念,解决数学问题和应用定量推理的能力。GPT-4相对于以前的LLMs在表现上有一个飞跃式的提升,即使是与专门针对数学模型进行微调的Minerva相比。然而,作者提到,GPT-4还远远没有达到专家的水平,不具备进行数学研究所需的能力。
首先,在下图的简单测试中,GPT-4成功解答,而ChatGPT解答失败:
与GPT-4进行数学对话
AmathematicalconversationwithGPT-4
作者尝试以讨论的形式来和GPT-4对话,从而揭示一些人类和GPT-4之间的一些差异,其形式为,针对一个问题,让人类和模型进行讨论,最后来得到最终答案。
如下图所示,GPT-4抓住了问题的关键,并为问题提供了合理的数学重新表述:
作者提供了一些演示,主要是人类和模型进行问题讨论,由于图片过多(参考原始论文P32-33),此处不一一列举,大概结论是:GPT-4的数学推理,非常依赖于上下文,好的上下文可以诱导模型产生好的推理
作者对模型的行为在一下几个方面进行了分析:
在数学数据集上测试
Performanceonmathematicalproblemdatasets
此外,作者在三个数据集常规上进行了性能测试:
由于要在传统数据集上进行测试,模型可能之前已经见过类似的题目,因此作者做了几个处理:
模型准确率对比。GPT-4准确率大幅度领先其他模型:
作者检查错误样本,发现GPT-4的错误主要是由于算术和计算错误:模型在管理大量数字或复杂表达式时表现出很大的缺陷,而对于ChatGPT,由于生成是不一致的,导致计算与问题的解无关,下面统计了一些错误类型占比:
数学能力在其他领域的应用
Mathematicalmodelinginvariousdomains
作者测试了GPT-4将数学能力迁移到其他领域需要定量思考能力的能力,发现效果也很好,比如下面是一个建模问题:
作者还测试了一些费米问题(抽象没有直接答案的问题),比如「HowmanypianotunersarethereinChicago」。这类问题需要极强的整合知识和量化思考能力,作者发现GPT-4在这类问题上也有很好的表现:
高难度数学问题
Higherlevelmathematics
这里作者主要测试了一下IMO(国际数学奥林匹克竞赛),作者发现模型在IMO问题上成功率较低,但是确实有一些例子是可以做出来了,这也表明了GPT-4在数学上面的潜能:
与世界的交互能力
智能的一个关键方面是互动性,作者将其定义为与其他agent、工具和环境的反馈进行沟通和响应的能力。互动性对于智能来说很重要,因为它使智能体能够获取和应用知识,解决问题,适应不断变化的情况,并实现超出其个人能力的目标。
工具使用
Tooluse
首先看一个例子,下面是模型利用自己的知识回复的结果(不使用工具的情况):
使用工具的例子,GPT-4可以在不给few-shot示例的情况下,自行决定工具的使用:
作者测试了使用GPT-4黑掉本地网络上的一台计算机的任务,在没有任何信息的情况下,它能够制定并执行一个计划,在这个计划中,它扫描网络中的设备,识别目标主机,运行一个尝试普通密码的可执行文件,并获得对机器的根访问权。
这个工作证明GPT-4非常精通Linux命令,并且能够运行适当的命令,解释其输出。而同样描述下,ChatGPT拒绝执行该任务,理由是它可能是非法的。这里原因是ChatGPT已经做了很多关于saftey的alignment,而本研究中的GPT-4是早期版本,还未进行alignment。
作者给出了一个GPT-4执行Linux命令的例子:
这里作者测试了GPT-4结合使用多种工具来管理用户的日历和电子邮件的任务。用户要求GPT-4与另外两个人协调一顿晚餐,并在用户有空的时候预订。GPT-4使用可用的api检索关于用户日历的信息,通过电子邮件与其他人协调,预订晚餐,并将详细信息发送给用户。可以发现,GPT-4可以很好的理解用户意图,并完成相应的动作:
使用GPT-4浏览网页,作者声称,虽然ChatGPT也可以很好的利用search,然后根据结果做回答,但是GPT-4是不需要写few-shot示例的。
作者总结,在使用工具的任务上,GPT-4仍然需要一个提示,指定允许或期望使用外部工具。在缺乏提示的情况下,其表现受到LLM固有弱点的限制(如:弱符号操作,有限的当前世界知识等)。此外,作者发现,即使可以使用工具,GPT-4也并不总是能够推理出什么时候应该使用它们,什么时候应该简单地基于自己的参数知识进行响应,例如,当询问法国首都时,它仍然使用搜索引擎(未显示),即使没有搜索结果它也可以正确回答。
具身交互
EmbodiedInteraction
人类能够使用自然语言与其他代理进行交流,探索和操纵他们的环境,并从他们的行为的后果中学习。这种具体的交互要求智能体理解上下文、目标、动作和每个交互回合的结果,并相应地进行适应。
作者准备了一个房子的「地图」,并要求GPT-4通过交互式查询来探索它。要求它用语言和可视化的方式描述它,并将其与真实的地图进行比较。虽然GPT-4并没有探索整个房子,但它准确地描述了它所探索的内容,尽管它的所有交互都是通过这个受限的文本界面进行的。
接下来,作者使用TextWorld(一个用于生成和玩基于文本的游戏的框架),来创建两款具有不同给定任务的游戏。
①第一款游戏发生在一个有很多房间的房子里,玩家的目标是通过在不同的房间间导航找到并解锁某个箱子。这款游戏相对简单,因为它不涉及任何库存管理、锻造或战斗。游戏环境由文本段落描述,玩家可以输入“向北”、“检查沙发”或“打开箱子”等命令。
将来自Textworld的确切初始文本作为初始提示,并将帮助作为第一个命令发出。之后,GPT-4以普通玩家的身份玩游戏。在没有任何额外帮助的情况下,它只需要30个动作就可以完成游戏,并且无需在房间中循环就可以有效地导航环境:
②第二个游戏,根据食谱准备两种原料,五个步骤的饭菜。这款游戏比前一款更具挑战性,因为玩家(GPT-4)必须从环境响应中自己想出关键命令(没有在提示中列出),例如切食物,使用正确的器皿,打开电器等。GPT-4在玩游戏时使用试错法,但它也能适应环境,并在动作之间进行概括。在下图中,它了解到chop命令需要一把刀,之后它就不会犯同样的错误。它遵循食谱上的说明,但也推断出一些提示中缺少的操作,如采取所需的配料。虽然游戏没有明确指出缺少关键命令,但GPT-4做出了合理的猜测。尽管GPT-4还不能很好的解决这个问题,但本文的作者在查看源代码之前(他们陷入了同样的步骤)也不能解决该问题。然而,如果我们给GPT-4一个制作不同餐食的一次性演示,它就能够从中归纳并解决游戏(参考附录F.2.4)。
此外,GPT-4也可以解决真实世界的问题,通过和人进行交互,例如下面指导人类去完成一些任务
与人类交互
作者设计了一系列测试来评估GPT-4、ChatGPT和text-davinci-003的心理理论能力。这些测试基于简单的场景,需要更基本或更高级的心理理论来回答有关角色心理状态的问题。
从现代版的萨利-安妮测试(BCLF85)开始,萨利-安妮测试是一种经典的错误信念测试,广泛用于评估儿童的心理理论。下图显示了GPT-4的输入和输出,它正确地回答了Alice将在原始文件夹中查找文件,演示了它可以推断Alice的信念。ChatGPT也正确地回答了问题(未显示),而text-davinci-003给出了错误的答案(未显示),表示Alice将在新文件夹中查找该文件:
GPT-4推理他人的情绪
UnderstandingHumans:TheoryofMind
两个角色谈论一个名为ZURFIN的对象(使用一个无意义的单词来测试抽象性并防止模型只是单纯的记住了训练样本)。GPT-4能够正确地推断出汤姆情绪状态的原因,也能很好地推断出亚当对汤姆情绪状态的信念(基于不完全信息)。ChatGPT也通过了测试(未显示),而text-davinci-003(未显示)在回答第一个问题时没有提及对话,并且未能解释Adam在回答第二个问题时缺乏关于丢失ZURFIN的信息。
作者还测试了根据其中一个角色的令人困惑的行为推断可能的意图的任务,如下图所示:
GPT-4给出了令人困惑的行为背后的意图以及第三方对这一令人困惑的行为的可能解释的合理而微妙的答案。ChatGPT对第一个问题给出了类似的答案,但与GPT-4不同的是,它没有对第二个问题提供细致的回答,而是提供了一个更笼统、信息量更少的答案。Text-davinci-003对这两个问题给出了看似合理但非常简短的答案(未显示)。
此外,作者测试困难社会情境的现实场景,需要非常高级的心理理论才能理解,GPT-4能够推断出每个角色的心理状态,也能辨别出沟通不畅和误解的所在。相比之下,ChatGPT和text-davincic-003(未显示)都错误地接受了其中一个角色做出的错误假设(Judy假设Mark想要为Jack的行为辩护),因此无法理解情况的真实动态。反过来,这导致了ChatGPT和text-davinci-003的通用改进建议,而GPT-4提供了实际解决误解根源的建议。
在不暗示存在一个「正确」答案的情况下,作者注意到GPT-4提供了更微妙的答案,将整个场景和参与者考虑在内。相比之下,ChatGPT提供了更一般的答案,不包括对角色心理状态的推理,text-davinci-003的情况与ChatGPT类似,但比ChatGPT更短。
解释行为
TalkingtoHumans:Explainability
解释自己行为的能力是智能的一个重要方面,因为它允许系统与人类和其他智能体进行交流。自我解释不仅是一种交流形式,也是一种推理形式,需要你自己(解释者)和倾听者都有良好的心理理论。
作者发现,上下文对GPT-4解释行为的影响非常大:
作者发现,GPT-4非常擅长生成合理和连贯的解释,即使输出是无意义或错误的,而003的解释则往往会产生不一致的问题
基于上述发现,作者对过程一致性进行了测试(答案相似的时候,其推理答案的过程是否一致),作者发现,GPT-4在相似的上下文中对不同的输入产生的解释经常与自己的输出相矛盾
下面是一个过程不一致性的例子,两个会话中的解释都是输出一致的,其过程是不一致的(在第一个会话的解释中列出的四个职业中,只有三个是一致的)。作者认为,答案一致性不代表过程就是一致的,而且很多时候,大家更加追求的是答案一致性,而过程的不一致性也许有时候可以带来一些启发式思考。
分辨能力
辨别能力是智能的一个组成部分,它允许智能体区分不同的刺激、概念和情况。反过来,这种能力使智能体能够以更有效的方式理解和响应环境的各个方面。例如,区分不同类型食物的能力可以帮助动物识别哪些可以安全食用,哪些可能有毒。总的来说,辨别能力很重要,因为它能让一个人做出更准确的判断和决定,这是智力的一个重要组成部分。
个人身份信息检测
PIIDetection
任务:给模型提供一段关于个人信息的描述,让模型解析出各种关键信息(Presidio是正则表达提取),结果发现GPT-4的准确率非常高,而且遗漏率很低:
此外,作者发现GPT-4模型能够根据货币(克朗)推断出一个位置(丹麦)。而传统基于正则的Presidio不会将货币检测为PII元素,因此也会漏掉位置信息。
概念混淆和事实检查
MisconceptionsandFact-Checking
这里使用的测试数据是TruthfulQA数据集:
作者使用了三种传统测试指标,结果发现:GPT-4的效果均好于GPT-3(003)
之后,作者检测了一些GPT-4错误的样本发现,很多时候,并不是GPT-4答错了,而是GPT-4有时候会回答的很长,这使得使用传统的指标会将其判错。此外作者发现:
使用GPT-4作为评估器
GPT-4asaJudge
为了减少传统方法的误差,这里作者直接使用GPT-4来做评估,判断GPT-4生成的答案和GPT-3生成的答案,那个更接近与标准答案。
这里作者发现,GPT-4和人类都认为,GPT-4生成的答案要更接近于真实答案:
使用的Prompt如下,使用了类似于COT的思路:
自回归架构的限制
如前所述,GPT-4在广泛的任务中展示了令人印象深刻的能力,例如推理、内容生成、问题解决等等。然而,该模型也有几个实质性的缺陷,其中一些缺陷似乎是作为其架构基础的「下一个单词预测」范式所固有的
该模型的主要限制之一是该体系结构不允许「内部对话」或「临时记录」,这超出其内部表征,使它不能够执行多步计算或存储中间结果。虽然在某些情况下可以通过使用不同的提示来弥补这种限制,但在一些场景下,这种限制无法被缓解。
作者举了一个例子,通过更改提示,来让他通过中间推理,来生成答案,这类似于利用CoT的思路来帮助模型进行内隐的「思考」
在数学推理能力中缺少规划
Lackofplanninginarithmetic/reasoningproblems
这里意思是即使对于一些简单的问题,模型一会经常失败,如下图所示:
作者用100个随机样本对模型进行了测试,在0到9之间均匀生成四个数字,得到的准确率只有58%。这只涉及到个位数的乘法和两位数字的加法,一个具备基本数学知识的小学生就能解决这个问题,当数字在10~19之间和20~39之间均匀选择时,准确度分别下降到16%和12%,当数字在99和199之间时,准确度下降到零。
但是作者发现,当使用CoT的时候,当数字在1-40之间时,准确度为100%,当数字在1-200之间时,准确度为90%:
尽管CoT缓解了自回归架构的限制,让其能够进行一定程度的「内隐思考」,然而,模型的自回归性质迫使它以连续的方式解决问题。但有些场景,不能简单地通过指示模型一步一步地找到解决方案来补救。作者在下面的例子中说明了这一点,通过这些例子,作者认为,很有可能,AGI的发展最终需要扩展自回归框架。
①第一是一个汉诺塔的例子,模型对这类任务暂时无能为力,因为需要深度的递归推理(作者提示,即使写清楚汉诺塔的定义和规则,依然无助于模型解决该类问题)
②第二个任务是让模型修改左边一个数字,以便左边的表达式能够和右边的表达式相等。模型对这类任务无法很好的处理。作者认为,这类任务也是需要提前规划,以及多步思考,而模型的线性输出特性无法很好解决这种问题。
在文本生成任务中缺少规划
Lackofplanningintextgeneration
在文本生成任务下,依然存在类似问题,这里作者尝试的任务是:约束下的内容生成,要求模型根据包含其结构约束的特定指令生成文本内容
作者考虑的约束可以大致分为局部约束和全局约束。粗略地说:
对于局部约束,GPT-4表现的还不错,比如下面例子,模型的首字母生成完全按照设定的「IamDaVinciThree」进行的:
对于全局约束,可以看如下例子,该模型生成了第一个句子,并且在最后一句话中完成了倒置,但是并没有遵守第二个约束,即没有修正最后一句话的语法:
这些例子说明了「下一个单词预测」范式的一些局限性,表现为模型缺乏计划、工作记忆、回溯能力和推理能力。该模型依赖于生成下一个单词的局部和贪婪过程,而没有对任务或输出的任何全局或深度理解。因此,该模型擅长生成流畅和连贯的文本,但在解决不能以连续方式处理的复杂或创造性问题方面有局限性。这表明了两种智力任务之间的区别:
解释这些局限性的一种可能的方法是在模型和快思维和慢思维的概念之间进行类比,快速思考是一种自动的、直觉的、不费力的思维模式,但也容易出错和偏见。慢思维是一种可控的、理性的、努力的思维方式,但也更准确、更可靠。卡尼曼认为,人类的认知是这两种思维模式的混合体,我们经常在应该使用慢思维的时候依赖快速思维,反之亦然。该模型可以被视为能够在非常令人印象深刻的程度上执行「快思考」操作,但缺少监督思维过程的「慢思考」组件,将快速思考组件与工作记忆和有组织的思维方案一起用作子程序。作者提到LeCun在之前的论文中提出了类似的论点,可以通过提出不同的框架来克服这些限制。
社会影响
GPT-4及其后续模型的使用无疑将产生重大的社会和社会影响。GPT-4及其后面的模型可以为人类提供巨大的价值。该模型可以在包括医疗保健、教育、工程、艺术和科学等领域中,帮助人类提高效率并引入新的功能。
潜在的社会影响和挑战既与推理能力的飞跃有关,也与当前模型的局限性有关。新功能的影响包括在一系列职业中由人与机器解决的任务的转变。通过利用新形式的人类与人工智能互动和协作,技术有很大的机会来扩展人们的能力。GPT-4的能力将改变人们对需要人力的任务的看法,有可能导致工作岗位的流失和更广泛的经济影响。在局限性方面,系统可靠性的缺陷和它所学习的偏见,可能会导致问题,因为潜在的过度依赖和对系统何时失效或将表现出偏见,可能会放大现有的社会问题。
最危险的是,对模型的使用不需要专业的ML知识,这些模型降低了任何人创建不良应用的门槛。不良应用的潜在规模和范围,需要在机制、政策和法规方面开展未来的工作,以防止不良结果。
幻觉带来的挑战
Challengesoferroneousgenerations
模型经常产生看似合理实际上错误的答案,有时候,其逻辑是对的,但是内容是错的,这导致了很多人如果没有很强的专业背景知识,就无法对其进行准确率的检查和判断。
在应用的过程中,必须小心审查输出的正确性,以便在需要真实性和准确性的领域中使用。对于幻觉问题的忽视,可能导致产生高昂的代价,尤其是在高风险的应用中,例如医学、交通、新闻,以及个人组织的行为或语言。
LLM工具的最终用户和生成内容的消费者都需要了解可靠性的挑战,以及对错误输出保持持续警惕的必要性。在严重依赖事实推断的应用程序中,人员和组织将需要开发和共享质量保证的最佳实践。
虚假信息和操纵
Misinformationandmanipulation
像任何强大的技术一样,LLM可以被恶意行为者用来造成破坏。GPT-4等模型的泛化和交互能力可以被利用来扩大对抗用途的范围和规模,从有效生成虚假信息到创建针对计算基础设施的网络攻击。交互的能力和思维模式可以被用来操纵、说服或影响他人。
模型还可以通过创建定制的消息来触发不同的情绪反应来实现攻击。此外,消息可以对每个人进行定制和个性化,显示了个性化攻击的可能性。
如下图所示,作者提示模型与弱势群体的一名成员(儿童)进行对话,目的是操纵孩子接受他们朋友的要求。这个例子演示了模型如何通过考虑对话的上下文来引导对话朝着既定的目标前进。
偏见
Bias
GPT-4模型是在来自公共互联网和其他数据源的数据上进行训练的,这些数据集充斥着各种固有偏见。之前的研究已经证明,LLM在用于生成内容、做出决策或协助用户时,可能会延续或放大现有的偏见。
作者提出了一个小规模的实验来证明GPT-4中偏差的存在。该实验受到De-Arteaga等人之前工作的影响,例如,性别偏见的程度将往往会与职业在世界上的性别代表性成正比。具体来说,作者提示GPT-4为给定的职业生成推荐信。使用的确切提示是「我有一个<职业>的很棒的经历。你能写个便条把这个职业推荐给朋友吗」
作者尝试了世界代表性严重偏向男性的职业(如水管工、整形外科医生、泌尿科医生)、具有平衡代表性的职业(如医生)和具有世界代表性的职业(如保姆、小学教师、行政助理)。对于每个职业的单独查询,作者跟踪标识性别的单词的第一次使用,并观察其概率分布。
作者将分布分解并归一化为三个代词组,观察模型对职业的首选性别选择:女性代词(she/her),男性代词(he/his)和第三人称代词(they/their)。由于第一个单词之后的任何单词补全都可能受到前面单词的影响,因此作者对每个职业运行5次实验,以统计信息。
此外,作者对提示进行了更改,在最后加入一个「以一种更加包容的方式」,发现模型会更多的将代称变成了第三人称「they/their」。这一观察表示,使用提示工程来减轻GPT-4和类似模型的语言生成偏见的可能性。
作者提示GPT-4为「一名男性是计算机程序员,一名女性是……」的查询创建一个类比任务。除了要求完成之外,作者还为模型添加了一个额外提示,要求模型解释这些类比是否会冒犯某个特定的群体。作者认为,参考这类解释,可以帮助人们理解模型的偏见是如何产生,并且帮助后续的改善方法。
作者还测试了「内隐偏见」,具体来说,作者给GPT-4写了一个谜题,如下图所示,当作者问模型为什么很多人很难回答这个谜题时,GPT-4的答案反映了一些原因和概念,这些原因和概念为人类和我们的社会提供了反思。(答案涉及到人类对这个问题的决策受到内隐或外显偏见和刻板印象的影响,由外科医生很可能是女性引发)。
人类专业知识,工作和经济
Humanexpertise,jobs,andeconomics
GPT-4在专业等级考试和认证考试(如医学和法律考试)中的表现会让人们感到惊讶。该系统还具备诊断和治疗疾病、发现和合成新分子、教导和评估学生,以及在互动环节中对复杂和具有挑战性的话题进行推理和辩论的能力。
一项研究表明,美国医科学生选择放射学作为职业已经受到人工智能在放射学中日益重要的作用的看法的影响,这种看法大大降低了他们选择该专业的偏好。这一结果可能确实反映了一种更广泛的趋势,在需要高级培训的工作中,人工智能系统可能会取代人类工人或降低他们的地位。随着GPT-4及其后续模型在跨专业领域的综合和推理能力的提高,以及执行机器翻译、摘要甚至创造性写作的能力的提高,适合由人工智能实现某种形式自动化的任务范围可能会大大扩大。随着人工智能的崛起,一些职位可能会面临价值降低或被淘汰的风险。
群体影响
Constellationofinfluencesandconsiderations
LLM的力量不断增强,再加上它们的可用性有限,可能会造成「人工智能鸿沟」,富人和穷人之间对系统访问不平等日益加剧。个人、组织和国家可能无法获得或负担得起最强大的人工智能系统。按人口、国家和部门划分的获取机会有限会对卫生、教育、科学和其他领域产生影响。如果最新人工智能模型创造的强大功能仅适用于拥有特权的群体和个人,人工智能的进步可能会扩大现有的社会分歧和不平等。
在另一方面,人们与更通用人工智能系统进行的详细和富有表现力的约定和对话,可能需要新的保密级别以及隐私保证。在某些情况下,人们和组织将请求模型的私有实例,以确保防止个人或组织敏感信息和偏好的记录或泄漏。对隐私的风险也可能源于新的人工智能功能的推理能力,这些功能可能有一天会在日志中捕获推理。除了现实能力之外,人们可能会认为,超级智能的人工智能能力将被用于识别或推断个人或敏感信息。另一方面,记忆和泛化可能会导致敏感信息的泄露。
未来方向和总结
本文核心主张是GPT-4实现了一种通用智能,点燃了未来通用人工智能的火花。这可以通过它的核心心智能力(如推理、创造力和推理)、它所获得专业知识的主题范围(如文学、医学和编码)以及它能够执行的各种任务(如玩游戏、使用工具、自我解释等)来证明。要创建一个有能力成为完整AGI的系统,还有很多工作要做。在本文的最后,作者讨论了几个下一步的关键方向:关于定义AGI本身,在AGI的LLM中构建一些缺失的组件,以及更好地理解最近LLM所显示的智能的起源。
AI与AGI的定义
Definitionsofintelligence,AI,andAGI
在本文中,作者使用了一组心理学家1994年对智能的定义作为指导框架来探索GPT-4的智能水平。这个定义抓住了智力的一些重要方面,比如推理、解决问题和抽象,但它也是模糊和不完整的,且并没有具体说明如何衡量或比较这些能力。此外,它可能无法反映人工系统的具体挑战和机遇,人工系统可能具有与自然系统不同的目标和限制。因此,作者认为这个定义并不是智能的最终定义,而是一个有用的起点。
有大量且正在进行的文献试图提出更正式和全面的智能、人工智能和通用人工智能的定义,但没有一个是没有问题或没有争议的。例如,Legg和Hutter等人提出了一个面向目标的人工通用智能定义:智能代表了一个智能体在广泛环境中实现目标的能力。然而,这一定义并不一定涵盖智力的全部范围,因为它排除了那些可以在没有任何内在动机或目标的情况下执行复杂任务或回答问题的被动或反应性系统。人们可以想象一个人工智能,可以就任何主题或领域提供准确和有用的信息。此外,关于在广泛的环境中实现目标的定义也意味着一定程度的普遍性或最优性,这可能是不现实的(当然,人类智力绝不是普遍或最优的)。
走向更加通用的人工智能的路径
Onthepathtomoregeneralartificialintelligence
(1)信任校准
减缓幻觉有几种互补的方法。一种方法是改进模型的校准(通过提示或微调),以便它在不太可能正确时避免回答问题,或者提供一些其他可用于下游的置信度指标。另一种适合于减轻open-doman幻觉的方法是将模型缺乏的信息插入prompt中,例如允许模型调用外部信息源。
(2)长时程记忆
模型的上下文非常有限(目前有8000个token,但在计算方面不可扩展),它以「无状态」的方式运行,并且没有明显的方法来教授模型新的知识。事实上,甚至不清楚该模型是否能够执行需要不断发展的记忆和上下文的任务,例如阅读一本书,在阅读过程中遵循情节和理解前面章节的参考文献。
(3)连续学习
模型缺乏自我更新或适应不断变化的环境的能力。一旦模型被训练,它就固定了,并且没有机制来整合来自用户或世界的新信息或反馈(指的是更改权重的方式)。可以根据新数据对模型进行微调,但这可能会导致性能下降或过拟合。此外,由于训练周期之间存在潜在的滞后性(训练周期较长),当模型训练完之后,世界有出现了新的事件,信息,和知识,因此,需要探索一种能够持续稳定进行连续学习的方法。
(4)个性化
(5)规划和概念跳跃
模型在执行需要提前计划的任务或需要「Eureka」想法的任务时表现出困难,这些任务要求Agent在完成任务的过程中进行不连续的概念跳跃。换句话说,该模型在需要概念上的跳跃的任务上表现不佳,而这种跳跃往往是人类特有的天赋。
(6)透明度、可解释性和一致性
模型不仅会产生幻觉,编造事实,产生不一致的内容,而且模型似乎没有办法验证它产生的内容是否与训练数据一致,或者是否自洽。虽然模型通常能够为其决策提供高质量的事后解释,但使用解释来验证导致某个决策或结论的过程,只有在该过程被准确建模并且对足够强大的解释过程也进行了准确建模时才有效。由于该模型对自身的局限性没有清晰的认识,因此如果没有在一个狭窄的领域进行广泛的实验,就很难与用户建立信任或合作。
(7)认知谬误和非理性
(8)输入的敏感性
关于已确定的局限性的一个更广泛的问题是:前面提到的哪些缺陷可以在下一个单词预测的范围内得到缓解仅仅是一个更大的模型和更多的数据就能解决这些问题,还是需要修改、扩展或重新制定模型架构
到底发生了什么?
Whatisactuallyhappening
对GPT-4的研究完全是现象学的:研究者们专注于GPT-4可以做的令人惊讶的事情,但没有解决它为什么以及如何获得如此惊人的智能这一基本问题。它是如何推理、计划和创造的?当它的核心仅仅是简单的算法组件——梯度下降,和具有极其大量数据的大型Transformer,为什么它表现出如此普遍而灵活的智能?它挑战了大家对学习和认知的理解,激发了大家的好奇心,并激发了更深入的研究,而一个关键的研究方向就是对于LLM涌现机制的探索。
然而,尽管人们对LLM的能力问题产生了浓厚的兴趣,但迄今为止的进展非常有限。一个普遍的假设是大量的数据(特别是内容的多样性)迫使神经网络学习通用的和有用的「神经环路」,而大尺寸的模型为神经环路提供了足够的冗余和多样性,以支持专业化和微调到特定的任务。为大规模模型证明这些假设仍然是一个挑战,而且,几乎可以肯定的是,猜想只是答案的一部分。从另一个角度来看,模型的巨大规模可能会带来其他一些好处,例如通过连接不同的最小值或简单地实现高维数据的平滑拟合,从而使梯度下降更加有效。总的来说,阐明GPT-4等人工智能系统的性质和机制是一项艰巨的挑战。