语言游戏让AI自我进化,谷歌DeepMind推出苏格拉底式学习

新的方法被命名为「苏格拉底式学习」(SocraticLearning),能够使AI系统自主递归增强,超越初始训练数据的限制。

研究人员表示,只要满足三个条件,在封闭系统中训练的智能体可以掌握任何所需的能力:

a)收到足够信息量和一致的反馈;

b)经验/数据覆盖范围足够广泛;

c)有足够的能力和资源。

本文考虑了假设c)不是瓶颈的情况下,在封闭系统中a)和b)会产生哪些限制。

苏格拉底式学习的核心是语言游戏(即结构化的交互),智能体在其中交流、解决问题并以分数的形式接收反馈。

整个过程中,AI在封闭的系统中自己玩游戏、生成数据、然后改进自身的能力,无需人工输入。

如果游戏玩腻了,AI还可以自己创建新游戏,解锁更多抽象技能。

迈向真正自主的AI

由于系统是封闭的,观察者的评估无法反馈到系统中。因此,智能体的学习反馈必须来自系统内部,例如损失、奖励函数、偏好数据或批评者。

考虑蓝色虚线的路径,让智能体输出影响未来的智能体输入,并且性能得到提高(自我改进过程),如果输入和输出空间兼容,则这种自我提升是递归的。

自我提升过程的一个典型例子是自我博弈,系统让智能体作为游戏的双方,从生成一个无限的体验流,并带有获胜反馈,来指导学习的方向。

反馈是其中的关键一环,AI的真正意义是相对于外部观察者的,但在封闭的系统中,反馈只能来自内部的智能体。

这对于系统来说是一个挑战:让反馈与观察者保持一致,并在整个过程中保持一致。

RL的自我纠正能力在这里并不适用,可以自我纠正的是给定反馈的行为,而不是反馈本身。

与输出仅影响输入分布的一般情况相比,递归的自我提升更具限制性,但中介作用更少,最常见的是将智能体输出映射到输入的环境实例化。

这种类型的递归是许多开放式流程的一个属性,而开放式改进正是ASI的一个核心特征。

输入和输出空间兼容的一个例子是语言。人类的广泛行为都是由语言介导的,特别是在认知领域。

综上,本文选择研究智能体在语言空间中递归自我提升的过程。苏格拉底式学习,模仿了苏格拉底通过提问、对话和重复的语言互动,来寻找或提炼知识的方法。

苏格拉底并没有去外界收集现实世界中的观察结果,这也符合本文强调的封闭系统。

在自我提升的三个必要条件中,覆盖率和反馈原则上适用于苏格拉底式学习,并且是不可简化的。

从长远角度来看,如果计算和内存保持指数级增长,那么规模限制只是一个暂时的障碍。另一方面,即使是资源受限的场景,苏格拉底式学习可能仍会产生有效的高级见解。

生成对于LLM来说是小菜一碟,难的是在递归过程中防止漂移、崩溃或者生成分布不够广泛。

反馈要求系统继续产生关于智能体输出的反馈,这在结构上需要一个能够评估语言的批评者,且应与观察者的评估指标保持充分一致。

然而,语言空间中定义明确的指标通常仅限于特定的任务,而AI反馈则需要更通用的机制,尤其是在允许输入分布发生变化的情况下。

目前的LLM训练范式都没有足以用于苏格拉底式学习的反馈机制。比如下一个标记预测损失,与下游使用情况不一致,并且无法推断训练数据之外的情况。

根据定义,人类的偏好是一致的,但无法在封闭系统的学习中使用。将人类偏好缓存到学习的奖励模型中或许可行,但从长远来看,可能会产生错位,并且在分布外的数据上效果也很弱。

换句话说,纯粹的苏格拉底式学习是可能的,但需要通过强大且一致的批评者生成广泛的数据。当这些条件成立时,这种方法的上限就只取决于能够提供的计算资源。

语言、学习和基础是经过充分研究的话题。其中一个特别有用的概念是哲学家Wittgenstein提出的「语言游戏」。

对他来说,捕捉意义的不是文字,而需要语言的互动性质才能做到这一点。

具体来说,将语言游戏定义为交互协议(一组规则,可以用代码表达),指定一个或多个智能体(玩家)的交互,这些智能体具有语言输入和输出,以及在游戏结束时每个玩家的标量评分函数。

这样定义的语言游戏解决了苏格拉底式学习的两个主要需求:为无限的交互式数据生成提供了一种可扩展的机制,同时自动提供反馈信号(分数)。

从实用的角度来看,游戏也是一个很好的入门方式,因为人类在创造和磨练大量游戏和玩家技能方面有着相当多的记录。

实际上,许多常见的LLM交互范式也能被很好地表示为语言游戏,例如辩论、角色扮演、心智理论、谈判、越狱防御,或者是在封闭系统之外,来自人类反馈的强化学习。

Wittgenstein曾表示,他坚决反对语言具有单一的本质或功能。

从这个角度来看,苏格拉底式学习的整个过程就是一个元游戏,一个安排了智能体玩和学习的语言游戏(一个「无限」的游戏)。

苏格拉底因「腐蚀青年」而被判处死刑并被处决。这也意味着,苏格拉底过程并不能保证与外部观察者的意图保持一致。

语言游戏作为一种机制也没有回避这一点,但它所需要的不是在单个输入和输出的细粒度上对齐的批评家,而是一个可以判断应该玩哪些游戏的「元批评家」:根据是否对整体性能有贡献来过滤游戏。

那么问题来了,如果从苏格拉底和他的弟子开始,数千年来一直不受干扰地思考和改进,到现在会产生什么样的文化产物、什么样的知识、什么样的智慧?

THE END
1.人工智能的螺旋式发展历程腾讯云开发者社区人工智能的历史自1956年开始至今,已经有66年的历史。世界人工智能历史可分为三个阶段,从1956年至1976年是人工智能的第一个发展阶段,1976年至2006年是第二个发展阶段,而2006年至今则是人工智能的第三个发展阶段。 图片 人工智能发展的三次浪潮 人工智能典型任务和应用包括机器定义证明和机器翻译。机器翻译是人工智能https://cloud.tencent.com/developer/article/2477038
2.iEnglish;让学习回归教育的本质美美国教育家拉塞尔·L·阿克夫和丹尼尔·格林伯格认为,在后工业化时代,未来中国教育不再需要提供为工业企业社会服务的、驯良的、标准化的产品,而需要与学生时代不断发展相契合的教育,需要一个具有良好个性和创造力的新型技术人才和创新型学校。 相较于传统教育形式,具备游戏属性的教育活动,能够明显帮助学习者掌握某些技https://zhuanlan.zhihu.com/p/12428441555
3.大学英语学习共同体(精选十篇)组合课程注册(Co-registration)是美国高等教育中学习共同体的一种常见模式,在这种模式中,学生可围绕同一主题(Theme)注册一系列相关课程[10],如写作、文学与社会热点问题便是一组相关课程。 网络学习共同体(Online learning community)为学习者之间,学习者与教师之间提供一种虚拟交流的平台。Palloff和Pratt指出了网络学习https://www.360wenmi.com/f/cnkeyg2p08i2.html
4.教师国编考试试题6篇(全文)9.--Are you interested in shopping online ?--No, so muchu..We A see real products but pictures.A.can’t B.shouldn’t C.mustn’t D.needn’t 10.--Would you mind my sitting her ,sir?--C It’s for my wife.A.Not at all B.Certainly not C.I’m of raid you can’t D.All https://www.99xueshu.com/w/fileilgksp9r.html
5.游戏+人工智能AI如何影响我们的未来:(一)电子游戏与人工智能相生本章节将回顾人工智能与电子游戏相生相伴的历史,并将其划分为起源时期、发展时期和黄金时期。通过对其历史脉络的梳理,可以看到人工智能发展中的里程碑事件,大多都与电子游戏有关。 1.1起源时期:人工智能与电子游戏的诞生 20世纪50年代至60年代,属于游戏人工智能研究的起源时期。在此期间,开始出现了对于人工智能的早期研究https://blog.csdn.net/tysonchiu/article/details/135329746
6.ofinnovationstudies,thelearningpathwaysapproachpaysorigins of emerging energy technologies, and relatedly, the different learning styles involved in their development. By describing a small number of archetypic 在这`之内针对可比性’创新研究小河,学习的路方法给予特护对涌现的能量技术的不同的社会技术适当位置起源,和relatedly,在他们的发展介入的不同的学习http://eyu.zaixian-fanyi.com/fan_yi_13374327
7.基于YOLOv5与EWC的增量目标检测(62页)的发生,而增量学习(IncrementalLearning/ContinueLearning/OnlineLearning) 正好是解决模型在增量学习过程中发生“灾难性遗忘”的算法,将目标检测 算法与增量学习算法结合,则能实现本研究的目的——增量式目标检测。 1.1研究内容与创新点 目标检测的飞速发展催生了一大批依赖于该技术的应用,包括实例分割、 姿态检测、人体检https://m.book118.com/html/2024/0117/8103017134006026.shtm
8.ResearchProgressofDeepOpticalFlowEstimationCombining the deep learning model to compute end-to-end optical flow is a hot topic in current computer vision field. The optical flow estimation methods based on deep learning are summarized and reviewed. Firstly, the origin and concept of optical flow is introduced. Secondly, the optical flowhttps://www.sciengine.com/doi/10.3724/SP.J.1089.2021.17931
9.社会临场理论应用领域的演变及展望Itisfoundthatthecommunicationfieldissocialpresencetheory'sbirthplaceanditsearliestapplication field.Later,itgraduallyexpandedintothefieldofonlinelearninganditsapplicationinthisfieldisrelatively mature.Thee-commerceisarisingstarinallapplicationfields, anditsapplicationinhuman-computerinter- actionisenduringandhasabetterhttp://jirm.whu.edu.cn/jwk3/xxzyglxb/CN/article/downloadArticleFile.do?attachType=PDF&id=5173
10.临床医学网络教育范文为适应我国社会经济的发展与进一步深化医药卫生体制改革,高等专科临床医学专业的培养目标是应培养具有基层医生岗位职业素质,掌握临床医学基本知识和技能,具备融临床诊疗、疾病预防、保健、疾病康复、计划生育及健康教育为一体的基层卫生工作的能力,能够在基层医疗卫生机构(农村、城镇社区卫生服务站等)开展医疗卫生服务的实用性https://www.youfabiao.com/haowen/38512.html
11.哲学D'Herblay[1] 在以下两节中,我将表明,罗蒂最近的进步观念与对进步的希望进一步发展、并且更好地表达了两个儒家的真理:(1)道德进步就是扩展那些能被视作“我们”的人的范围;(2)要取得这样的进步,我们不必采用道德普遍主义的立场,无论其是康德的模式还是墨家的模式。在接下来的另外两节,我将讨论孔子与罗蒂或许会有的https://dherblay.wordpress.com/category/%E5%93%B2%E5%AD%A6/
12.集智科学家张江解析:为什么复杂性需要深度学习?雷峰网导语:尽管复杂性科学一直在追求一大类终极问题的答案,如生命的起源、复杂性的起源等。但其实它的发展完全是研究方法驱动的。 雷锋网按:本文来自北京集智俱乐部。作者张江,北京师范大学系统科学学院副教授,集智俱乐部创始人、现任主席、集智科学家,腾讯公司腾云智库成员。 https://www.leiphone.com/category/ai/vIL4TmuDNHWiubjX.html
13.现代生物声学的学科发展趋势及中国机遇1988年创刊的Bioacoustics杂志为生物声学作为独 立学科发展提供了关键科学成果交流平台 (https://www.tandfonline.com/journals/tbio20) . 近 20 年来, 随着生物声学在生态学,环境科学研究和应 用中的重要性不断突显, 以声景生态学(soundscape ecology)为代表的生态声学等新兴交叉学科也逐渐 形成并得到了快速发展https://www.biodiversity-science.net/EN/article/downloadArticleFile.do?attachType=PDF&id=93190
14.learn怎么读这个单词I am learning to play the piano. 我正在学习弹钢琴。 We can learn a lot from history. 我们可以从历史中学到很多。 She learned to speak French by herself. 她自学了法语。 He learned about the new technology through online courses. 他通过在线课程学习了新技术。 It's important to learn from yohttps://agents.baidu.com/content/question/27a372c09911543973505e46
15.柡4髮W中文系/ProspectiveStudents/Information/InformationThe Department of Chinese Literature offers a diverse and comprehensive learning system, providing options such as double majors, minors, credit programs, integrated five-year bachelor's and master's degree programs, cross-school courses, and overseas exchange programs. These learning options enrich andhttps://chinese.thu.edu.tw/web/about/page.php?lang=en&scid=86&sid=178
16.国际超语研究主题述评5.2. 超语教学实践的发展方向:打破壁垒与深化合作 超语与语言政策息息相关,比如超语起源的背景就是威尔士语的语言振兴计划,Cen Williams 认为 语言学习者的双语能力提高是由于英语和少数族裔特有语言威尔士语的切换使用,从而便有了"超语" 一词最早的出现[4].随后 García 在美国建立于语言歧视教育政策的背景下对https://www.hanspub.org/journal/PaperDownload.aspx?paperID=59115
17.learning"learning"的词源"learning"的起源和意思古英语 leornung “学习,获得知识的行动”,是 leornian(见 learn)的动名词。意思是“通过系统学习获得的知识,广泛的文学和科学文化”始于14世纪中期。1907年出现了 Learning curve。相关词汇 learning learn (v.) 古英语 leornian 意为“获得知识,被培养; 学习,阅读,思考”,源自原始日耳曼语 *lisnojanan(同源词https://www.etymonline.com/cn/word/learning?ref=etymonline_crossreference
18.大规模在线教育育人嘲构建研究:逻辑架构与实践形态(一)场景理论的起源与发展 所谓场景是指人与周围环境的关系总和[5],最早应用于描述音乐、舞台剧、电影等艺术形式,后来拓展至泛文化领域研究。直至21世纪初,美国芝加哥大学(University of Chicago)社会学教授特里·克拉克(T.Clark)将这一概念引入城市社会学,并提出一套基本的学术研究范式[6-7],场景理论才得以形成。https://www.eduwest.com/html/2021/qianyanlingyu_0709/607.html
19.Logos是个希腊语词,指的是“意义”。意义疗法,或者某些学者所谓的D. The efforts by online security vendors. 查看完整题目与答案 石淋症见 A. 尿频、尿急、尿痛较剧,以刺痛、绞痛为主 B. 小便短数,灼热刺痛,常伴有发烧 C. 小便热涩刺痛,尿色深红如“洗肉水” D. 尿频,排尿困难,尿量减少 E. 尿痛,尿道口溢脓,红肿痒痛 查看完整题目与答案 关于生https://www.shuashuati.com/ti/c12e9d12b8bc447c9ff9bb345622c2db.html?fm=bd91254deae6cfb100311443375869cf0c