一文读懂具身智能:方法进展及挑战

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2023.12.16北京

具身智能,通俗来说,是指研究在环境中具有实体的智能体(如现实或仿真环境下的机器人,能够直接与环境进行物理交互)如何通过与环境的交互来取得认知能力,学习并掌握新技能新知识的一个人工智能的子领域。

早期的具身智能研究发现要使得智能体学到的策略(policy)泛化到即便与训练数据非常相似的任务也是一件异常困难的事情,比如在“把物体从桌子中间推到右上角”这个训练集上得到的策略竟然没有办法直接用于解决“把物体从桌子中间推到右下角”这个任务,直觉上来说其背后的原因是桌子的右上角和右下角在图像层面上并不相同,而神经网络并没有数据来学习到这两者在“更加抽象的层面上是相类似的”。因此一个巨大的挑战是任务数量的组合爆炸:可以想象如果需要学习以100种方式操作100类物体使其达到100种特定状态,那么需要定义100x100x100=一百万种不同的任务,需要收集相应的数据来训练一个多任务(multi-task)策略,这就非常不现实。

带来组合/系统性泛化能力

值得注意的是,虽然RT-X展示了在多种机器人形态上工作的结果,但这是通过较为工程化的手段来实现的,具体来说模型仅输出机器人末端执行器(endeffector)的轨迹,而中间连接轴的运动则通过逆向运动学(inversekinematics)以闭合解的形式得到。本质上来说这种方法意味着机器人的具体形态已经被人为地抽象掉了,模型并不需要关心具体形态,其导致的局限性是模型没有办法像人和动物一样灵活地运用机器人的身体组成部分来完成任务,比如考虑一个“拿起瓶子”的任务,人可以用手指抓起,或者用手掌握住,甚至用手掌和手臂弯成角度夹起瓶子。这种对于本体的认知和灵活运用能力是目前的具身智能体做不到的。

另一方面,目前具身智能体解决的绝大多数任务都是在视觉背景为桌面的环境下(tabletopscenario),这种简单的背景实际上大大简化了对于视觉认知能力的要求,实际学习到的策略没有办法直接用到复杂的非结构化背景的环境下,原因是目前的视觉自监督学习(visionself-supervisedlearning)还没能学习到对于世界的结构化表征,不具备足够视觉认知能力,而这也是实现具身通用智能的关键因素之一。同时,与人和动物能够自主学习新的技能相比,没有任何证据表明目前基于模仿学习的方法能够通过大规模的预训练涌现出训练集中从未出现过的技能(与前述的零样本泛化到新任务不同,此处强调的是新技能,比如“举起瓶子”和“举起杯子”是两个不同的任务,但是用到相同的技能)。

然而,目前没有证据表明基于强化学习的方法训练出的智能体能涌现出对其所解决的任务和环境的认知能力,比如基于[9]的方法训练需要频繁地人为重置机械狗的位置,因为机械狗的奖励函数只鼓励它向前走,即使碰到墙也会反复向前冲撞。

这些结果都暗示了基于目前的深度学习范式来实现通用具身智能所面临的一些根本性挑战:

1)目前的学习系统本质上仍是一个开环系统,需要人类智能的介入(如根据学习结果,有针对性地采集更多更好的数据,调整数据的概率分布,反复迭代优化奖励函数等)来实现闭环,用YannLecun的话来说就是,目前的机器学习系统是AssistedIntelligence,而实现通用具身智能需要的是AutonomousIntelligence[10];

常识、自然抽象和世界模型

由于缺乏了学习关于世界的层级化抽象的能力,以目前的方法构建学习系统面临一个非常困难的实际问题:任务指定问题[12](其本质也是某种对齐问题),通俗来讲就是说想要训练一个模型来精确地完成一项人类工程师心里希望其完成的任务,是一件极其困难的事。

比如说,要想训练一个模型做图像识别,模型被训练优化其输出与图像标签在一个确定数据集上的交叉熵,因此这一任务实际上隐式地是由数据集来定义的,这就产生了一个巨大的挑战:为了指定一个任务,我们需要提供海量的信息。问题还不止于此,比如图1所示,在训练集上模型使用了错误的方法(通过检测到网球和草地)得到了正确的分类(小狗),于是其在测试集上(由于检测到背景水池)错误地将小狗分类为海豚。

那么这里的根本问题是什么呢?为什么人能够很轻易地(通过仅仅几个比特信息量的自然语言)让另外一个人做一件事,而告诉机器做一件事却异常费力?我认为是因为我们希望机器解决的任务和我们对任务的数学描述之间存在差异性:拿图像分类举例,我们实际希望机器解决的任务可能是“以人认为最自然的方式对这些图像进行分类”,而不是“找到能最好地拟合这些图像标签的方法”。那么什么是“人认为最自然的方式”呢?这可能就是我们所说的常识(commonsense),比如我们对图像分类时只会考虑图像的主体(看小狗而不是看其背后的背景),我们会通过寻找具有因果关系的特征来分辨不同的物体(因为有尾巴和眼睛所以是小狗),我们知道物体与物体之间的关系(比如狗尾巴是小狗的一部分)等等。

因此,我认为实现通用具身智能的一个关键问题,是如何使机器学习系统从自然模态中(如视觉,听觉)学习到关于世界的层级化抽象(或者说是世界模型,认知地图;以下我们将其简称为世界模型)。为什么这么说呢?我认为至少有以下几点原因:

(1)世界模型能很好地将感知和认知统一在同一个框架下。

在目前的具身智能系统中,从感知到认知似乎是通过相对独立的模块来完成的,比如通过基于SLAM或者深度学习的方法获得关于周围环境的三维几何信息如深度图;通过基于深度学习的方法获得含有语义信息的结果如目标检测,分类,分割等;再通过手写的规则或者较为传统的人工智能技术对结果进行处理来获取一定的认知能力,如对场景的理解等等。这种模块化的方法在模块与模块之间的衔接上面临着很大的挑战,这也是高级别的自动驾驶技术迟迟难以落地的原因之一。

究其本质,我认识根本问题在于感知和认知是同一个连续光谱的两端,是一个难以分割的整体,要完美解决感知问题必然涉及到认知,反之亦然,并且认知能力并不是凭空产生的,因此合理的做法并不是通过将认知模块直接设计进智能系统,而是在同一个框架下通过对更低层级的感知任务进行优化,使得认知能力自然地涌现出来,这看起来也是人类和动物学习认知世界的方式。

(2)世界模型让智能体以计算可行的(computationally-tractable)方式对未来进行长期预测和规划。

(3)世界模型包含了事件间的因果关系(一种特殊的对时序的抽象),使得智能体能够进行反事实推理(counterfactualreasoning),并据此高效且自动地学习新知识和新技能。

[1]Lu,Kevin,etal.'Pretrainedtransformersasuniversalcomputationengines.'arXivpreprintarXiv:2103.052471(2021).

[2]Jang,Eric,etal.'Bc-z:Zero-shottaskgeneralizationwithroboticimitationlearning.'ConferenceonRobotLearning.PMLR,2022.

[3]Padalkar,Abhishek,etal.'Openx-embodiment:Roboticlearningdatasetsandrt-xmodels.'arXivpreprintarXiv:2310.08864(2023).

[4]Bahdanau,Dzmitry,etal.'Systematicgeneralization:whatisrequiredandcanitbelearned.'arXivpreprintarXiv:1811.12889(2018).

[5]Akkaya,Ilge,etal.'Solvingrubik'scubewitharobothand.'arXivpreprintarXiv:1910.07113(2019).

[6]Zhuang,Ziwen,etal.'Robotparkourlearning.'arXivpreprintarXiv:2309.05665(2023).

[7]Ha,David,andJürgenSchmidhuber.'Worldmodels.'arXivpreprintarXiv:1803.10122(2018).

[8]Hafner,Danijar,etal.'Dreamtocontrol:Learningbehaviorsbylatentimagination.'arXivpreprintarXiv:1912.01603(2019).

[9]Wu,Philipp,etal.'Daydreamer:Worldmodelsforphysicalrobotlearning.'ConferenceonRobotLearning.PMLR,2023.

[10]LeCun,Yann.'Apathtowardsautonomousmachineintelligenceversion0.9.2,2022-06-27.'OpenReview62.1(2022).

[11]Piloto,LuisS.,etal.'Intuitivephysicslearninginadeep-learningmodelinspiredbydevelopmentalpsychology.'Naturehumanbehaviour6.9(2022):1257-1267.

[12]Agrawal,Pulkit.'Thetaskspecificationproblem.'ConferenceonRobotLearning.PMLR,2022.

[14]Kirsch,Louis,etal.'General-purposein-contextlearningbymeta-learningtransformers.'arXivpreprintarXiv:2212.04458(2022).

[15]Zador,Anthony,etal.'Catalyzingnext-generationartificialintelligencethroughneuroai.'Naturecommunications14.1(2023):1597.

[16]Bongard,Joshua,andMichaelLevin.'There’splentyofroomrighthere:Biologicalsystemsasevolved,overloaded,multi-scalemachines.'Biomimetics8.1(2023):110.

[17]Legg,Shane,andMarcusHutter.'Universalintelligence:Adefinitionofmachineintelligence.'Mindsandmachines17(2007):391-444.

[18]Ma,Yi,DorisTsao,andHeung-YeungShum.'Ontheprinciplesofparsimonyandself-consistencyfortheemergenceofintelligence.'FrontiersofInformationTechnology&ElectronicEngineering23.9(2022):1298-1323.

[19]Grünwald,Peter.'Minimumdescriptionlengthtutorial.'Advancesinminimumdescriptionlength:Theoryandapplications5(2005):1-80.

[20]Friston,Karl.'Thefree-energyprinciple:aunifiedbraintheory.'Naturereviewsneuroscience11.2(2010):127-138.

[21]Herrmann,Vincent,LouisKirsch,andJürgenSchmidhuber.'LearningOneAbstractBitataTimeThroughSelf-InventedExperimentsEncodedasNeuralNetworks.'InternationalWorkshoponActiveInference.Cham:SpringerNatureSwitzerland,2023.

[22]Kothapalli,Vignesh,EbrahimRasromani,andVasudevAwatramani.'Neuralcollapse:Areviewonmodellingprinciplesandgeneralization.'arXivpreprintarXiv:2206.04041(2022).

[23]Hubinger,Evan,etal.'Risksfromlearnedoptimizationinadvancedmachinelearningsystems.'arXivpreprintarXiv:1906.01820(2019).

[24]Kirsch,Louis,etal.'General-purposein-contextlearningbymeta-learningtransformers.'arXivpreprintarXiv:2212.04458(2022).

[25]Akyürek,Ekin,etal.'Whatlearningalgorithmisin-contextlearninginvestigationswithlinearmodels.'arXivpreprintarXiv:2211.15661(2022).

THE END
1.充分利用互联网自学的方法大全(纯干货如何免费学习前端技术:w3cschool+B站公开代码的视频。 如何了解外文书籍好不好:上goodreads(类似于豆瓣的英语网站)。 如何充分利用正版电子书的试阅部分:先看目录,看完目录之后挑最感兴趣的章节阅读。(得到是提供全书任意10%部分的阅读,豆瓣提供一本书前10%部分的阅读) 想自学外语的姐妹直接在B站搜免费的视频课看。https://www.douban.com/group/topic/299897078/
2.如何有效利用网络学习拓展:学习方法 一、懂 一个人做任何一件事情都要首先弄清楚为什么要这样做,在没弄明白它其中的道理之前,不应该盲目地行动。学习也不例外。在学习的过程中,首先是通过听老师讲解和阅读教科书,弄懂每一章节中的概念、定义、定理和公式究竟是什么意思,和以前的知识之间有什么联系,是怎样演化而来的?而不应死记硬背地https://www.yjbys.com/xuexi/fangfa/1278225.html
3.政治学习方法(通用26篇)在日常学习、工作或生活中,很多人都在不断学习,保持进步,不过只有真正找对了学习方法,才能能事半功倍,还能培养学习的兴趣。想要找到正确的学习方法?以下是小编收集整理的政治学习方法(通用26篇),欢迎大家借鉴与参考,希望对大家有所帮助。 政治学习方法 篇1 https://www.fwsir.com/xinde/html/xinde_20220102162710_1559585.html
4.公民科学素质互联网是一个世界规模的巨大的信息和服务资源,它为人们提供了简单而且快捷的通信与信息检索手段。通过使用互联网,全世界范围内的人们既可以互通信息,交流思想,又可以获得各个方面的知识、经验和信息。因此,互联网可以让世界各地数以万计的人们利用互联网进行信息交流和资源共享,它已经成为了人类社会有史以来第一个世界http://www.jzkx.org.cn/index.php?c=show&id=1146
5.联机学习:互联网时代最聪明的学习方法联机学习,就通过和不同背景,不同行业的人交互式的共同学习(或者互相学习),以期快速的掌握一门知识的核心要领。联机学习,将是互联网时代最聪明的学习方式。 三联机学习的好处 在我看来,联机学习最少有以下三个好处: 1.扩大格局视野,突破个人限制 不同行业,不同背景的人,往往拥有着不同的行业认知,知识结构和思维http://www.360doc.com/content/21/1209/21/7108612_1007900249.shtml
6.职教动态职业教育教学设计有哪些原则 职业教育教学设计,指运用教与学的原理,依据课程主题及学习者特征、环境条件等因素,为学习者策划学习活动的过程。职业教育教学设计一般包括目标设计、内容设计、任务设计、学习方法与策略设计、学习情境设计、学习资源设计、评价方法设计等。课程的教学设计应当始终围绕学生主体,积极为其认识的发展https://lgxy.lzmvc.edu.cn/lgxytzgg/8598.jhtml
7.1000+面试题附答案详解,最全面详细,偷偷学习,然后卷S他们对于软件测试的朋友来说应该是最全面最完整的面试备战仓库,为了更好地整理每个模块,我也参考了很多网上的优质博文和项目,力求不漏掉每一个知识点,很多朋友靠着这些内容进行复习,拿到了互联网大厂的offer, 也已经帮助了很多的软件测试学习者,希望也能帮助到你 https://maimai.cn/article/detail?fid=1700715497&efid=tA7eC1eCPIrzCZI7LISXLQ
8.怎样做好一名基层党支部书记学习思考2、创新学习方法,着力增强吸引力感染力 不断创新方式方法和平台载体,努力增强学习宣传党中央各项方针政策的的针对性实效性。坚持既严谨又生动,善于运用群众乐于参与、便于参与的方式,采取知识竞赛、网络答题等富有时代特色、体现实践要求的方法,在拓展广度深度上下功夫。充分运用新技术新应用创新媒体传播方式,不断增强宣传https://www.cnbm.com.cn/CNBM/0000000800100002/46318.html
9.“互联网+教育”教学案例1.作者在这部分主要采用了哪些描写方法突出“盼”的心情? 2.在这部分里,三处雨景的描写表现了“我”的心情有哪些不同? 要求与提示:一边读,一边圈点勾画,并在相关段落、语句,做上自己的批注。 (1)学生根据自学提示自主学习。 (2)小组合作交流学习所得。 https://yun.nxeduyun.com/index.php?r=space/school/theme/content/view&id=2383217
10.字节跳动面试全经历,大佬的世界原来是这个样子!51CTO博客Q:那你觉得现在不是网络时代了么?移动互联网这么发达?(三面) A:我理解现在网络更多是一种工具融入到我们的生活之中了。 Q:为什么选择研究生专业(电子与通信工程)?(三面) A:一是现在网工就业不是那么好,因为更多的企业运用了云服务,我去买腾讯,阿里的云服务,他们给我接口和相关的配套就可以了。 同时也觉得和https://blog.51cto.com/u_14209518/5344067
11.网络教育学习方式是怎样的3、通过移动终端的方式。目前看来这种形式的学习方法越来越受到大众的欢迎,很多人喜欢用手机,平板电脑,电子书等移动设备进行学习,不仅携带方便而且同样能够在互联网上面找到海量的学习资源。 报考网络教育有哪些特点 现代远程教育可以有效地发挥远程教育的特点,是一种相对于面授教育、师生分离、非面对面组织的教学活动,它https://www.eol.cn/baokao/zk-wyw/20231109163920.html
12.《网络时代学生自主学习能力的培养的研究》课题结题报告网络教学是指利用互联网的功能特性和资源建立有意义的学习环境,以促进和支持学生的学习活动。教师和学生充分运用已有的公网资源,充分运用已有的权威机构专业网站、个人特色网站,充分运用通用软件。教师只需要运用Word来写作一个学习活动方案,其精力更多地集中在探究学习活动方案的设计上、更多地集中在学生学习活动的辅导上。http://www.hlsx.wj.czedu.cn/html/article781364.html
13.冬令营方案集合15篇另外,如果同学们需要了解和学习安全知识,本版块也有一些安全知识介绍,大家可以通过学习,获得更多的保护自己的有效方法,祝愿同学们树立安全意识、牢记安全知识,过一个平安、愉快的春节! 参与者:全市中小学生、教师、家长等。 时间:20xx年整个寒假 版块5:e网相联无极限 https://www.wenshubang.com/fangan/3072716.html
14.深度学习十大学习方法—AI面试必备深度学习方法导读:孔子曾经说过,“学如不及,犹恐失之。”因此 AI 工程师学习深度学习也要“温故而知新”。 以下是小编整理的其他文章,希望能对各位有所帮助 人工智能学习路线OpenCV图像分割Python方法图像分割的方法 图像处理基础知识十大经典算法(图像处理))人工智能必备数学基础 https://blog.csdn.net/Java_college/article/details/121204942
15.高中培训工作总结(精选20篇)(1)熟悉新课程的教材,对课本内容、教学教法有全面深刻的了解和认识。对新课程教学做到胸有成竹。 (2)树立全新的教育理念,要注重学生的主体,教师的主导作用;要注意学生的学习过程、学习方法和能力的培养。 (3)教师间依然要坚持交流学习,可以借鉴已使用新课程地区的方法与经验。 https://www.jy135.com/peixunzongjie/974369.html
16.学习英语计划(通用12篇)第二,调整学习方法。在长期的学习中,有时候需要调整学习方法,可能是需要找到适合自己的学习方式,也可能是需要改变学习计划或者进度。 第三,扩展知识面。英语学习不是单一的学科,需要融入不同的领域和知识。通过看英文电影、听英文音乐、看英文新闻,扩展自己的知识和语言交流能力。 第四,寻求帮助。如果遇到学习困难,不https://www.liuxue86.com/a/5024521.html