开通VIP,畅享免费电子书等14项超值服
首页
好书
留言交流
下载APP
联系客服
2023.12.16北京
具身智能,通俗来说,是指研究在环境中具有实体的智能体(如现实或仿真环境下的机器人,能够直接与环境进行物理交互)如何通过与环境的交互来取得认知能力,学习并掌握新技能新知识的一个人工智能的子领域。
早期的具身智能研究发现要使得智能体学到的策略(policy)泛化到即便与训练数据非常相似的任务也是一件异常困难的事情,比如在“把物体从桌子中间推到右上角”这个训练集上得到的策略竟然没有办法直接用于解决“把物体从桌子中间推到右下角”这个任务,直觉上来说其背后的原因是桌子的右上角和右下角在图像层面上并不相同,而神经网络并没有数据来学习到这两者在“更加抽象的层面上是相类似的”。因此一个巨大的挑战是任务数量的组合爆炸:可以想象如果需要学习以100种方式操作100类物体使其达到100种特定状态,那么需要定义100x100x100=一百万种不同的任务,需要收集相应的数据来训练一个多任务(multi-task)策略,这就非常不现实。
带来组合/系统性泛化能力
值得注意的是,虽然RT-X展示了在多种机器人形态上工作的结果,但这是通过较为工程化的手段来实现的,具体来说模型仅输出机器人末端执行器(endeffector)的轨迹,而中间连接轴的运动则通过逆向运动学(inversekinematics)以闭合解的形式得到。本质上来说这种方法意味着机器人的具体形态已经被人为地抽象掉了,模型并不需要关心具体形态,其导致的局限性是模型没有办法像人和动物一样灵活地运用机器人的身体组成部分来完成任务,比如考虑一个“拿起瓶子”的任务,人可以用手指抓起,或者用手掌握住,甚至用手掌和手臂弯成角度夹起瓶子。这种对于本体的认知和灵活运用能力是目前的具身智能体做不到的。
另一方面,目前具身智能体解决的绝大多数任务都是在视觉背景为桌面的环境下(tabletopscenario),这种简单的背景实际上大大简化了对于视觉认知能力的要求,实际学习到的策略没有办法直接用到复杂的非结构化背景的环境下,原因是目前的视觉自监督学习(visionself-supervisedlearning)还没能学习到对于世界的结构化表征,不具备足够视觉认知能力,而这也是实现具身通用智能的关键因素之一。同时,与人和动物能够自主学习新的技能相比,没有任何证据表明目前基于模仿学习的方法能够通过大规模的预训练涌现出训练集中从未出现过的技能(与前述的零样本泛化到新任务不同,此处强调的是新技能,比如“举起瓶子”和“举起杯子”是两个不同的任务,但是用到相同的技能)。
然而,目前没有证据表明基于强化学习的方法训练出的智能体能涌现出对其所解决的任务和环境的认知能力,比如基于[9]的方法训练需要频繁地人为重置机械狗的位置,因为机械狗的奖励函数只鼓励它向前走,即使碰到墙也会反复向前冲撞。
这些结果都暗示了基于目前的深度学习范式来实现通用具身智能所面临的一些根本性挑战:
1)目前的学习系统本质上仍是一个开环系统,需要人类智能的介入(如根据学习结果,有针对性地采集更多更好的数据,调整数据的概率分布,反复迭代优化奖励函数等)来实现闭环,用YannLecun的话来说就是,目前的机器学习系统是AssistedIntelligence,而实现通用具身智能需要的是AutonomousIntelligence[10];
常识、自然抽象和世界模型
由于缺乏了学习关于世界的层级化抽象的能力,以目前的方法构建学习系统面临一个非常困难的实际问题:任务指定问题[12](其本质也是某种对齐问题),通俗来讲就是说想要训练一个模型来精确地完成一项人类工程师心里希望其完成的任务,是一件极其困难的事。
比如说,要想训练一个模型做图像识别,模型被训练优化其输出与图像标签在一个确定数据集上的交叉熵,因此这一任务实际上隐式地是由数据集来定义的,这就产生了一个巨大的挑战:为了指定一个任务,我们需要提供海量的信息。问题还不止于此,比如图1所示,在训练集上模型使用了错误的方法(通过检测到网球和草地)得到了正确的分类(小狗),于是其在测试集上(由于检测到背景水池)错误地将小狗分类为海豚。
那么这里的根本问题是什么呢?为什么人能够很轻易地(通过仅仅几个比特信息量的自然语言)让另外一个人做一件事,而告诉机器做一件事却异常费力?我认为是因为我们希望机器解决的任务和我们对任务的数学描述之间存在差异性:拿图像分类举例,我们实际希望机器解决的任务可能是“以人认为最自然的方式对这些图像进行分类”,而不是“找到能最好地拟合这些图像标签的方法”。那么什么是“人认为最自然的方式”呢?这可能就是我们所说的常识(commonsense),比如我们对图像分类时只会考虑图像的主体(看小狗而不是看其背后的背景),我们会通过寻找具有因果关系的特征来分辨不同的物体(因为有尾巴和眼睛所以是小狗),我们知道物体与物体之间的关系(比如狗尾巴是小狗的一部分)等等。
因此,我认为实现通用具身智能的一个关键问题,是如何使机器学习系统从自然模态中(如视觉,听觉)学习到关于世界的层级化抽象(或者说是世界模型,认知地图;以下我们将其简称为世界模型)。为什么这么说呢?我认为至少有以下几点原因:
(1)世界模型能很好地将感知和认知统一在同一个框架下。
在目前的具身智能系统中,从感知到认知似乎是通过相对独立的模块来完成的,比如通过基于SLAM或者深度学习的方法获得关于周围环境的三维几何信息如深度图;通过基于深度学习的方法获得含有语义信息的结果如目标检测,分类,分割等;再通过手写的规则或者较为传统的人工智能技术对结果进行处理来获取一定的认知能力,如对场景的理解等等。这种模块化的方法在模块与模块之间的衔接上面临着很大的挑战,这也是高级别的自动驾驶技术迟迟难以落地的原因之一。
究其本质,我认识根本问题在于感知和认知是同一个连续光谱的两端,是一个难以分割的整体,要完美解决感知问题必然涉及到认知,反之亦然,并且认知能力并不是凭空产生的,因此合理的做法并不是通过将认知模块直接设计进智能系统,而是在同一个框架下通过对更低层级的感知任务进行优化,使得认知能力自然地涌现出来,这看起来也是人类和动物学习认知世界的方式。
(2)世界模型让智能体以计算可行的(computationally-tractable)方式对未来进行长期预测和规划。
(3)世界模型包含了事件间的因果关系(一种特殊的对时序的抽象),使得智能体能够进行反事实推理(counterfactualreasoning),并据此高效且自动地学习新知识和新技能。
[1]Lu,Kevin,etal.'Pretrainedtransformersasuniversalcomputationengines.'arXivpreprintarXiv:2103.052471(2021).
[2]Jang,Eric,etal.'Bc-z:Zero-shottaskgeneralizationwithroboticimitationlearning.'ConferenceonRobotLearning.PMLR,2022.
[3]Padalkar,Abhishek,etal.'Openx-embodiment:Roboticlearningdatasetsandrt-xmodels.'arXivpreprintarXiv:2310.08864(2023).
[4]Bahdanau,Dzmitry,etal.'Systematicgeneralization:whatisrequiredandcanitbelearned.'arXivpreprintarXiv:1811.12889(2018).
[5]Akkaya,Ilge,etal.'Solvingrubik'scubewitharobothand.'arXivpreprintarXiv:1910.07113(2019).
[6]Zhuang,Ziwen,etal.'Robotparkourlearning.'arXivpreprintarXiv:2309.05665(2023).
[7]Ha,David,andJürgenSchmidhuber.'Worldmodels.'arXivpreprintarXiv:1803.10122(2018).
[8]Hafner,Danijar,etal.'Dreamtocontrol:Learningbehaviorsbylatentimagination.'arXivpreprintarXiv:1912.01603(2019).
[9]Wu,Philipp,etal.'Daydreamer:Worldmodelsforphysicalrobotlearning.'ConferenceonRobotLearning.PMLR,2023.
[10]LeCun,Yann.'Apathtowardsautonomousmachineintelligenceversion0.9.2,2022-06-27.'OpenReview62.1(2022).
[11]Piloto,LuisS.,etal.'Intuitivephysicslearninginadeep-learningmodelinspiredbydevelopmentalpsychology.'Naturehumanbehaviour6.9(2022):1257-1267.
[12]Agrawal,Pulkit.'Thetaskspecificationproblem.'ConferenceonRobotLearning.PMLR,2022.
[14]Kirsch,Louis,etal.'General-purposein-contextlearningbymeta-learningtransformers.'arXivpreprintarXiv:2212.04458(2022).
[15]Zador,Anthony,etal.'Catalyzingnext-generationartificialintelligencethroughneuroai.'Naturecommunications14.1(2023):1597.
[16]Bongard,Joshua,andMichaelLevin.'There’splentyofroomrighthere:Biologicalsystemsasevolved,overloaded,multi-scalemachines.'Biomimetics8.1(2023):110.
[17]Legg,Shane,andMarcusHutter.'Universalintelligence:Adefinitionofmachineintelligence.'Mindsandmachines17(2007):391-444.
[18]Ma,Yi,DorisTsao,andHeung-YeungShum.'Ontheprinciplesofparsimonyandself-consistencyfortheemergenceofintelligence.'FrontiersofInformationTechnology&ElectronicEngineering23.9(2022):1298-1323.
[19]Grünwald,Peter.'Minimumdescriptionlengthtutorial.'Advancesinminimumdescriptionlength:Theoryandapplications5(2005):1-80.
[20]Friston,Karl.'Thefree-energyprinciple:aunifiedbraintheory.'Naturereviewsneuroscience11.2(2010):127-138.
[21]Herrmann,Vincent,LouisKirsch,andJürgenSchmidhuber.'LearningOneAbstractBitataTimeThroughSelf-InventedExperimentsEncodedasNeuralNetworks.'InternationalWorkshoponActiveInference.Cham:SpringerNatureSwitzerland,2023.
[22]Kothapalli,Vignesh,EbrahimRasromani,andVasudevAwatramani.'Neuralcollapse:Areviewonmodellingprinciplesandgeneralization.'arXivpreprintarXiv:2206.04041(2022).
[23]Hubinger,Evan,etal.'Risksfromlearnedoptimizationinadvancedmachinelearningsystems.'arXivpreprintarXiv:1906.01820(2019).
[24]Kirsch,Louis,etal.'General-purposein-contextlearningbymeta-learningtransformers.'arXivpreprintarXiv:2212.04458(2022).
[25]Akyürek,Ekin,etal.'Whatlearningalgorithmisin-contextlearninginvestigationswithlinearmodels.'arXivpreprintarXiv:2211.15661(2022).