开通VIP,畅享免费电子书等14项超值服
首页
好书
留言交流
下载APP
联系客服
2024.08.07
我们翻译解读最新论文:关于嵌入式人工智能的全面调查,文末有论文链接。作者:张长旺,图源:旺知识
关键词:具身AI,网络空间,物理世界,多模态大型模型,世界模型,智能体,机器人学
I.引言
具身AI最初由艾伦·图灵在1950年提出的图灵测试提出[1],旨在确定智能体是否能够展示不仅仅是在虚拟环境中解决抽象问题(网络空间1),而且也能够导航物理世界的复杂性和不可预测性。
图1展示了谷歌学术上关于具身AI主题的搜索结果。垂直轴和水平轴分别表示出版物数量和年份。自2023年MLMs的突破以来,出版物呈指数级增长。
总之,这项工作的主要贡献有三个方面。首先,它对具身AI进行了系统回顾,包括具身机器人、模拟器和四个主要研究任务:视觉主动感知、具身交互、具身智能体和仿真到现实的机器人控制。据我们所知,这是第一次从网络和物理空间对齐的角度,基于MLMs和WMs,对具身AI进行全面调查,提供了一个广泛的概述,并对现有研究进行了彻底的总结和分类。其次,它检查了具身AI的最新进展,为跨多个模拟器和数据集的当前工作提供了全面的基准测试和讨论。第三,它确定了未来研究的几个研究挑战和潜在方向,以实现具身AI的AGI。本文的其余部分组织如下。第2节介绍各种具身机器人。第3节描述通用和真实场景的模拟器。第4节介绍具身感知,包括主动视觉感知、3D视觉定位、视觉语言导航和非视觉感知。第5节介绍具身交互。第6节介绍具身智能体,包括具身多模态基础模型和具身任务规划。第7节介绍仿真到现实的适应性,包括具身世界模型、数据收集和训练以及具身控制。第8节,我们讨论有希望的研究方向。
II.具身机器人
具身智能体积极与物理环境互动,包括广泛的具身形式,包括机器人、智能家电、智能眼镜、自动驾驶汽车等。其中,机器人作为最突出的具身形式之一。根据应用的不同,机器人被设计成各种形态,利用其硬件特性来执行特定任务,如图4所示。
A.固定基机器人
如图4(a)所示,固定基机器人广泛应用于实验室自动化、教育培训和工业制造,因为它们体积小巧且操作精度高。这些机器人具有坚固的基座和结构,确保了操作期间的稳定性和高精度。它们配备了高精度传感器和执行器,能够实现微米级精度,使它们适合需要高精度和重复性的任务[21]。此外,固定基机器人具有高度的可编程性,允许用户适应各种任务场景,例如Franka(FrankaEmikapanda)[22]、Kukaiiwa(KUKA)[23]和Sawyer(RethinkRobotics)[24]。然而,固定基机器人也有一定的缺点。它们的固定基座设计限制了它们的操作范围和灵活性,阻碍了它们在大面积内的移动或调整位置,导致它们与人类和其他机器人的协作受到限制[21]。
B.轮式机器人和履带式机器人
C.四足机器人
D.仿人机器人
E.生物模拟机器人
不同地,生物模拟机器人通过模拟自然生物体的高效运动和功能,在复杂和动态的环境中执行任务。通过模仿生物体的形式和运动机制,这些机器人在医疗保健、环境监测和生物研究等领域展示了巨大的潜力[21]。通常,它们使用柔性材料和结构来实现逼真、敏捷的运动,并最大限度地减少对环境的影响。重要的是,生物模拟设计可以通过模仿生物体的高效运动机制显著提高机器人的能效,使它们在能源消耗方面更加经济[42],[43]。这些生物模拟机器人包括鱼形机器人[44],[45],昆虫形机器人[46],[47]和软体机器人[48],如图4(f)所示。然而,生物模拟机器人面临几个挑战。首先,它们的设计和制造过程复杂且成本高,限制了大规模生产和广泛应用。其次,由于它们使用柔性材料和复杂的运动机制,生物模拟机器人在极端环境中的耐用性和可靠性受到限制。
III.具身模拟器
具身模拟器对具身人工智能至关重要,因为它们提供了成本效益高的实验,通过模拟潜在的危险场景来确保安全,具有在不同环境中测试的可扩展性、快速原型制作能力、更广泛的研究社区的可访问性、控制环境进行精确研究、用于训练和评估的数据生成,以及用于算法比较的标准基准。为了使智能体能够与环境互动,有必要构建一个现实模拟的环境。这需要考虑环境的物理特性、对象的属性以及它们之间的互动。本节将介绍两部分常用的模拟平台:基于底层模拟的通用模拟器和基于真实场景的模拟器。
A.通用模拟器
B.基于真实场景的模拟器
实现在家庭活动中的通用具身智能体一直是具身人工智能研究的主要焦点。这些具身智能体需要深入理解人类日常生活,并执行复杂的具身任务,如室内环境中的导航和交互。为了满足这些复杂任务的需求,模拟环境需要尽可能接近真实世界,这对模拟器的复杂性和现实性提出了高要求。这导致了基于真实世界环境的模拟器的创建。这些模拟器大多从真实世界收集数据,创建照片般逼真的3D资产,并使用像UE5和Unity这样的3D游戏引擎构建场景。丰富和真实的场景使基于真实世界环境的模拟器成为家庭活动中具身人工智能研究的首选。
AI2-THOR[61]是由Allen人工智能研究所领导的基于Unity3D的室内具身场景模拟器。作为一个在真实世界中构建的高保真模拟器,AI2-THOR拥有丰富的交互场景对象,并且为它们分配了物理属性(如打开/关闭甚至冷/热)。AI2-THOR由两部分组成:iTHOR和RoboTHOR。iTHOR包含120个房间,分为厨房、卧室、浴室和客厅,拥有2000多个独特的交互对象,并支持多智能体模拟;
RoboTHOR包含89个模块化公寓,这些公寓与真实世界中的真实场景相对应。到目前为止,已经有超过一百篇基于AI2-THOR的作品发表。Matterport3D[62]在R2R[63]中提出,通常用作大规模2D-3D视觉数据集。Matterport3D数据集包括90个建筑室内场景,包含10800个全景图和194400个RGB-D图像,并提供表面重建、相机姿态和2D和3D语义分割注释。
Matterport3D将3D场景转换为离散的“视点”,具身智能体在Matterport3D场景中的相邻“视点”之间移动。在每个“视点”,具身智能体可以获得一个1280x1024全景图像(18×RGB-D)。Matterport3D是最重要的具身导航基准之一。
iGibson[67][68]是斯坦福推出的开源模拟器。构建在Bullet物理引擎上,iGibson提供了15个高质量的室内场景,并支持从其他数据集(如Gibson和Matterport3D)导入资产。作为一个面向对象的模拟器,iGibson为对象分配了丰富的可变属性,不仅限于对象的运动属性(姿态、速度、加速度等),还包括温度、湿度、清洁度、开关状态等。此外,除了其他模拟器中的标准深度和语义传感器外,iGibson还为具身智能体提供了激光雷达,使智能体能够轻松获取场景中的3D点云。关于具身智能体配置,iGibson支持连续动作控制和细粒度关节控制。这允许iGibson中的具身智能体在移动时与对象进行精细交互。
Sapien以其设计脱颖而出,专门用于模拟与门、橱柜和抽屉等关节对象的交互。VirtualHome以其独特的环境图而著称,这有助于基于自然语言描述的环境的高级具身规划。虽然AI2Thor提供了丰富的交互场景,但这些交互与VirtualHome中的交互类似,都是基于脚本的,缺乏真实的物理交互。这种设计足以满足不需要细粒度交互的具身任务。iGibson和TDW都提供了细粒度的具身控制和高度模拟的物理交互。
IV.具身感知
未来的具身感知的“北斗星”是具身中心的视觉推理和社会智能[74]。与传统的图像中的对象识别不同,具有具身感知的智能体必须在物理世界中移动并与环境互动。这要求对3D空间和动态环境有更深入的理解。具身感知需要视觉感知和推理,理解场景中的3D关系,并基于视觉信息预测和执行复杂任务。
A.主动视觉感知
主动视觉感知系统需要基本能力,如状态估计、场景感知和环境探索。如图7所示,这些能力已在视觉同时定位与地图构建(vSLAM)、3D场景理解(3DSceneUnderstanding)和主动探索(ActiveExploration)等领域进行了广泛研究[118],[119]。这些研究领域有助于开发鲁棒的主动视觉感知系统,促进在复杂、动态环境中改进环境交互和导航。我们简要介绍这三个组成部分,并在表IV中总结了每个部分中提到的方法。
图7展示了主动视觉感知的示意图。视觉SLAM和3D场景理解为被动视觉感知提供了基础,而主动探索可以为被动感知系统提供主动性。这三个要素相辅相成,对主动视觉感知系统至关重要。
B.3D视觉定位
与传统的2D视觉定位不同,它在平面图像的限制下操作,3D视觉定位结合了深度、透视和对象之间的空间关系,为智能体与其环境的交互提供了更加强大的框架。3D视觉定位的任务是使用自然语言描述在3D环境中定位对象。
图8展示了两阶段(上图)和一阶段(下图)3D视觉定位方法的示意图[141]。(a)展示了3D视觉定位的示例。(b)两阶段方法包括可能会在检测阶段忽视目标的稀疏提议和可能会在匹配阶段引起混淆的密集提议。(c)一阶段方法可以根据语言描述的指导逐步选择关键点(蓝点→红点→绿点)。[129],[130]。如表V所总结,3D视觉定位的最新方法大致可以分为两类:两阶段和一阶段方法[145]。
C.视觉语言导航(VisualLanguageNavigation,VLN)
视觉语言导航是具身人工智能(EmbodiedAI)的关键研究问题,旨在使智能体能够在未见环境中遵循语言指令进行导航。VLN要求机器人不仅要理解复杂多样的视觉观察,而且还要解释不同粒度的指令。VLN的输入通常由两部分组成:视觉信息和自然语言指令。视觉信息可以是过去轨迹的视频,或者是一组历史当前观察图像。自然语言指令包括具身智能体需要到达的目标,或者是预期完成的任务。具身智能体必须使用上述信息从候选列表中选择一个或一系列动作来满足自然语言指令的要求。这个过程可以表示为:
其中Action是选择的动作或动作候选列表,O是当前观察,H是历史信息,I是自然语言指令。在VLN中最常用的指标有SR(成功率)、TL(轨迹长度)和SPL(由路径长度加权的成功率)。其中,SR直接反映了具身智能体的导航性能,TL反映了导航效率,SPL结合了两者以指示具身智能体的整体性能。下面,我们将VLN分为两部分进行介绍:数据集和方法。
D.非视觉感知:触觉
1)传感器设计:人类触觉的原理是皮肤在触摸时发生形状变化,其丰富的神经细胞发送电信号,这也为设计触觉传感器提供了基础。触觉传感器设计方法可以分为三类:非视觉基础、视觉基础和多模态。非视觉基础触觉传感器主要使用电力和机械原理,主要注册基本的、低维的感官输出,如力量、压力、振动和温度[191]–[196]。其中一个著名的代表是BioTac及其模拟器[197][198]。基于视觉的触觉传感器基于光学原理。使用凝胶变形的图像作为触觉信息,基于视觉的触觉传感器如GelSight、Gelslim、DIGIT、9DTact、TacTip、GelTip和AllSight已被用于众多应用。模拟器如TACTO和Taxim也很受欢迎。最近的工作集中在降低成本[202]和集成到机器人手中[201][208][209]。多模态触觉传感器,受人类皮肤的启发,结合了压力、接近度、加速度和温度等多种模态信息,使用柔性材料和模块化设计。
2)数据集:非视觉传感器的数据集主要由BioTac系列收集[197],包含电极值、力量向量和接触位置。由于任务主要是力量和抓取细节的估计,数据集中的对象通常是力量和抓取样本。基于视觉的传感器,拥有高分辨率的变形凝胶图像,更侧重于更高的估计、纹理识别和操纵。数据集由Geisight传感器、DIGIT传感器及其模拟器收集[199][201][202][206],包括家庭对象、野外环境、不同材料和抓取项目。由于图像信息可以很容易地与其他模态(图像、语言、音频等)对齐和绑定[14][210],具身代理中的触觉感知主要围绕基于视觉的传感器。我们介绍了十个主要的触觉数据集,总结在表VIII中。
3)方法:触觉感知有众多应用,可以分为三类:估计、精确的机器人操纵和多模态识别任务。
b)机器人操纵:在触觉任务中,弥合仿真与现实之间的差距至关重要。提出了强化学习和基于GAN的方法来解决准确、及时的机器人操纵任务中的变异问题。
强化学习方法。Visuotactile-RL[242]为现有RL方法提出了几种方法,包括触觉门控、触觉数据增强和视觉退化。Rotateit[243]是一个系统,它利用多模态感官输入实现基于指尖的对象旋转,沿多个轴进行。它通过网络训练强化学习策略,使用特权信息,并启用在线推理。[244]提出了一种使用触觉感知进行目标推动的深度RL方法。它提出了一个目标条件公式,允许无模型和基于模型的RL获得推动对象到目标的准确策略。AnyRotate[245]专注于手内操纵。它是一个使用密集特征的触觉反馈进行重力不变多轴手内对象旋转的系统,在模拟中构建了连续的接触特征表示,以提供触觉反馈,用于训练策略,并引入了一种通过训练观察模型来执行零样本策略迁移的方法。
c)识别:触觉表示学习侧重于材料分类和多模态理解,可以分为两类:传统方法和大型语言模型(LLMs)及视觉-语言模型(VLMs)方法。
传统方法:为了增强触觉表示学习,采用了多种传统方法。自动编码器框架在开发紧凑的触觉数据表示方面发挥了重要作用。Polic等人[249]使用卷积神经网络自动编码器对基于光学的触觉传感器图像进行降维。Gao等人[250]创建了一个受监督的循环自动编码器来处理异构传感器数据集,而Cao等人[251]创建的TacMAE使用了一个掩蔽自动编码器来处理不完整的触觉数据。Zhang等人[252]引入了MAE4GM,这是一个整合视觉和触觉数据的多模态自动编码器。由于触觉作为其他模态的补充,联合训练方法被用来融合多个模态。Yuan等人[253]使用包括深度、视觉和触觉数据的模态训练CNN。同样,Lee等人[254]使用了变分贝叶斯方法来处理力传感器系列和末端执行器指标等模态。为了更好地学习表示,自监督方法如对比学习也是将模态结合在一起的关键技术。在对比方法的研究中,Lin等人[255]将触觉输入简单地与多个视觉输入配对,而Yang等人[256]采用了视觉触觉对比多视图特征。Kerr等人[215]使用了InfoNCE损失,Guzey等人[257]使用了BYOL。这些传统方法为触觉表示学习奠定了坚实的基础。
LLMs和VLMs方法:LLM和VLM最近表现出对跨模态交互的惊人理解,并展示了强大的零样本性能。最近的工作,如Yang等人[189]、Fu等人[218]和Yu等人[258],通过对比预训练方法对触觉数据进行编码和与视觉和语言模态对齐。然后,像LLaMA这样的大型模型将被应用,使用微调方法来适应触觉描述等任务。LLM和VLM技术的出现进一步推进了该领域,使得跨模态触觉表示更加全面和健壮。
4)困难:a)不同传感器类型的缺陷:传统传感器提供简单和低维数据,对多模态学习构成挑战。基于视觉的传感器和电子皮肤虽然高度准确,但成本昂贵。b)数据获取挑战:收集数据,特别是同时收集触觉和视觉数据,尽管在开发简化收集设备方面取得了一些进展,但仍然困难。c)标准不一致:触觉传感器以不一致的标准和原则运作,阻碍了大规模学习和限制了公共数据集的有用性。需要标准化和广泛的数据集。
V.具身交互
具身交互任务指的是智能体在物理或模拟空间中与人类和环境进行交互的场景。典型的具身交互任务包括具身问答(EQA)和具身抓取。
A.具身问答(EmbodiedQuestionAnswering)
1)数据集:在真实环境中进行机器人实验通常受到场景和机器人硬件的限制。作为虚拟实验平台,模拟器为构建具身问答数据集提供了合适的环境条件。在模拟器中创建的数据集上训练和测试模型显著降低了实验成本,并提高了在真实机器上部署模型的成功率。我们简要介绍了几个具身问答数据集,总结在表IX中。EQAv1[259]是为EQA设计的首个数据集。它建立在House3D[269]模拟器中基于SUNCG数据集[95]的合成3D室内场景上,包含四种类型的问题:位置、颜色、颜色房间和介词。它拥有超过5000个问题,分布在750多个环境中。这些问题是通过功能程序执行构建的,使用模板选择和组合基本操作。与EQAv1类似,MT-EQA[260]也是在House3D中使用SUNCG构建的,但它将单对象问答任务扩展到了多对象设置。设计了六种类型的问题,涉及多个对象之间的颜色、距离和大小比较。数据集包含588个环境中的19,287个问题。
2)方法:具身问题回答任务主要涉及导航和问题回答子任务,实现方法大致分为两类:基于神经网络的方法和基于大型语言模型(LLMs)/视觉-语言模型(VLMs)的方法。
LLMs/VLMs方法:近年来,LLMs和VLMs不断取得进展,并在各个领域展示了卓越的能力。因此,研究人员尝试将这些模型应用于解决具身问题回答任务,而无需任何额外的微调。
Majumdar等人[266]探索了使用LLMs和VLMs进行情景记忆EQA(EM-EQA)任务和活跃EQA(AEQA)任务。对于EM-EQA任务,他们考虑了盲目LLMs、具有情景记忆语言描述的苏格拉底LLMs、具有构建场景图描述的苏格拉底LLMs,以及处理多个场景帧的VLMs。AEQA任务扩展了EM-EQA方法,增加了基于前沿的探索(FBE)[277],用于问题无关的环境探索。一些其他工作[267],[278]也采用了基于前沿的探索方法来识别后续探索的区域,并构建语义地图。他们使用一致性预测或图像-文本匹配提前结束探索,以避免过度探索。Patel等人[279]强调了任务的问题回答方面。他们利用多个基于LLM的智能体探索环境,并使它们能够独立回答“是”或“否”的问题。这些个别回答被用来训练一个中央答案模型,负责聚合回答并生成健壮的答案。
3)指标:性能通常基于两个方面进行评估:导航和问题回答。在导航中,许多工作遵循了Das等人[259]介绍的方法,并使用指标如完成导航时到达目标对象的距离(dT)、从初始位置到最终位置目标距离的变化(d)以及在情节中的任何时候到达目标的最小距离(dmin)来评估模型的性能。它们在距离目标10、30或50个动作时进行测试。还有一些工作基于指标如轨迹长度、目标对象的交并比分数(IoU)等进行测量。对于问题回答,评估主要涉及答案列表中真实答案的平均排名(MR)和答案的准确性。最近,Majumdar等人[266]引入了基于LLM的聚合正确性指标(LLM-Match)的概念,以评估开放词汇答案的准确性。此外,他们通过将智能体路径的规范化长度作为权重纳入正确性指标,来评估效率。
A.具身多模态基础模型
具身智能体需要在视觉上识别其环境,通过听觉理解指令,并理解自身的状态,以实现复杂的交互和操作。这要求一个模型整合多种感官模态和自然语言处理能力,通过综合不同类型的数据来增强智能体的理解和决策。因此,出现了具身多模态基础模型。最近,GoogleDeepMind发现利用基础模型和大型、多样化的数据集是最佳策略。他们基于机器人变换器(RT)[11]开发了一系列工作,为未来具身智能体研究提供了重要见解。在基础机器人模型方面取得了显著进展,从最初的SayCan[299]开始,该模型使用三个独立的模型进行规划、可承受性和低级策略。Q-Transformer[300]后来统一了可承受性和低级策略,PaLM-E[301]集成了规划和可承受性。然后,RT-2[302]通过将所有三个功能整合到一个单一模型中,实现了突破,使联合扩展和正向迁移成为可能。这代表了机器人基础模型的显著进步。RT-2引入了视觉-语言-动作(VLA)模型,具有“思维链”推理能力,能够进行多步骤的语义推理,如在各种情境中选择替代工具或饮料。最终,RT-H[4]实现了具有动作层次结构的端到端机器人变换器,以细粒度推理任务规划。
为了解决具身模型的泛化限制,Google与33个领先的学术机构合作,创建了全面的开放X-Embodiment数据集[303],整合了22种不同的数据类型。使用这个数据集,他们训练了通用大型模型RT-X。这也促进了更多的开源VLMs参与机器人领域,如基于LLaVA的EmbodiedGPT[304]和基于FLAMINGO的RoboFlamingo[305]。尽管开放X-Embodiment提供了大量数据集,但考虑到具身机器人平台的快速发展,构建数据集仍然是一个挑战。为了解决这个问题,AutoRT[306]创建了一个系统,用于在新环境中部署机器人以收集训练数据,利用LLMs通过更全面和多样化的数据来增强学习能力。
B.具身任务规划
如前所述,对于任务“把苹果放在盘子上”,任务规划器将其分解为子任务“找到苹果,拿起苹果”和“找到盘子”、“放下苹果”。由于如何找到(导航任务)或拿起/放下动作(抓取任务)不在任务规划的范围之内。这些动作通常在模拟器中预定义或使用预训练策略模型在真实场景中执行,例如使用CLIPort[294]进行抓取任务。传统的具身任务规划方法通常基于显式规则和逻辑推理。例如,使用符号规划算法如STRIPS[310]和PDDL[311],以及搜索算法如MCTS[312]和A*[313]来生成计划。然而,这些方法通常依赖于预定义的规则、约束和启发式,这些规则是固定的,可能无法很好地适应环境的动态或不可预见的变化。随着LLMs的普及,许多工作尝试使用LLMs进行规划或将传统方法与LLMs结合,利用它们内部丰富的世界知识进行推理和规划,无需手工定义,大大增强了模型的泛化能力。
C.具身动作规划
第VI-B节讨论了任务规划和动作规划的定义和区别。显然,动作规划必须解决现实世界的不确定性,因为任务规划提供的子任务粒度不足以指导智能体在环境互动中。通常,智能体可以通过两种方式实现动作规划:1)使用预训练的具身感知和具身干预模型作为工具,通过API逐步完成任务规划指定的子任务,2)利用VLA模型的固有能力派生动作规划。此外,动作规划器的执行结果反馈给任务规划器以调整和改进任务规划。
VII.仿真到现实适应性(Sim-to-RealAdaptation)
在具身人工智能中,仿真到现实适应性指的是将学习能力或行为从模拟环境(网络空间)转移到现实世界场景(物理世界)的过程。它涉及验证和改进在模拟中开发的算法、模型和控制策略的有效性,以确保它们在物理环境中表现出鲁棒性和可靠性。为了实现仿真到现实适应性,具身世界模型、数据收集和训练方法以及具身控制算法是三个基本组成部分。
A.具身世界模型(EmbodiedWorldModel)
B.数据收集和训练(DataCollectionandTraining)
对于仿真到现实适应性,高质量数据非常重要。传统的数据收集方法涉及昂贵的设备、精确的操作,并且耗时、劳动密集,通常缺乏灵活性。最近,一些高效且成本效益高的方法被提出用于高质量演示数据收集和训练。本节将讨论真实世界和模拟环境中数据收集的各种方法。图16展示了真实世界和模拟环境中的演示数据。
C.具身控制(EmbodiedControl)
VIII.挑战和未来方向
持续学习:在机器人应用中,持续学习[390]对于在多样化环境中部署机器人学习策略至关重要,但目前这一领域尚未充分探索。尽管一些近期研究已经考察了持续学习的子主题——如增量学习、快速运动适应和人在环路学习——但这些解决方案通常为单一任务或平台设计,并未考虑基础模型。开放的研究问题和可行的方法包括:1)在微调最新数据时混合不同比例的先前数据分布,以减轻灾难性遗忘[391];2)开发从先前分布或课程中高效原型,用于学习新任务时的任务推理;3)提高在线学习算法的训练稳定性和样本效率;4)确定将大容量模型无缝整合到控制框架中的原则方法,可能是通过分层学习或慢速-快速控制,以实现实时推理。
统一评估基准:尽管存在许多评估低级控制策略的基准,但它们通常在评估的技能方面有显著差异。此外,这些基准中包含的对象和场景通常受到模拟器限制。为了全面评估具身模型,需要基准能够使用现实模拟器涵盖一系列多样化的技能。关于高级任务规划器,许多基准侧重于通过问答任务评估规划能力。然而,更理想的方法包括评估高级任务规划器和低级控制策略一起执行长期任务,并测量成功率,而不是仅依赖于规划器的孤立评估。这种综合方法为评估具身AI系统的能力提供了更全面的视角。
IX.结论
具身AI允许智能体感知、感知并通过网络空间和物理世界与各种对象互动,这对其实现通用人工智能(AGI)至关重要。本调查广泛回顾了具身机器人、模拟器、四个代表性的具身任务:视觉主动感知、具身交互、具身智能体和仿真到现实机器人控制,以及未来的研究方向。对具身机器人、模拟器、数据集和方法的比较总结为最近在具身AI领域的发展提供了清晰的图景,这将极大地有利于未来沿着这一新兴且有前景的研究方向进行的研究。