多模态交互智能体(Agent)全面综述:定义范式学习系统分类应用评估

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2024.07.21江苏

多模态AI系统很可能会成为我们日常生活中无处不在的存在。使这些系统更具交互性的一种有希望的方法是将它们作为物理和虚拟环境中的智能体。目前,系统利用现有的基础模型作为创建具身智能体的基本构建块。将智能体嵌入这些环境中,有助于模型处理和解释视觉和上下文数据,这对于创建更复杂和上下文感知的AI系统至关重要。例如,一个能够感知用户行为、人类行为、环境对象、音频表达和场景集体情感的系统,可以用来通知和指导给定环境中智能体的响应。为了加速基于智能体的多模态智能研究,我们定义“智能体AI”为一类交互系统,能够感知视觉刺激、语言输入和其他环境基础数据,并能够产生有意义的具身行动。特别是,我们探索了旨在通过整合外部知识、多感官输入和人类反馈来改进基于下一个具身行动预测的智能体的系统。我们认为,通过在基础环境中开发智能体AI系统,还可以减少大型基础模型的幻觉及其产生环境不正确输出的倾向。新兴的智能体AI领域包括了多模态交互的更广泛的具身和智能体方面。超越智能体在物理世界中的行动和交互,我们设想一个未来,人们可以轻松创建任何虚拟现实或模拟场景,并与其中的具身智能体进行交互。

我们翻译解读最新论文:AIAgent探索多模态交互的前景,文末有论文链接。作者:张长旺,图源:旺知识

1引言

1.1动机

历史上,AI系统在1956年达特茅斯会议上被定义为能够从环境中收集信息并以有用的方式与之交互的人工生命形式。受到这个定义的启发,Minsky的MIT团队在1970年构建了一个名为“CopyDemo”的机器人系统,该系统观察“积木世界”场景并成功重建了观察到的多面体积木结构。该系统包括观察、规划和操纵模块,揭示了这些子问题每个都非常具有挑战性,需要进一步的研究。AI领域分裂成专业化的子领域,在解决这些和其他问题方面取得了巨大进展,但过度的还原主义模糊了AI研究的总体目标。

为了超越现状,有必要回归到受亚里士多德整体论启发的AI基础。幸运的是,最近在大型语言模型(LLMs)和视觉语言模型(VLMs)方面的革命使得创建符合整体理念的新型AI智能体成为可能。抓住这个机会,本文探讨了集成语言熟练度、视觉认知、上下文记忆、直观推理和适应性的模型。在我们探索的过程中,我们还重新审视了基于亚里士多德终极原因的系统设计,即系统的“目的”,这可能在之前的AI发展中被忽视了。

随着强大的预训练LLMs和VLMs的出现,自然语言处理和计算机视觉领域迎来了复兴。LLMs现在展示了令人印象深刻的解读现实世界语言数据细微差别的能力,通常达到了与人类专业知识平行甚至超越的能力(OpenAI,2023)。最近,研究人员已经表明,LLMs可以扩展为在各种环境中作为智能体行动,执行复杂的动作和任务,当它们与特定领域的知识和模块配对时(Xi等人,2023)。这些场景以复杂的推理、对智能体角色及其环境的理解以及多步骤规划为特征,测试了智能体在环境约束内做出高度微妙和复杂决策的能力(Wu等人,2023;Meta基础AI研究(FAIR)外交团队等人,2022)。

在这些初步努力的基础上,AI社区正处于一个重要的范式转变的边缘,从创建被动、结构化任务的AI模型转变为能够在多样化和复杂环境中承担动态、智能体角色的模型。在这种情况下,本文调查了使用LLMs和VLMs作为智能体的巨大潜力,强调了具有语言熟练度、视觉认知、上下文记忆、直观推理和适应性混合的模型。利用LLMs和VLMs作为智能体,特别是在游戏、机器人技术和医疗保健等领域,不仅为最新AI系统提供了严格的评估平台,而且还预示着以智能体为中心的AI将对社会和产业产生的变革性影响。当这些智能体模型被充分利用时,可以重新定义人类体验并提升运营标准。由这些模型引入的广泛自动化预示着产业和社会经济动态的重大转变。这些进步将与多方面的领导者板块交织在一起,不仅是技术层面的,还有伦理层面的,正如我们将在第11节中详细讨论的。我们探讨了智能体AI的这些子领域的重叠区域,并在图1中说明了它们的相互联系。

1.2背景

大型基础模型:LLMs和VLMs一直在推动开发通用智能机器(Bubeck等人,2023;Mirchandani等人,2023)的努力。尽管它们是使用大型文本语料库进行训练的,但它们卓越的问题解决能力并不局限于规范的语言处理领域。LLMs可能解决以前被认为是专属于人类专家或特定领域算法处理的复杂任务,范围从数学推理(Imani等人,2023;Wei等人,2022;Zhu等人,2022)到回答专业法律问题(Blair-Stanek等人,2023;Choi等人,2023;Nay,2022)。最近的研究显示,使用LLMs为机器人和游戏AI生成复杂计划的可能性(Liang等人,2022;Wang等人,2023a,b;Yao等人,2023a;Huang等人,2023a),标志着LLMs作为通用智能代理的重要里程碑。

具身AI一些工作利用LLMs执行任务规划(Huang等人,2022a;Wang等人,2023b;Yao等人,2023a;Li等人,2023a),特别是LLMs的全球规模领域知识和出现零样本具身能力,执行复杂的任务规划和推理。最近机器人研究也利用LLMs执行任务规划(Ahn等人,2022a;Huang等人,2022b;Liang等人,2022),通过将自然语言指令分解为子任务序列,无论是以自然语言形式还是Python代码形式,然后使用低级控制器执行这些子任务。此外,它们结合环境反馈来提高任务性能(Huang等人,2022b),(Liang等人,2022),(Wang等人,2023a),和(Ikeuchi等人,2023)。

1.3概述

多模态智能体AI(MAA)是一类系统,它们基于对多模态感官输入的理解,在特定环境中生成有效动作。随着大型语言模型(LLMs)和视觉语言模型(VLMs)的出现,提出了许多MAA系统,涵盖从基础研究到应用的各个领域。虽然这些研究领域通过与各自领域的传统技术(例如,视觉问答和视觉语言导航)整合而迅速发展,但它们共享共同的兴趣,如数据收集、基准测试和伦理观点。在本文中,我们专注于MAA的一些代表性研究领域,即多模态性、游戏(VR/AR/MR)、机器人技术和医疗保健,我们旨在提供这些领域中讨论的共同问题的综合知识。因此,我们期望学习MAA的基础知识并深入了解以进一步推进它们的研究。具体的学习成果包括:

基于计算机的行动和通用智能体(GAs)对许多任务都很有用。为了让GA真正对用户有价值,它可以自然地与之交互,并泛化到广泛的上下文和模态。我们的目标是培养一个充满活力的研究生态系统,并在智能体AI社区中创建共享的身份和目标感。MAA有可能在包括来自人类的输入在内的各种上下文和模态中得到广泛应用。因此,我们相信这个智能体AI领域可以吸引不同领域的研究人员,促进一个充满活力的智能体AI社区和共享目标。

由学术界和工业界的杰出专家领导,我们期望本文成为一个互动和丰富的体验,包括智能体指令、案例研究、任务会议和实验讨论,确保为所有研究人员提供全面和引人入胜的学习体验。

2智能体AI整合

2.1无限智能体

AI智能体有能力根据其训练和输入数据进行解释、预测和响应。虽然这些能力先进且持续改进,但重要的是要认识到它们的局限性以及它们所训练的基础数据的影响。AI智能体系统通常具备以下能力:1)预测建模:AI智能体可以根据历史数据和趋势预测可能的结果或建议下一步行动。例如,它们可能预测文本的延续、问题的答案、机器人的下一个动作或场景的解决。2)决策制定:在某些应用中,AI智能体可以基于其推断做出决策。通常,智能体会根据最有可能实现指定目标的方案来做出决策。对于像推荐系统这样的AI应用,智能体可以根据其对用户偏好的推断决定推荐哪些产品或内容。3)处理歧义:AI智能体通常可以通过根据上下文和训练推断最可能的解释来处理歧义输入。然而,它们这样做的能力受到其训练数据和算法范围的限制。4)持续改进:虽然一些AI智能体能够从新数据和交互中学习,但许多大型语言模型在训练后不会持续更新它们的知识库或内部表示。它们的推断通常仅基于它们上次训练更新时可用的数据。

我们在图2中展示了增强的交互智能体,用于多模态和跨现实不可知的整合,具有紧急机制。一个AI智能体需要为每个新任务收集广泛的训练数据,这在许多领域可能代价昂贵或不可能。在这项研究中,我们开发了一个无限智能体,它学习将记忆信息从一般基础模型(例如,GPT-X,DALL-E)转移到新领域或场景中,用于场景理解、生成和物理或虚拟世界中的交互编辑。

这种无限智能体在机器人技术中的应用是RoboGen(Wang等人,2023d)。在这项研究中,作者提出了一个自动运行任务提议、环境生成和技能学习周期的管道。RoboGen是将大型模型中嵌入的知识转移到机器人技术的努力。

2.2带有大型基础模型的智能体AI

最近研究表明,大型基础模型在创建作为智能体在环境强加约束中行动的基准数据方面发挥着至关重要的作用。例如,使用基础模型进行机器人操纵(Black等人,2023;Ko等人,2023)和导航(Shah等人,2023a;Zhou等人,2023a)。例如,Black等人使用图像编辑模型作为高级规划器,生成未来子目标的图像,从而引导低级策略(Black等人,2023)。对于机器人导航,Shah等人提出了一个系统,该系统使用LLM从文本中识别地标,并使用VLM将这些地标与视觉输入关联起来,通过自然语言指令增强导航(Shah等人,2023a)。

对响应语言和环境因素的条件人类运动的生成也越来越感兴趣。一些AI系统已被提出,以生成根据特定语言指令(Kim等人,2023;Zhang等人,2022;Tevet等人,2022)量身定制的运动和动作,并适应各种3D场景(Wang等人,2022a)。这一研究强调了生成模型在增强AI智能体在多样化场景中的适应性和响应性方面的不断增强的能力。

2.2.1幻觉

生成文本的智能体通常容易出现幻觉,即生成的文本无意义或与提供源内容不符的情况(Raunak等人,2021;Maynez等人,2020)。幻觉可以分为两类,内在和外在(Ji等人,2023)。内在幻觉是与源材料相矛盾的幻觉,而外在幻觉是生成的文本包含源材料中未包含的额外信息。

一些有希望的减少语言生成中幻觉率的方法包括使用增强检索生成(Lewis等人,2020;Shuster等人,2021)或其他通过外部知识检索来增强自然语言输出的方法(Dziri等人,2021;Peng等人,2023)。一般来说,这些方法通过检索额外的源材料并提供检查生成响应与源材料之间矛盾的机制来增强语言生成。

在多模态智能体系统的背景下,VLMs也被证明会出现幻觉(Zhou等人,2023b)。基于视觉的语言生成出现幻觉的一个常见原因是过度依赖训练数据中对象和视觉线索的共现。完全依赖预训练的LLMs或VLMs并使用有限的环境特定微调的AI智能体可能特别容易受到幻觉的影响,因为它们依赖于预训练模型的内部知识库来生成动作,并且可能无法准确理解它们部署的世界状态的动态。

2.2.2偏见和包容性

尽管有这些措施,AI智能体仍然表现出偏见。智能体AI研究和开发中的持续努力集中在进一步减少这些偏见,并增强智能体AI系统的包容性和公平性。减轻偏见的努力:

2.2.3数据隐私和使用

AI智能体的一个关键伦理考虑涉及理解这些系统如何处理、存储和可能检索用户数据。我们讨论以下关键方面:

数据收集、使用和目的。当使用用户数据来提高模型性能时,模型开发人员可以访问AI智能体在生产中与用户交互时收集的数据。一些系统允许用户通过用户帐户或向服务提供商提出请求来查看他们的数据。了解AI智能体在这些交互期间收集了哪些数据非常重要。这可能包括文本输入、用户使用模式、个人偏好,有时还包括更敏感的个人信息。用户还应该了解从他们交互中收集的数据的使用方式。如果AI对某个人或群体持有错误的信息,一旦识别出来,应该有机制让用户帮助更正。这对于准确性和尊重所有用户和群体都很重要。检索和分析用户数据的常见用途包括改善用户交互、个性化响应和系统优化。对于开发人员来说,非常重要的是确保数据不被用于用户未同意的目的,如未经请求的营销。

数据可携带性和隐私政策。此外,开发人员必须创建AI智能体的隐私政策,以记录并向用户解释如何处理他们的数据。这应该详细说明数据收集、使用、存储和用户权利。开发人员应确保在收集数据时获得用户同意,特别是对于敏感信息。用户通常有选择退出或限制他们提供的数据的选项。在某些司法管辖区,用户甚至可能有权要求以可以转移到另一个服务提供商的格式获取他们的数据副本。

总结,理解AI智能体的数据隐私涉及了解用户数据如何被收集、使用、存储和保护,并确保用户了解他们关于访问、更正和删除其数据的权利。了解用户和AI智能体的数据检索机制对于全面理解数据隐私也至关重要。

2.2.4可解释性和解释性

模仿学习→解耦。智能体通常使用强化学习(RL)或模仿学习(IL)中的连续反馈循环进行训练,从随机初始化的策略开始。然而,这种方法在获得不熟悉环境中的初始奖励方面面临挑战,特别是当奖励稀缺或仅在长步交互结束时可用时。因此,一个更优的解决方案是使用通过IL训练的无限记忆智能体,它可以从专家数据中学习策略,通过紧急基础设施改善探索和利用未见环境空间,如图3所示。具有帮助智能体更好地探索和利用未见环境空间的专家特征。智能体AI,可以直接从专家数据中学习策略和新的范式流程。

传统的IL有一个智能体模仿专家演示者的行为来学习策略。然而,直接学习专家策略并不总是最佳方法,因为智能体可能无法很好地泛化到未见情况。为了解决这个问题,我们提出学习一个具有上下文提示或隐式奖励函数的智能体,以捕获专家行为的关键方面,如图3所示。这为具有无限记忆的智能体配备了物理世界行为数据,用于任务执行,从专家演示中学习。它有助于克服现有模仿学习的缺点,如需要大量的专家数据和在复杂任务中潜在的错误。智能体AI的关键思想有两个部分:1)收集物理世界专家演示作为状态-动作对的无限智能体;2)模仿智能体生成器的虚拟环境。模仿智能体产生模仿专家行为的动作,而智能体通过减少专家动作与通过学习策略生成的动作之间的差异的损失函数来学习从状态到动作的策略映射。

泛化→紧急行为。泛化解释了如何从更简单的组件或规则中产生紧急属性或行为。关键思想在于识别支配系统行为的基本元素或规则,例如单个神经元或基本算法。因此,通过观察这些简单组件或规则如何相互作用。这些组件的相互作用通常会导致复杂行为的出现,这些行为通过检查单个组件本身是无法预测的。在不同复杂性水平上的泛化允许系统学习适用于这些水平的一般原则,导致紧急属性的出现。这使系统能够适应新情况,展示从更简单规则中出现的更复杂行为的紧急性。此外,跨不同复杂性水平的泛化能力有助于从一个领域向另一个领域转移知识,这有助于在新环境中适应时,在新情境中出现复杂行为。

2.2.5推理增强

算法增强。改进AI的基础算法以进行更好的推理。这可能涉及使用更先进的机器学习模型,整合不同类型的AI(如将NLP与图像识别结合起来),或更新算法以更好地处理复杂任务。在语言模型中的推理涉及理解和生成人类语言。这包括把握细微差别,如语气、意图和不同语言结构的微妙之处。

人类参与(HITL)。在需要人类判断的领域,如伦理考虑、创意任务或模糊场景中,引入人类输入以增强AI的推理可能特别有用。人类可以提供指导、纠正错误或提供智能体本身无法推断的见解。

实时反馈整合。使用来自用户或环境的实时反馈来增强推理是提高性能的另一种有前途的方法。例如,AI可以根据实时用户响应或动态系统中的变化条件调整其建议。或者,如果智能体在模拟环境中采取的行动违反了某些规则,智能体可以动态地获得反馈,以帮助纠正自己。

跨领域知识转移。利用一个领域的知识或模型来改善另一个领域的推理可能特别有助于在专业学科内产生输出。例如,为语言翻译开发技术可能被应用于代码生成,或从医学诊断中获得的见解可以增强机械的预测性维护。

针对特定用例的定制。针对特定应用程序或行业的AI推理能力的定制可能涉及在特定领域数据上训练AI或微调其模型,以更好地适应特定任务,如法律分析、医学诊断或金融预测。由于一个领域内的语言或信息可能与另一个领域大不相同,因此在特定领域的信息上微调智能体可能是有益的。

持续学习和适应。定期更新和完善AI的能力,以跟上新的发展、不断变化的数据格局和不断演变的用户需求。

总结,AI智能体中的推理增强涉及通过额外的数据、改进的算法、人类输入和其他技术来增强它们的自然推理能力的方法。根据用例,这种增强通常对于处理复杂任务和确保智能体输出的准确性至关重要。

2.2.6监管

最近,智能体AI取得了显著进展,其在具身系统中的整合为通过更沉浸式、动态和引人入胜的体验与智能体交互开辟了新的可能性。为了加速这一进程并减轻智能体AI开发中的繁琐工作,我们提议开发下一代AI赋能的智能体交互管道。开发一个人机协作系统,人类和机器可以在其中进行有意义地通信和交互。该系统可以利用LLM或VLM的对话能力,与人类玩家进行交流,并识别人类需求。然后,它将根据请求执行适当的行动来帮助人类玩家。

2.3智能体AI用于紧急能力

3智能体AI范式

在本节中,我们讨论了智能体AI训练的新范式和框架。我们希望通过我们提出的框架实现几个目标:

我们在图5中展示了这样一个系统的高级新智能体图,概述了这样一个系统的重要子模块。

3.1LLMs和VLMs

我们可以使用LLM或VLM模型来引导智能体的组件,如图5所示。特别是,LLMs已被证明在任务规划(Gong等人,2023a)、包含重要的世界知识(Yu等人,2023b)以及展示令人印象深刻的逻辑推理能力(Creswell等人,2022)方面表现良好。此外,像CLIP这样的VLMs(Radford等人,2021)提供了一个与语言对齐的通用视觉编码器,以及零样本视觉识别能力。例如,最先进的开源多模态模型,如LLaVA(Liu等人,2023c)和InstructBLIP(Dai等人,2023),依赖于冻结的CLIP模型作为视觉编码器。

3.2智能体变换器定义

与其使用冻结的LLMs和VLMs作为AI智能体,也可以使用单一的智能体变换器模型,该模型以视觉标记和语言标记作为输入,类似于Gato(Reed等人,2022)。除了视觉和语言,我们增加了第三种一般类型的输入,我们称之为智能体标记。从概念上讲,智能体标记用于保留模型输入和输出空间的特定子空间,用于智能体行为。对于机器人技术或游戏玩法,这可能表示控制器的输入动作空间。当训练智能体使用特定工具,如图像生成或图像编辑模型,或进行其他API调用时,也可以使用智能体标记。如图7所示,我们可以将智能体标记与视觉和语言标记结合起来,为训练多模态智能体AI生成统一接口。与使用大型专有LLMs作为智能体相比,使用智能体变换器有几个优点。首先,该模型可以轻松定制以适应可能难以用自然语言表示的特定智能体任务(例如控制器输入或其他特定动作)。因此,智能体可以从环境交互和领域特定数据中学习,以提高性能。其次,通过访问智能体标记的概率,可以更容易地理解模型为何采取或不采取特定行动。第三,某些领域,如医疗保健和法律,有严格的数据隐私要求。最后,一个相对较小的智能体变换器可能显著便宜于一个更大的专有语言模型。

3.3智能体变换器创建

如上文图5所示,我们可以使用LLM和VLM引导的智能体,以及利用大型基础模型生成的数据来训练智能体变换器模型,学习执行特定目标。在这个过程中,智能体模型被训练为专门针对特定任务和领域的定制。这种方法允许您利用现有的基础模型学习到的特征和知识。我们在下面两步中展示了这个过程的简化概述:

在领域内定义目标。为了训练智能体变换器,需要明确定义智能体在每个特定环境的上下文中的目标和动作空间。这包括确定智能体需要执行哪些特定任务或动作,并为每个分配唯一的智能体标记。此外,任何可以用于识别任务成功完成的自动规则或程序都可以显著提高可用于训练的数据量。否则,将需要基础模型生成或人工注释的数据来训练模型。

4智能体AI学习

4.1策略和机制

4.1.1强化学习(RL)

有着丰富的利用强化学习(RL)训练交互式智能体展现智能行为的历史。RL是一种基于奖励(或惩罚)学习状态和动作之间最佳关系的方法。RL是一个高度可扩展的框架,已应用于众多应用,包括机器人技术,但它通常面临几个挑战,LLM/VLMs已显示出它们缓解或克服其中一些困难的潜力:

4.1.2模仿学习(IL)

虽然RL旨在通过探索性行为和通过与环境的交互最大化奖励来训练策略,但模仿学习(IL)寻求利用专家数据来模仿经验丰富的智能体或专家的行动。例如,在机器人技术中,基于IL的主要框架之一是行为克隆(BC)。BC是一种通过直接复制来训练机器人模仿专家行动的方法。在这种方法中,记录了专家在执行特定任务中的行动,机器人被训练在类似情况下复制这些行动。基于BC的方法经常结合LLM/VLMs技术,实现了更高级的端到端模型。例如,Brohan等人提出了RT-1(Brohan等人,2022)和RT-2(Brohan等人,2023),基于变换器的模型,它们以一系列图像和语言作为输入,输出基础和手臂的动作序列。这些模型被报告显示出高泛化性能,这是由于在大量训练数据上训练的结果。

4.1.3传统RGB

利用图像输入学习智能体行为多年来一直是一个感兴趣的领域(Mnih等人,2015)。使用RGB输入的固有挑战是维度的诅咒。为了解决这个问题,研究人员要么使用更多的数据(Jang等人,2022;Ha等人,2023),要么在模型设计中引入归纳偏差以提高样本效率。特别是,作者将3D结构纳入模型架构以进行操作(Zeng等人,2021;Shridhar等人,2023;Goyal等人,2023;James和Davison,2022)。对于机器人导航,作者(Chaplot等人,2020a,b)利用地图作为表示。地图可以是通过聚合所有先前RGB输入的神经网络学习得到的,也可以通过3D重建方法如神经辐射场(Rosinol等人,2022)获得。

为了获得更多的数据,研究人员使用图形模拟器合成合成数据(Mu等人,2021;Gong等人,2023b),并尝试缩小仿真到现实的差距(Tobin等人,2017;Sadeghi和Levine,2016;Peng等人,2018)。最近,有一些集体努力策划大规模数据集,旨在解决数据稀缺问题(Padalkar等人,2023;Brohan等人,2023)。另一方面,为了提高样本复杂性,数据增强技术也得到了广泛的研究(Zeng等人,2021;Rao等人,2020;Haarnoja等人,2023;Lifshitz等人,2023)。

4.1.4上下文学习

上下文学习被证明是一种有效的方法,可以在NLP中解决任务,这得益于像GPT-3这样的大型语言模型的出现(Brown等人,2020;Min等人,2022)。少数示例提示被视为通过在LLM提示中提供任务示例来有效地使模型输出上下文化,用于NLP中的各种任务。上下文示例的多样性和质量可能会提高模型输出的质量(An等人,2023;Dong等人,2022)。在多模态基础模型的背景下,像Flamingo和BLIP-2这样的模型(Alayrac等人,2022;Li等人,2023c)在只给出少量示例的情况下,已被证明在各种视觉理解任务中有效。通过在环境中整合特定于环境的反馈,可以进一步改进智能体在环境中的上下文学习,以响应某些行动(Gong等人,2023a)。

4.1.5智能体系统中的优化

4.2智能体系统(零样本和少样本水平)

4.2.1智能体模块

我们对智能体范式的探索包括使用LLMs或VLMs开发交互式多模态智能体的智能体AI“模块”。我们的初始智能体模块促进训练或上下文学习,并采用简约设计,以展示智能体在调度和协调方面的有效能力。我们还探索了初始基于提示的内存技术,以促进更好的规划,并在领域内提供对未来行动的方法。例如,我们的“MindAgent”基础设施由5个主要模块组成:1)环境感知与任务规划,2)智能体学习,3)内存,4)通用智能体动作预测,5)认知,如图5所示。

4.2.2智能体基础设施

4.3智能体基础模型(预训练和微调水平)

使用预训练的基础模型提供了显著的优势,因为它们在各种用例中具有广泛的适用性。这些模型的整合使得能够为各种应用程序开发定制解决方案,避免了为每个特定任务进行广泛的标记数据集的需求。

在导航领域,一个著名的例子是LM-Nav系统(Shah等人,2023a),它以新颖的方式整合了GPT-3和CLIP。它有效地使用由语言模型生成的文本地标,将它们锚定在机器人获取的图像中进行导航。这种方法展示了文本和视觉数据的无缝融合,显著增强了机器人导航的能力,同时保持了广泛的适用性。

在机器人操作方面,一些研究提出了使用现成的LLMs(例如,ChatGPT)同时使用开放词汇表对象检测器。结合LLM和高级对象检测器(例如,Detic(Zhou等人,2022))可以促进对人类指令的理解,同时将文本信息与场景信息结合(Parakh等人,2023)。此外,最新的进展展示了使用提示工程与高级多模态模型(如GPT-4V(ision))(Wake等人,2023b)的潜力。这种技术为多模态任务规划开辟了途径,强调了预训练模型在各种环境中的多功能性和适应性。

5智能体AI分类

5.1通用智能体领域

多模态智能体AI(MMA)是我们的研究和行业社区与更广泛的研究和技术社区在智能体AI中进行互动的新论坛。在大型基础模型和交互式AI领域的最新进展,为通用智能体(GAs)提供了新功能,例如在受限环境中预测用户行为和任务规划(例如,MindAgent(Gong等人,2023a)、细粒度多模态视频理解(Luo等人,2022)、机器人技术(Ahn等人,2022b;Brohan等人,2023)),或为用户提供聊天伴侣,该伴侣结合了知识反馈(例如,医疗系统的网站客户支持(Peng等人,2023))。下面展示了代表性作品和最新代表性作品的更多细节。我们希望讨论我们对未来MMA的愿景,并激励未来的研究人员在这个领域工作。本文和我们的论坛涵盖了以下主要主题,但不限于这些:

接下来,我们列出了代表性智能体类别的特定列表,如下所示:

5.2具身智能体

我们的生物大脑存在于身体中,我们的身体在不断变化的世界中移动。具身人工智能的目标是创建智能体,如机器人,它们学习创造性地解决需要与环境交互的具有挑战性的任务。虽然这是一个重大挑战,但深度学习和大量数据集(如ImageNet)的日益可用性使AI在以前认为棘手的各种任务上表现出超人的性能。计算机视觉、语音识别和自然语言处理在被动输入输出任务(如语言翻译和图像分类)上经历了变革性的革命,强化学习也在交互任务(如游戏玩法)上取得了世界级的性能。这些进步加速了具身AI的发展,使越来越多的用户能够快速取得进展,朝着能够与机器交互的智能体发展。

5.2.1行动智能体

行动智能体指的是需要在模拟物理环境或现实世界中执行物理动作的智能体。特别是,它们需要积极参与与环境的活动。我们根据应用领域将行动智能体广泛分类为两类:游戏AI和机器人技术。

在游戏AI中,智能体会与游戏环境和其他独立实体进行交互。在这些设置中,自然语言可以促进智能体和人类之间的顺畅沟通。根据游戏的不同,可能有一个特定的任务要完成,提供了一个真正的奖励信号。例如,在竞争性的外交游戏中,使用人类对话数据训练语言模型以及使用RL的动作策略可以实现人类级别的游戏(Meta基础AI研究(FAIR)外交团队等人,2022)。

还有一些设置,我们智能体作为城镇中的普通居民(Park等人,2023a),而不是试图优化特定目标。在这些设置中,基础模型是有用的,因为它们可以通过模仿人类行为来模拟更自然的交互。当结合外部记忆时,它们产生了令人信服的智能体,可以进行对话、日常安排、建立关系,并拥有虚拟生活。

5.2.2交互智能体

交互智能体简单地指可以与世界交互的智能体,这是比行动智能体更广泛的智能体类别。它们的交互形式并不一定需要物理动作,但可能涉及向用户传达信息或修改环境。例如,具身交互智能体可以通过对话回答用户关于某个主题的问题,或帮助用户解析现有信息,类似于聊天机器人。通过将智能体的能力扩展到包括信息共享,智能体AI的核心设计和算法可以有效地适应一系列应用程序,如诊断(Lee等人,2023)和知识检索(Peng等人,2023)智能体。

5.3模拟和环境智能体

通过与环境的交互进行试错体验,是AI智能体学习如何在环境中行动的有效方法。代表性的方法是RL,它需要大量的失败经验来训练智能体。尽管存在使用物理智能体的方法(Kalashnikov等人,2018),但使用物理智能体既耗时又昂贵。此外,在物理环境中训练通常是可行的,当在实际环境中失败可能是危险的(例如,自动驾驶、水下车辆)。因此,使用模拟器来学习策略是一种常见的方法。

已经提出了许多模拟平台,用于具身AI研究,从导航(Tsoi等人,2022;Deitke等人,2020;Kolve等人,2017)到对象操纵(Wang等人,2023d;Mees等人,2022;Yang等人,2023a;Ehsani等人,2021)。一个例子是Habitat(Savva等人,2019;Szot等人,2021),它提供了一个3D室内环境,人类和机器人智能体可以在其中执行各种任务,如导航、指令跟随和问题回答。另一个代表性的模拟平台是VirtualHome(Puig等人,2018),支持3D室内环境中人类化身的对象操纵。在游戏领域,Carroll等人引入了“Overcooked-AI”,这是一个基准环境,旨在研究人类和AI之间的合作任务(Carroll等人,2019)。同样,一些工作旨在纳入智能体和环境交互之外的真实人类干预(Puig等人,2023;Li等人,2021a;Srivastava等人,2022)。这些模拟器有助于在实际环境中涉及智能体和机器人交互的策略学习,以及利用人类演示行为的基于IL的策略学习。

在某些场景中,学习策略的过程可能需要在模拟器中整合专业功能。例如,在学习基于图像的策略时,通常需要现实感渲染,以促进适应真实环境(Mittal等人,2023;Zhong等人,2023)。使用现实感渲染引擎对于生成反映各种条件的图像非常有效,如光照环境。此外,需要物理引擎的模拟器来模拟与对象的物理交互(Liu和Negru,2021)。将物理引擎整合到模拟中已被证明有助于获得适用于现实世界场景的技能(Saito等人,2023)。

5.4生成智能体

这个智能体的目标不仅仅是向场景中添加交互式3D内容,还包括:

短期内的一个潜在应用是VR创建一个故事板/原型工具,允许单个用户比目前可行的方式快一个数量级地创建一个粗糙(但功能齐全)的体验/游戏的草图。然后,这个原型可以利用这些工具进行扩展和改进,使其更加完善。

5.4.1AR/VR/混合现实智能体

AR/VR/混合现实(统称为XR)设置目前需要熟练的艺术家和动画师来创建角色、环境和对象,用于模拟虚拟世界中的交互。这是一个耗资巨大的过程,涉及概念艺术、3D建模、纹理、绑定和动画。XR智能体可以通过促进创作者之间的交互和构建工具来帮助构建最终的虚拟环境。

我们早期的实验已经展示了GPT模型可以在Unity引擎内(无需额外微调)在少数示例的情况下用于调用引擎特定方法,使用API调用从互联网下载3D模型并将它们放置到场景中,并为它们分配行为状态树和动画(Huang等人,2023a)。这种行为可能源于使用Unity的开源游戏存储库中存在的类似代码。因此,GPT模型能够根据简单的用户提示在场景中加载许多对象,构建丰富的视觉场景。

这类智能体的目标是构建一个平台和一套工具,提供大型AI模型(包括GPT家族模型以及扩散图像模型)与渲染引擎之间的高效接口。我们在这里探索两个主要途径:

引入一个专注于XR设置的AI协作伙伴将对XR创作者有用,他们可以使用协作伙伴完成繁琐的任务,如提供简单的资产或编写代码样板,让创作者专注于他们的创意愿景并快速迭代想法。

5.5知识和逻辑推理智能体

推理和应用知识的能力是人类认知的一个定义特征,特别是在逻辑演绎和理解心理理论等复杂任务中尤为明显。对知识进行推理确保AI的响应和行动与已知事实和逻辑原则一致。这种一致性是维护AI系统信任和可靠性的关键机制,特别是在医疗诊断或法律分析等关键应用中。在这里,我们介绍了结合知识和推理的智能体,它们解决了智能和推理的具体方面。

5.5.1知识智能体

知识智能体以两种方式推理其获得的知识系统:隐式和显式。隐式知识通常是像GPT系列这样的大型语言模型在大量文本数据上训练后所包含的,这些模型可以生成给人留下理解印象的响应,因为它们利用了在训练过程中隐式学习到的模式和信息。相反,显式知识是结构化的,并且可以直接查询,例如在知识库或数据库中找到的信息,这传统上被用来通过引用可验证的外部资源来增强AI推理能力。

尽管语言模型取得了进步,但它们的隐式知识是静态的,随着世界的发展而变得过时(Lewis等人,2020;Peng等人,2023)。这种限制需要整合持续更新的显式知识源,确保AI系统能够提供准确和及时的响应。隐式和显式知识的融合为AI智能体提供了更细微的理解和按上下文应用知识的能力,类似于人类智能(Gao等人,2022)。这种整合对于打造知识中心的AI智能体至关重要,它们不仅拥有信息,而且能够理解、解释和运用它,从而缩小了广泛学习和深刻知识之间的鸿沟(Marcus和Davis,2019;Gao等人,2020)。这些智能体旨在以灵活性和关于世界的动态信息进行推理,增强它们的鲁棒性和适应性(Marcus,2020)。

5.5.2逻辑智能体

通常,逻辑智能体是一个系统组件,旨在应用逻辑推理来处理数据或解决特定于逻辑推理或逻辑任务的任务。在大型基础模型如GPT-4的背景下,逻辑智能体指的是专门设计来处理逻辑推理任务的组件或子模块。这些任务通常涉及理解和操作抽象概念、从给定前提中推导结论或解决需要结构化、逻辑方法的问题。广义上,像GPT-4这样的基础模型是在大量文本数据上训练的,并且学习执行广泛的任务,包括需要某种形式的逻辑推理的任务。因此,它们的逻辑推理能力被整合到整体架构中,它们通常没有明显孤立的“逻辑智能体”。虽然GPT-4和类似的模型可以执行涉及逻辑的任务,但它们的方法基本上与人类或传统基于逻辑的系统的运作方式不同。它们不遵循正式的逻辑规则或对逻辑有明确的理解;相反,它们基于从训练数据中学到的模式生成响应。因此,它们在逻辑任务中的表现可能是令人印象深刻的,但也可能是不一致的,或受到训练数据的性质和模型设计固有限制的限制。将单独的逻辑子模块嵌入架构的一个例子是(Wang等人,2023e),它通过解析文本为逻辑片段,并在标记嵌入中显式建模逻辑层次,修改了LLMs在预训练中使用的标记嵌入过程。

5.5.3情感推理智能体

5.5.4神经符号智能体

神经符号智能体在神经元和符号的混合系统上运作(d'AvilaGarcez和Lamb,2020)。解决自然语言中陈述的问题是一个挑战,因为它需要显式捕获输入中隐含的离散符号结构信息。然而,大多数通用神经序列模型并没有显式捕获这样的结构信息,限制了它们在这些任务上的性能。(Chen等人,2020)提出了一种新的编码器-解码器模型,基于结构化神经表示智能体,TP-N2F的编码器采用TPR“绑定”将自然语言符号结构编码到向量空间,解码器使用TPR“解绑”在符号空间中生成由关系元组表示的顺序程序,每个元组包括一个关系(或操作)和多个参数。

5.6LLMs和VLMs智能体

一些工作利用LLMs作为智能体执行任务规划(Huang等人,2022a;Wang等人,2023b;Yao等人,2023a;Li等人,2023a),并利用LLMs的大规模互联网规模领域知识和零样本规划能力执行代理任务,如规划和推理。最近的研究还利用LLMs进行机器人任务规划(Ahn等人,2022a;Huang等人,2022b;Liang等人,2022),通过将自然语言指令分解为子任务序列,无论是以自然语言形式还是Python代码形式,然后使用低级控制器执行这些子任务。此外,(Huang等人,2022b),(Liang等人,2022)和(Wang等人,2023a)还结合环境反馈来提高任务性能。还有一些工作展示了通用的、在大规模文本、图像和视频数据上训练的视觉对齐的大型语言模型的潜力,作为创建多模态智能体的基础,这些智能体是具身的,可以在各种环境中行动(Baker等人,2022;Driess等人,2023;Brohan等人,2023)。

6智能体AI应用任务

6.1游戏智能体

游戏为测试LLMs和VLMs的代理行为提供了独特的沙盒,推动了它们协作和决策能力的边界。我们特别描述了三个领域,这些领域突出了智能体与人类玩家和其他智能体交互的能力,以及它们在环境中采取有意义行动的能力。

6.1.1NPC行为

在现代游戏系统中,非玩家角色(NPC)的行为主要由开发人员制定的预定义脚本决定。这些脚本包括基于游戏环境中的各种触发器或玩家行为的各种反应和交互。然而,这种脚本性质通常导致NPC行为可预测或重复,无法响应玩家的行动或游戏的动态环境。这种僵化阻碍了动态游戏环境中预期的沉浸体验。因此,人们越来越有兴趣利用LLMs为NPC行为引入自主性和适应性,使交互更加细腻和引人入胜。AI驱动的NPC可以学习玩家行为,适应不同的策略,并提供更具挑战性和不可预测性的游戏玩法体验。大型语言模型(LLMs)可以显著地促进游戏中NPC行为的演变。通过处理大量文本,LLMs可以学习模式并生成更多样化和类似人类的响应。它们可以被用来创建动态对话系统,使与NPC的交互更加引人入胜和不可预测。此外,LLMs可以根据玩家反馈和游戏数据进行训练,不断改进NPC行为,使它们更加符合玩家期望和游戏动态。

6.1.2人类-NPC交互

人类玩家和NPC之间的交互是游戏体验的关键方面。传统的交互范式主要是一维的,NPC以预设的方式对玩家输入做出反应。这种限制扼杀了更有机和丰富的交互,类似于虚拟世界中的人类-人类交互。LLM和VLM技术的出现有望转变这一范式。通过利用这些技术,游戏系统可以分析和学习人类行为,提供更类似人类的交互。这不仅增强了游戏的现实感和参与度,还为探索和理解受控但复杂环境中的人机交互提供了平台。

6.1.3基于智能体的游戏分析

游戏是日常生活的一部分,估计有世界人口的一半参与其中4。此外,它对心理健康有积极影响5。然而,当代游戏系统在与人类玩家的交互方面存在缺陷,因为它们的行为主要是由游戏开发人员手工制作的。这些预编程行为常常无法适应玩家的需求。因此,有必要在游戏系统中引入新的AI系统,这些系统可以分析玩家行为并在必要时提供适当的支持。智能交互系统有潜力彻底改变玩家与游戏系统的交互方式。NPC与玩家的交互不再受到游戏开发人员设计的限制规则的约束。它们有潜力无缝适应玩家的体验,提供及时反馈以丰富游戏体验,提升人机交互的协同作用。

6.1.4游戏场景合成

场景合成是创建和增强沉浸式游戏环境的重要组成部分。它涉及自动或半自动生成游戏中的三维(3D)场景和环境。这个过程包括生成地形、放置对象、创建逼真的照明,有时甚至是动态天气系统。

现代游戏通常具有广阔的开放世界环境。手动设计这些景观可能非常耗时和资源密集。利用程序化或AI驱动技术自动生成地形可以以较少的手动努力产生复杂、逼真的景观。LLMs和VLMs可以利用互联网规模的知识制定规则,设计出视觉上令人印象深刻且独特的非重复景观。此外,LLMs和VLMs可以用于确保生成资产的语义一致性和可变性。在场景中放置建筑物、植被和其他元素,以一种现实和美学愉悦的方式,对于沉浸感至关重要。

VLMs和LLMs可以通过遵守预定义或学习到的规则和美学来协助对象放置,从而加快关卡设计过程。VLMs和LLMs可以进一步训练,以理解设计和美学的原则,帮助程序化生成内容。它们可以帮助制定规则或指导方针,程序化算法可以遵循这些规则来生成对象和场景,这些场景在视觉上都是吸引人的,并且在上下文中是适当的。

逼真的照明和大气效果对于创造一个可信和引人入胜的游戏环境至关重要。先进的算法可以模拟自然照明条件和动态天气效果,增强场景的现实感和氛围。

LLMs可以通过几种创新的方式帮助开发更逼真的照明和大气效果系统。VLMs可以分析大量真实世界的照明和大气条件数据,帮助开发更逼真的算法来模拟游戏中的这些效果。通过理解自然照明和天气的模式和细节,这些模型可以促进开发算法,以密切模仿现实。LLMs和VLMs还可以用于开发系统,根据玩家行为、游戏状态或外部输入实时调整照明和大气效果。它们可以处理玩家的自然语言命令来修改游戏环境,提供更具互动性和沉浸感的体验。

6.1.5实验和结果

小型智能体预训练模型。为了展示我们的智能体视觉-语言架构,我们首先研究了它在游戏智能体广泛使用的领域中的应用,通过在Minecraft数据上进行预训练。如图7所示,给定一个输入动作智能体、视频的关键帧和相应的文本,可以采用标准编码器-解码器将智能体动作和图像转换为动作文本标记和图像补丁标记,然后使用智能体-视觉-语言解码器将其转换为动作预测句子。整体架构如图7所示。我们使用几个Minecraft演示来评估我们的方法。Minecraft视频数据由5分钟的片段组成,我们用于预训练的数据包含78K个视频,我们使用了5K个视频(占预训练数据的6%)进行第一轮预训练。我们在16个NVIDIAv100GPU上训练了一个2.5亿参数的模型一天,并在图10和图11中可视化了我们的模型输出。图10显示了我们的相对小型智能体架构可以为在训练期间未见过的Minecraft场景产生合理的输出。图11显示了模型的预测与真实玩家动作的比较,表明我们的小型智能体模型具有潜在的低级理解能力。

多智能体基础设施。如图5所示的智能体范式,我们为一个名为“CuisineWorld”(Gong等人,2023a)的新游戏场景设计了一个新颖的基础设施。我们在图12中详细介绍了我们的方法。我们的基础设施利用GPT-4作为中央规划器,允许跨多个游戏领域进行多智能体协作。我们研究了系统的多智能体规划能力,并将基础设施部署到现实世界的视频游戏中,以展示其多智能体和人类-AI协作的有效性。此外,我们还介绍了“CuisineWorld”,这是一个基于文本的多智能体协作基准,提供了一个新的自动度量协作得分(CoS),以量化协作效率。

请参阅附录,以获取有关游戏描述、高级动作预测和GPT-4V提示的更多示例和详细信息。我们在附录B中展示了BleedingEdge的示例,在附录C中展示了MicrosoftFlightSimulator,在附录D中展示了ASSASSIN'sCREEDODYSSEY,在附录E中展示了GEARSofWAR4,在附录F中展示了Starfield。我们还在附录A中提供了一个详细的截图,展示了用于生成Minecraft示例的GPT4V的提示过程。

6.2机器人技术

视觉运动控制。视觉运动控制指的是将视觉感知和运动动作整合到机器人系统中,以有效执行任务。这种整合至关重要,因为它使机器人能够解释来自环境的视觉数据,并相应地调整其运动动作以准确与环境交互。例如,在装配线上,配备视觉运动控制的机器人可以感知物体的位置和方向,并准确调整其操纵器与这些物体交互。这种能力对于确保机器人操作的精度和有效性至关重要,无论是在工业自动化还是协助老年人日常家务的各种应用中。此外,视觉运动控制在动态环境中适应变化时也是必不可少的,其中环境状态可能迅速变化,需要根据视觉反馈实时调整运动动作。

此外,在安全操作的背景下,视觉信息对于检测执行错误和确认每个机器人动作的前提和后提条件至关重要。在不受控制的环境中,如未知的家庭环境,机器人更有可能面临由于不可预测的因素(如家具形状变化、不同的照明和滑动)而导致的意外结果。仅以前馈方式执行预先计划的行动计划在这些设置中可能带来重大风险。因此,使用视觉反馈在每个步骤中不断验证结果是确保机器人系统稳健可靠操作的关键。

语言条件操纵。语言条件操纵涉及机器人系统根据语言指令解释和执行任务的能力。这对于创建直观和用户友好的人类-机器人交互界面至关重要。通过自然语言命令,用户可以以类似于人与人之间的通信方式指定目标和任务给机器人,从而降低操作机器人系统的障碍。在实际情况下,例如,用户可以指示服务机器人“从桌子上拿起红苹果”,机器人将解析该指令,识别所指的对象并执行拿起它的任务(Wake等人,2023c)。核心挑战在于开发强大的自然语言处理和理解算法,能够准确解释广泛的指令,从直接命令到更抽象的指令,使机器人能够将这些指令转换为可执行的任务。此外,确保机器人能够将这些指令泛化到不同的任务和环境中是提高它们在现实世界应用中的多样性和实用性的关键。

技能优化。最近的研究强调了LLMs在机器人任务规划中的有效性。然而,特别是涉及像抓取这样的物理交互的任务的最优执行,需要对环境有更深入的理解,这超出了仅仅解释人类指令。例如,机器人抓取需要精确的接触点(Wake等人,2023e)和臂姿势(Sasabuchi等人,2021)以有效执行后续动作。

6.2.1LLM/VLM智能体机器人

最近的研究已经展示了LLM/VLM在涉及与环境和人类交互的机器人智能体方面的潜力。旨在利用最新LLM/VLM技术的研究主题包括:

多模态系统:最近的研究一直在积极开发整合最新LLM和VLM技术的端到端系统,作为输入信息的编码器。特别是,有一个显著的趋势是修改这些基础模型以处理多模态信息(Jiang等人,2022;Brohan等人,2023,2022;Li等人,2023d;Ahn等人,2022b;Shah等人,2023b;Li等人,2023e)。这种适应旨在指导机器人动作,基于语言指令和视觉提示,从而实现有效的具身化。

任务规划和技能训练:与端到端系统不同,基于任务和运动规划(TAMP)的系统首先计算高级任务计划,然后通过低级机器人控制实现它们,称为技能。

先进的语言处理能力LLMs已经证明了解释指令并将它们分解为机器人动作步骤的能力,极大地推进了任务规划技术(Ni等人,2023;Li等人,2023b;Parakh等人,2023;Wake等人,2023c)。对于技能训练,一些研究探索了使用LLMs/VLMs设计奖励函数(Yu等人,2023a;Katara等人,2023;Ma等人,2023)、生成数据以促进策略学习(Kumar等人,2023;Du等人,2023)或作为奖励函数的一部分(Sontakke等人,2023)。结合RL和IL等培训框架,这些努力将有助于开发高效的机器人控制器。

现场优化:在机器人技术中执行长期任务步骤可能很困难,因为不可预测和不可预测的环境条件。因此,机器人领域的一个重要挑战是动态适应和改进机器人技能,通过整合任务计划与实时环境数据。例如,(Ahn等人,2022b)提出了一种方法,通过视觉信息计算动作的可行性(即,可供性),并将其与计划任务进行比较。此外,还有一些方法专注于使LLMs能够输出任务步骤的前提和后提条件(例如,对象的状态及其相互关系),以优化其执行(Zhou等人,2023c)并检测前提错误以进行任务计划的必要修订(Raman等人,2023)。这些策略旨在通过整合环境信息并在任务计划或控制器层面调整机器人的动作,实现环境基础的机器人执行。

对话智能体:在创建对话机器人时,LLMs可以促进与人类的自然、上下文敏感的交互(Ye等人,2023a;Wake等人,2023f)。这些模型处理和生成模仿人类对话的响应,允许机器人参与有意义的对话。此外,LLMs在估计话语的概念(Hensel等人,2023;Teshima等人,2022)和情感属性(Zhao等人,2023;Yang等人,2023b;Wake等人,2023d)方面发挥着重要作用。这些属性有助于理解人类意图和有意义的手势生成,从而有助于人机通信的自然性和有效性。

导航智能体:机器人导航有着悠久的研究历史,专注于地图基础路径规划和同时定位和地图构建(SLAM)等核心方面,用于创建环境地图。这些功能已成为广泛使用的机器人中间件的标准,如机器人操作系统(ROS)(Guimares等人,2016)。

基础模型的出现有助于发展这种适应性、即时导航技术,通过增强对人类语言指令的理解以及对环境信息的视觉解释。6.2.2节提供了代表性VLN研究的更详细解释。

6.2.2实验和结果

越来越多的证据表明,最近的VLMs和LLMs在符号任务规划(例如,要做什么)方面具有有希望的能力。然而,每个任务都需要低级控制策略(例如,如何做)才能实现环境与智能体之间的成功交互。虽然强化学习和模仿学习是学习数据驱动策略的有希望的方法,但另一种有希望的方法是从人类那里直接获取策略,通过现场演示,这种方法称为从观察中学习(Wake等人,2021a;Ikeuchi等人,0)。在本节中,我们介绍了一项研究,我们使用ChatGPT进行任务规划,并通过将其参数化为可供性信息来丰富计划,以促进有效和精确的执行(图13)。

该管道由两个模块组成:任务规划和参数化。在任务规划中,系统输入语言指令和工作环境描述。这些指令以及一组预定义的机器人动作和输出规范被编译成一个综合提示,提供给ChatGPT,然后生成一系列分解任务及其文本描述(图13;左侧面板)。值得注意的是,我们采用了少样本方法,即ChatGPT没有在这项任务上进行训练,这在应用性方面提供了优势,因为它消除了硬件依赖的数据收集和模型训练的需要。此外,输出中的文本描述使用户能够检查并根据需要调整结果,这是安全和稳健操作的关键功能。图14显示了在VirtualHome(Puig等人,2018)上进行的代理模拟的定性结果。结果展示了合理的任务计划及其在调整输出方面的灵活性,表明了我们方法的广泛适用性。

虽然任务规划器确保了任务序列之间的连贯性,但在现实中成功的操作需要详细的参数。例如,抓取类型对于携带容器时溢出内容至关重要,这样的参数通常在模拟器中被忽略(见图14中抓取派的场景)。因此,在我们的机器人系统中,用户被要求直观地演示每个动作(图13;右侧面板)。任务有预定义的参数,这些参数对于执行是必要的,我们的视觉系统从视频中提取这些参数(Wake等人,2021b)。值得注意的是,我们的机器人系统不是为精确复制人类动作(即远程操作)而设计的,而是要处理变化多端的真实世界条件,例如对象位置的变化。因此,从人类演示中提取的参数不是精确的运动路径,而是指导有效环境移动的可供性信息(例如,用于避免碰撞的航点(Wake等人,2023a)、抓取类型(Wake等人,2023e)和上肢姿势(Sasabuchi等人,2021;Wake等人,2021a))。上肢的姿势在具有高自由度的机器人中至关重要,旨在为与操作机器人共存的人类假设可预测的姿势。赋予可供性的一系列任务被转换为通过强化学习获得的一系列可重用机器人技能,并由机器人执行(Takamatsu等人,2022)。

LLM支持的任务规划可以通过与VLMs整合扩展到更通用的机器人系统中。在这里,我们展示了一个例子,我们使用GPT-4V(ision)在多模态输入环境中扩展了前述任务规划器(图15),人类执行的动作旨在由机器人复制。在本文中,只显示了提示的部分内容。完整的提示可在microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts上找到。

6.3医疗保健

在医疗保健领域,LLMs和VLMs可以作为诊断智能体、患者护理助手甚至治疗助手,但它们带来了独特的挑战和责任。AI智能体改善患者护理和挽救生命的巨大潜力同样存在被滥用或仓促部署可能危及全球数千万人的危险可能性。我们讨论了AI智能体在医疗保健背景下的一些有希望的途径,并讨论了面临的一些关键挑战。

知识检索智能体。在医疗背景下,模型幻觉特别危险,甚至可能导致严重的患者伤害或死亡,这取决于错误的严重程度。例如,如果患者错误地接受了他们实际上患有的疾病的诊断,认为他们没有疾病,可能会导致灾难性的结果。这些包括推迟或不适当的治疗,或者在某些情况下,完全缺乏必要的医疗干预。未诊断或误诊疾病可能带来的严重性可能导致医疗保健费用增加、延长治疗导致进一步的身体压力,以及在极端情况下,严重的伤害甚至死亡。因此,使用智能体更可靠地检索知识(Peng等人,2023)或以基于检索的方式生成文本(Guu等人,2020)的方法是具有前景的方向。将诊断智能体与医疗知识检索智能体配对,有可能显著减少幻觉,同时提高诊断对话智能体的响应质量和精确度。

6.3.1当前医疗保健能力

图像理解。我们在图19中展示了现代多模态智能体如GPT-4V在医疗保健领域的当前能力和局限性。我们可以看到,尽管GPT-4V具有显著的医院护理设备和程序的内部知识,但它并不总是对用户的更具指示性或诊断性的查询做出响应。

视频理解。我们从两个方面研究了VLM智能体在医疗视频理解中的性能。首先,我们调查了VLM智能体在临床空间中识别重要患者护理活动的能力。其次,我们探索了VLM在更技术性视频(如超声波)中的使用。具体来说,在图20中,我们展示了GPT-4V在医院护理和医疗视频分析方面的当前能力和局限性。

6.4多模态智能体

视觉和语言理解的整合对于发展复杂的多模态AI智能体至关重要。这包括图像字幕、视觉问题回答、视频语言生成和视频理解等任务。我们旨在深入研究这些视觉-语言任务,探索它们在AI智能体背景下呈现的挑战和机遇。

6.4.1图像-语言理解与生成

最近,引入了一些知识密集型的视觉问题回答任务,如OKVQA(Marino等人,2019)、KBVQA(Wang等人,2015)、FVQA(Wang等人,2017)和WebQA(Chang等人,2021)。多模态智能体应该能够识别图像中的对象,理解它们之间的空间关系,生成关于场景的准确描述性句子,并使用推理技能处理知识密集型视觉推理。这不仅需要对象识别能力,还需要对空间关系、视觉语义的深入理解,以及将这些视觉元素映射到语言结构中的能力,并整合世界知识。

6.4.2视频和语言理解与生成

视频-语言生成。视频字幕或视频讲故事是为视频帧流生成一系列连贯句子的任务。受到在视频和语言任务中成功使用的递归大型基础模型的启发,变体的智能体驱动增强模型在视频-语言生成任务上显示出有希望的结果。基本挑战在于,神经编码器-解码器模型的强性能并没有很好地泛化到视觉故事讲述中,因为这项任务需要完全理解每张图像的内容以及不同帧之间的关系。该领域的一个重要目标是创建一个智能体感知的文本合成模型,它可以有效地编码帧序列并生成主题连贯的多句子段落。

6.4.3实验和结果

视觉-语言变换器智能体。接下来,我们介绍了“从字幕训练视觉-语言变换器”(VLC)模型(Gui等人,2022b),这是一个仅使用图像-字幕对进行预训练的变换器。尽管仅使用简单的线性投影层进行图像嵌入,VLC在各种视觉-语言任务中取得了与其他依赖于对象检测器或监督CNN/ViT网络的方法相媲美的竞争力结果。

通过广泛分析,我们探索了VLC作为视觉-语言变换器智能体的潜力。例如,我们展示了VLC的视觉表示在ImageNet-1K分类中非常有效,我们的可视化确认了VLC可以准确地将图像补丁与相应的文本标记匹配。随着更多训练数据的性能可扩展性,突显了开发大规模、弱监督、开放领域视觉-语言模型的有前景的潜力。

6.5视频-语言实验

指令调整模型在准确总结视频中可见动作方面显示出前景,并在图25中有效地识别了“人坐在长椅上”等动作。然而,它们有时会添加错误的细节,如“人对着相机微笑”,这揭示了在捕捉对话主题或视频的氛围方面的不足,这些元素对人类观察者来说是显而易见的。这一不足突显了另一个关键局限性:省略了音频和语音模态,这些模态可以通过上下文丰富视频理解,帮助更准确地解释并防止这种误解。弥合这一差距需要整体整合可用的模态,允许多模态智能体达到类似于人类感知的理解水平,并确保采用完全多模态的视频解释方法。

6.6用于NLP的智能体

6.6.1LLM智能体

识别任务指令并采取行动是交互式AI和自然语言处理数十年来的基本挑战。随着深度学习的最新进展,人们越来越有兴趣联合研究这些领域,以改善人类-智能体协作。我们确定了三个具体方向,以提高语言基础智能体的能力:

6.6.2通用LLM智能体

识别和理解智能体内容和自然语言是交互式AI和自然语言处理数十年来的基本挑战。随着深度学习的最新进展,人们越来越有兴趣联合研究这两个领域,以深入理解代理规划或人类反馈用于知识推理和自然语言生成。这些是许多人类-机器交互智能体的关键组成部分,如“AutoGen”(Wu等人,2023)和“RetrieveWhatYouNeed”(Wang等人,2023g)。

6.6.3遵循指令的LLM智能体

此外,创建能够有效遵循人类指令的LLM智能体已成为一个重要的研究领域。最初的模型使用人类反馈来训练代理奖励模型,以模拟人类偏好,通过一种称为强化学习与人类反馈(RLHF)的过程(Ouyang等人,2022)。这个过程产生了InstructGPT和ChatGPT等模型。为了在不需要人类标签的情况下更有效地训练遵循指令的LLM智能体,研究人员开发了一种更有效的指令调整方法,直接在指令/响应对上训练LLM智能体,这些对要么由人类生成,如Dolly2.06,要么由LLMs如Alpaca(Taori等人,2023)自动生成。我们在图28中展示了Alpaca的整体训练流程。

6.6.4实验和结果

7跨模态、跨领域和跨现实的智能体

7.1跨模态理解的智能体

多模态理解对于创建通用智能体是一个重大挑战,因为缺乏包含视觉、语言和智能体行为的大规模数据集。更普遍地,AI智能体的训练数据通常是特定于模态的。这导致大多数现代多模态系统使用一组冻结的子模块。一些著名的例子是Flamingo(Alayrac等人,2022)、BLIP-2(Li等人,2023c)和LLaVA(Liu等人,2023c),它们都使用冻结的LLM和冻结的视觉编码器。这些子模块在单独的数据集上分别训练,然后训练适应层将视觉编码器编码到LLM嵌入空间中。为了在AI智能体的跨模态理解方面取得进一步进展,很可能需要改变使用冻结的LLM和视觉编码器的策略。事实上,RT-2,一个最近的视觉-语言模型,能够在机器人领域的域内采取行动,当视觉编码器和LLM一起调整用于机器人和视觉-语言任务时,显示出了显著提高的性能(Brohan等人,2023)。

7.2跨领域理解的智能体

7.3跨模态和跨现实的交互智能体

开发能够成功理解和跨不同现实执行任务的AI智能体是一个持续的挑战,在图像和场景生成方面取得了一些最近的成功(Huang等人,2023a)。特别是,由于它们的视觉差异和独立的环境物理特性,智能体同时理解真实世界和虚拟现实环境是具有挑战性的。在跨现实背景下,当使用模拟训练的策略用于真实世界数据时,模拟到现实转移是一个特别重要的问题,我们将在下一节中讨论。

7.4模拟到现实转移

使模型能够在模拟中训练并部署在现实世界中的技术。具身智能体,特别是基于RL策略的智能体,通常在模拟环境中训练。这些模拟并没有完全复制现实世界的特征(例如,干扰、光线、重力和其他物理属性)。由于模拟和现实之间的差异,模拟中训练的模型在应用于现实世界时常常难以表现良好。这个问题被称为“模拟到现实”问题。为了解决这个问题,可以采取几种方法:

模拟到现实转移仍然是具身智能体研究的核心挑战,因为方法不断发展。理论和实证研究对于进一步推进这些技术至关重要。

8智能体AI的持续自我改进

8.1基于人类的交互数据

使用基于人类的交互数据的核心思想是利用大量的智能体-人类交互来训练和改进智能体的未来迭代。有几种策略用于从人类-智能体交互中改进智能体。

8.2基础模型生成的数据

随着学术界和工业界产生的强大的基础模型制品的出现,已经开发了各种方法,使用各种提示和数据配对技术从这些制品中提取和生成有意义的训练数据。

9智能体数据集和排行榜

为了加速这一领域的研究,我们提出了两个基准,分别用于多智能体游戏和智能视觉语言任务。我们将发布两个新数据集-“CuisineWorld”和“VideoAnalytica”-和一组基线模型,鼓励参与者探索新的模型、系统,并在我们的排行榜测试集上提交他们的结果。

9.1“CuisineWorld”多智能体游戏数据集

9.1.1基准

“CuisineWorld”数据集由微软、加州大学洛杉矶分校和斯坦福大学收集。比赛的目标是探索不同现有和新型基础LLM和交互技术在这一基准上的表现,并为多智能体游戏基础设施任务建立强大的基线。

CuisineWorld数据集包括:

(数据集的下载链接将很快提供,本文将在包含链接后更新。)

9.1.2任务

9.1.3指标和评判

多智能体协作效率的质量由新的“cos”自动度量标准(来自MindAgent(Gong等人,2023a))确定。我们指标的最终评分是作为多智能体系统在所有任务上评估的协作效率度量标准的平均值计算的。人类评估员将被要求对单个响应进行评分,并提供对用户与智能体交互的参与度、广度和整体质量的主观判断。

9.1.4评估

9.2音视频-语言预训练数据集

我们介绍了VideoAnalytica:一项新的基准测试,用于分析视频演示理解。VideoAnalytica专注于利用视频演示作为辅助,以更好地理解嵌入在长篇教学视频中的复杂、高级推理。目标是评估视频语言模型的认知推理能力,推动它们超越简单的识别任务和基本理解,朝着更复杂和微妙的视频理解发展。至关重要的是,VideoAnalytica强调整合多种模态,如音频、视频和语言,以及模型应用特定领域知识的能力,以情境化和解释视频中呈现的信息。具体来说,VideoAnalytica涉及两个主要任务:

为了促进音频-视频-语言代理分析视频理解的发展,我们为VideoAnalytica的两个任务引入了基准排行榜。

THE END
1.圣诞杯+2.5.1byCZ3D打印模型文件3D模型库魔猴网3D模型库,用户可以挑选自己喜欢的3D模型,不管是工业模型还是游戏动漫CG模型,各种CAD软件模型,免费或者平价下载,文件有STL,OBJ,SLD,PRT,max等等文件为主。http://www.mohou.com/moxingku/10037889.html
2.现代图书馆3D模型下载ID:1181530115知末3d模型库为您提供别现代图书馆 图书室 阅览室3D模型下载,更多现代图书馆 图书室 阅览室3D模型免费下载尽在知末3d模型库https://3d.znzmo.com/3dmoxing/1181530115.html
3.VR大空间实地体验,《鹿吴山水字残卷(篇)》超震撼!VR大空间实地体验,《鹿吴山-水字残卷(篇)》超震撼! 原创 长期 今天 案例介绍 VR大空间实地体验,《鹿吴山-水字残卷(篇)》超震撼! 案例参与 认领案例 * 文章为作者独立观点,不代表数艺网立场 转载须知 VR大空间 124 举报 评论(0) 登录| 注册 后参与评论 世优科技虚拟人 北京 其他· 虚拟人/https://www.d-arts.cn/project/project_info/key/MTIxMDIwODY3NjCEqZussIaocw.html
4.VR最新开发,重塑现实的前沿技术金属材料2、交互方式的革新:传统的VR操作方式正逐渐被突破,通过手势识别、语音识别等先进技术,用户可以直接以更自然的方式与虚拟世界进行交互,从而得到更加流畅和真实的体验。 3、无线化趋势的推进:摆脱线材的束缚是VR技术发展的重要方向,新一代的无线VR设备采用高效的传输技术,使用户能够更自由、更便捷地体验虚拟世界。 https://5g.sansongguo.cn/post/11286.html
5.原创UE5UE5效果,交流群:431513074 加载高清视频 0V 邪童君 广州市 关注合作邀约 - 74位G粉为该作品点赞 - 74 0 作品更新于 : 2024-12-16 15:52:53 928 48250 TA的作品 相关作品 标签: 虚幻5 cg 风格化角色 次时代 游戏模型 软件: 评论 举报https://www.ggac.com/work/detail/1747482
6.哈尔滨工业大学大模型时代的具身智能.pdf文档下载哈尔滨工业大学-大模型时代的具身智能.pdf 上传者:书痴 时间:2024/12/17 浏览次数:67 下载次数:8 1人点赞 举报 哈尔滨工业大学-大模型时代的具身智能。第1页/ 共212页 格式:pdf 大小:12.3M 页数:212 价格: 10积分 下载 兑换积分 留下你的观点 https://www.vzkoo.com/document/20241217a6046568f5ba2eff4f133f81.html
7.模型分享4384DreamShaper模型下载/使用/预览Dreamshaper属于比较早期就拥有很高完成度的模型。整体风格偏幻想,也能做动漫和机甲风格。但是在需要写实的时候也非常真实。同时,在背景的刻画上也有很强的功力。 LiblibAi模型下载链接(国内可用): https://www.liblibai.com/#/model/10 C站下载链接: https://zhuanlan.zhihu.com/p/633754373
8.VR大空间实地体验,《鹿吴山水字残卷(篇)》超震撼!VR大空间实地体验,《鹿吴山-水字残卷(篇)》超震撼!世优科技虚拟人 北京 0 打开网易新闻 体验效果更佳婆婆和小姑子欺负儿媳妇,老公知道后立马站出来保护,结局很舒适 王小花动画 打开APP 为所有爱执着的痛,为所有恨执着的伤 陈翔六点半 2899跟贴 打开APP 80万头野猪成烫手山芋!四川一头野猪咬伤7旬老人,掀翻https://m.163.com/v/video/VFICJQENJ.html
9.扩散模型:AI艺术创作的核心技术51CTO博客在扩散模型中,稳态检测是确保生成图像质量的重要步骤。在本节中,我们将讨论如何检测稳态并生成高质量的艺术作品。 第5章:扩散模型优化与提升 5.1 学习率调度 学习率调度是扩散模型优化中的重要环节。在本节中,我们将探讨如何调整学习率以提升生成图像的质量。 https://blog.51cto.com/universsky/12693303
10.QT3D高级渲染技术qt3dcore在QT 3D中,我们可以使用一些开源库来实现几何体简化,例如OpenSubdiv和OpenSimplex。这些库提供了顶点、边和面的简化算法,我们可以通过调用这些算法来实现几何体简化。 几何体简化是一个复杂的过程,需要根据模型的具体情况进行合理的设置。在实际应用中,我们需要在模型质量和渲染速度之间找到一个平衡点。通过合理的几何体简https://blog.csdn.net/mtyxb/article/details/143923012
11.最新UE5智慧城市(园区)可视化实战案例教程哔哩哔哩该教程结合了虚幻引擎5(Unreal Engine 5)的强大功能,通过详细的步骤和实例教学,帮助用户创建逼真的数字孪生智慧园区3D模型和场景。课程内容涵盖从基础的3D建模、材质与纹理的应用,到高级的光照效果、物理模拟和交互设计。在本教程中,学员将学习如何导入和处理CAD文件,构建逼真的建筑物和园区环境,使用蓝图(Blueprints)和https://www.bilibili.com/cheese/play/ss21756?search_query=%E2%80%9C%E6%99%BA%E6%85%A7%E2%80%9D%2F
12.www.pajsl.com/mokohtmldp6h7h.html这类书之所以畅销主要是因为需要,“我们常说:手中有粮,心里不慌。考前积累一些素材和构思框架是必要的,学生到哪里找呢?只有这样的作文书。”一位高三语文老师说。、.. 7月的额尔齐斯河河谷,绿茵如毯,翠色欲滴。河流蜿蜒,缓缓前行。抬眼望去,候鸟嬉戏,灵动欢快。骏马飞驰,恣意潇洒。蓝天高远、碧水悠悠、绿草如诗http://www.pajsl.com/mokohtmldp6h7h.html
13.vr技术在教育中的应用8篇(全文)VR技术在园林环境艺术设计中的应用步骤如下,首先需要对园林景观中的各个要素进行分类规划,并将原始数据输入到计算机中,利用Auto CAD、VRML、3ds MAX等软件来进行三维建模,并根据不同方案的设计效果来构建实时多方案数据库,最后再对这些设计方案进行筛选和选择后进行合成输出。在构建园林景观模型时,其景观可分为动态与https://www.99xueshu.com/w/file06whcl7e.html
14.无锡政府采购网·无锡市城市信息模型(CIM)基础平台(一期工程)项目无锡市城市信息模型(CIM)基础平台顶层设计建设包含且不仅包含以下内容:背景与政策分析、定位与目标、技术路线与总体架构、系统功能设计、数据库设计、软硬件及网络环境、标准规范体系、平台安全、保障体系,具体见下表。 背景与政策分析:在宏观层面,分析国家、江苏省和无锡市当前在智慧城市、新基建以及CIM平台建设的政策要https://cz.wuxi.gov.cn/doc/2024/04/17/4290410.shtml
15.技术成果这些可以包括进度(4D)、成本估算(5D)、可持续性(6D)和运营维护(7D)。除了制作出令人惊叹的模型外,BIM还为加强协作提供了空间。仅通过此功能,建筑商就能够创建高效的设计,减少返工和错误的发生率,并最终获得准确性并节省成本和时间。 AR和VR 像AR和VR这样的沉浸式技术可能需要很长时间才能进入主流市场。但是,这些http://www.hljaz.com/index.php?p=longan&c_id=49
16.2022年度陕西省重点研发计划项目申报指南目录研究无标注或少样本下深度特征弱监督预学习模型和方法,解决影像数据的结构化标注数据的自动生成问题;研究结合迁移学习与主动学习的增量学习方法,解决实体目标增量标注问题。研制半监督、弱监督/无监督学习算法支持下的集数据收集、数据处理和智能化标注为一体的标注云平台,建立高效通用的数据标签与结构化的标注数据库。http://www.kt180.com/html/sxs/9889.html
17.新媒体环境下的品牌策划超星尔雅学习通网课答案1.7一个有竞争力的品牌的研发过程及品牌共鸣模型 1、【单选题】( )必须是统一的,而且还要求稳定,不能随意变动,这是品牌吸引消费者重要条件之一。 A、品牌定位 B、品牌的创新与文化 C、品牌视觉形象 D、品牌共鸣 2、【单选题】美国学者凯文·莱恩·凯勒于1993年提出CBBE模型即( )。 http://xuzhou.ehqc.cn/html/90_72.html
18.一文读懂什么是数字孪生数字孪生特点及作用5.1.1 数字孪生是仿真应用的发展和升级。 例如,产品数字孪生不仅具备传统产品仿真的特点,从概念模型和设计阶段着手,先于现实世界的物理实体构建数字模型,而且数字模型与物理实体共生,贯穿实体对象的整个生命周期,建立数字化、单一来源的全生命周期档案,实现产品全过程追溯,完成物理实体的细致、精准、忠实的表达。 https://www.lingtuvr.com/knowledge/7944.html
19.关于vr5.1渲染出来只有背景,不显示模型,求大佬解惑3dmax吧相机是剪切了吧 李f90 菜鸟求罩 1 解决了吗?怎么弄 CGMAGIC插件 各种疑问 5 vr5.1渲染出来只有背景,不显示模型可以尝试以下1.鼠标右键对象属性,检查模型是否可渲染的,是否对摄像机可见的,是否背面消隐2.检查物体法线是否反的,统一发现3.检查模型是多边形还是网格4.用一个摄像机试试登录https://tieba.baidu.com/p/7995858513
20.UE4UE5资产导入插件UAssetBrowser最新1.3.2支持4.265.03VR360VR360 商用 免费商用 (CC协议)免费商用 (CC协议) 版权商用 (39元/条)版权商用 (39元/条) 3D 通用模型 模型库模型库 C4DC4D 游戏游戏 动画|绑定动画|绑定 MayaMaya BlenderBlender 专用模型 SU模型SU模型 产品|机械产品|机械 3d打印3d打印 家装|工装家装|工装 https://www.aigei.com/item/ue4ue5_zi_chan.html
21.深谈BIM技术在装配式建筑中的应用建筑VR网而引入BIM技术后,建立装配式建筑的BIM构件库,就可模拟工厂加工的方式,以“预制构件模型”的方式来进行系统集成和表达。另外,在深化设计、构件生产、构件吊装等阶段,都将采用BIM进行构件的模拟,碰撞检验与三维施工图纸的绘制。 一、 BIM技术在装配式建筑设计阶段中的应用价值https://www.chinabvr.com/news_details?id=144
22.重磅!雄安集团发布水利房建市政交通园林BIM技术标准4.6模型细度要求20 4.7分类编码规则21 4.8颜色定义21 4.9建模详细程度等级划分21 4.10模型定位设置22 4.11 BIM软硬件配置要求22 5 BIM应用规定23 5.1一般规定23 5.2 BIM应用策划23 5.3建设项目BIM应用及要求24 5.3.1设计阶段BIM模型应用24 5.3.2施工阶段BIM模型应用31 https://www.shangyexinzhi.com/article/4454995.html