让AI模型成为GTA五星玩家,基于视觉的可编程智能体Octopus来了实验算法软件安装包octopus

电子游戏已经成为如今现实世界的模拟舞台,展现出无限可能。以游戏《侠盗猎车手》(GTA)为例,在GTA的世界里,玩家可以以第一人称视角,在洛圣都(游戏虚拟城市)当中经历丰富多彩的生活。然而,既然人类玩家能够在洛圣都里尽情遨游完成若干任务,我们是否也能有一个AI视觉模型,操控GTA中的角色,成为执行任务的“玩家”呢?GTA的AI玩家又是否能够扮演一个五星好市民,遵守交通规则,帮助警方抓捕罪犯,甚至做个热心肠的路人,帮助流浪汉找到合适的住所?

目前的视觉-语言模型(VLMs)在多模态感知和推理方面取得了实质性的进步,但它们往往基于较为简单的视觉问答(VQA)或者视觉标注(Caption)任务。这些任务设定显然无法使VLM真正完成现实世界当中的任务。因为实际任务不仅需要对于视觉信息的理解,更需要模型具有规划推理以及根据实时更新的环境信息做出反馈的能力。同时生成的规划也需要能够操纵环境中的实体来真实地完成任务。

尽管已有的语言模型(LLMs)能够根据所提供的信息进行任务规划,但其无法理解视觉输入,极大的限制了语言模型在执行现实世界的具体任务时的应用范围,尤其是对于一些具身智能任务,基于文本的输入往往很难详尽或过于复杂,从而使得语言模型无法从中高效地提取信息从而完成任务。而当前的语言模型对于程序生成已经进行了若干探索,但是根据视觉输入来生成结构化,可执行,且稳健的代码的探索还尚未深入。

为了解决如何使大模型具身智能化的问题,创建能够准确制定计划并执行命令的自主和情境感知系统,来自新加坡南洋理工大学,清华大学等的学者提出了Octopus。Octopus是一种基于视觉的可编程智能体,它的目的是通过视觉输入学习,理解真实世界,并以生成可执行代码的方式完成各种实际任务。通过在大量视觉输入和可执行代码的数据对的训练,Octopus学会了如何操控电子游戏的角色完成游戏任务,或者完成复杂的家务活动。

数据采集与训练

为了训练能够完成具身智能化任务的视觉-语言模型,研究者们还开发了OctoVerse,其包含两个仿真系统用于为Octopus的训练提供训练数据以及测试环境。这两个仿真环境为VLM的具身智能化提供了可用的训练以及测试场景,对模型的推理和任务规划能力都提出了更高的要求。具体如下:

1.OctoGibson:基于斯坦福大学开发的OmniGibson进行开发,一共包括了476个符合现实生活的家务活动。整个仿真环境中包括16种不同类别的家庭场景,涵盖155个实际的家庭环境实例。模型可以操作其中存在的大量可交互物体来完成最终的任务。

2.OctoGTA:基于《侠盗猎车手》(GTA)游戏进行开发,一共构建了20个任务并将其泛化到五个不同的场景当中。通过预先设定好的程序将玩家设定在固定的位置,提供完成任务必须的物品和NPC,以保证任务能够顺利进行。

下图展示了OctoGibson的任务分类以及OctoGibson和OctoGTA的一些统计结果。

为了在构建的两个仿真环境中高效的收集训练数据,研究者构建了一套完整的数据收集系统。通过引入GPT-4作为任务的执行者,研究者们使用预先实现的函数将在仿真环境当中采集到的视觉输入处理为文本信息提供给GPT-4,在GPT-4返回当前一步的任务规划和可执行代码后,再在仿真环境当中执行代码,并判断当前一步的任务是否完成。如果成功,则继续采集下一步的视觉输入;如果失败,则回到上一步的起始位置,重新采集数据。

上图以OctoGibson环境当中的CookaBacon任务为例,展示了收集数据的完整流程。需要指出的是,在收集数据的过程中,研究者不仅记录了任务执行过程中的视觉信息,GPT-4返回的可执行代码等,还记录了每一个子任务的成功情况,这些将作为后续引入强化学习来构建更高效的VLM的基础。GPT-4的功能虽然强大,但并非无懈可击。错误可以以多种方式显现,包括语法错误和模拟器中的物理挑战。例如,如图3所示,在状态#5和#6之间,由于agent拿着的培根与平底锅之间的距离过远,导致“把培根放到平底锅”的行动失败。此类挫折会将任务重置到之前的状态。如果一个任务在10步之后仍未完成,则被认定为不成功,我们会因预算问题而终止这个任务,而这个任务的所有子任务的数据对都会认为执行失败。

在收集一定规模的训练数据后,研究者利用这些数据训练出了一个具身智能化的视觉-语言模型Octopus。上图展现了完整的数据采集和训练流程。在第一阶段,通过使用采集的数据进行监督式微调,研究者构建出了一个能够以视觉信息作为输入,遵从固定格式进行输出的VLM模型。在这一阶段,模型能够完成视觉输入信息到任务计划以及可执行代码的映射。而在第二阶段,研究者引入了RLEF

(ReinforcementLearningwithEnvironmentalFeedback),通过利用先前采集的子任务的成功情况作为奖励信号,采用强化学习的算法更进一步的提升VLM的任务规划能力,从而提高整体任务的成功率。

实验结果

研究者在构建的OctoGibson环境中,对于当前主流的VLM和LLM进行了测试,下表展示了主要实验结果。对于不同的测试模型,VisionModel列举了不同模型所使用的视觉模型,对于LLM来说,研究者将视觉信息处理为文本作为LLM的输入。其中O代表提供了场景中可交互物体的信息,R代表提供了场景中物体相对关系的信息,GT代表使用真实准确的信息,而不引入额外的视觉模型来进行检测。

对于所有的测试任务,研究者报告了完整的测试集成功率,并进一步将其分为四个类别,分别记录在训练集中存在的场景中完成新任务,在训练集中不存在的场景中完成新任务的泛化能力,以及对于简单的跟随任务以及复杂的推理任务的泛化能力。对于每一种类别的统计,研究者报告了两种评价指标,其中第一个为任务的完成率,以衡量模型完成具身智能任务的成功率;第二个为任务规划准确率,用于体现模型进行任务规划的能力。

此外,研究者还展示了不同模型对于OctoGibson仿真环境中采集的视觉数据的响应实例。下图展示了TAPA+CodeLLaMA,Octopus以及GPT-4V对于OctoGibson当中视觉输入生成的回复。可以看到,相较于TAPA+CodeLLaMA以及只进行了监督式微调的Octopus模型,使用RLEF进行训练之后的Octopus模型的任务规划更加合理,即使是对于较为模糊的任务指令(findacarboy)也能提供更加完善的计划。这些表现都更进一步说明了RLEF训练策略对于提升模型的任务规划能力以及推理能力的有效性。

总体来说,现有的模型在仿真环境中表现出的实际任务完成度和任务规划能力依旧有很大的提升空间。研究者们总结了一些较为关键的发现:

1.CodeLLaMA能够提升模型的代码生成能力,但不能提升任务规划能力。

研究者指出,通过实验结果可以看出,CodeLLaMA能够显著的提升模型的代码生成能力。与传统的LLM相比,使用CodeLLaMA能够获得更好的,可执行率更高的代码。然而,尽管一些模型使用了CodeLLaMA进行代码生成,但整体任务的成功率依然会受到任务规划能力的限制。任务规划能力较弱的模型,及时生成的代码可执行率较高,最终的任务成功率依然较低;而反观Octopus,尽管未使用CodeLLaMA,代码的可执行率有所下降,但得益于其强大的任务规划能力,整体任务成功率依旧优于其他模型。

2.LLM在面对大量的文本信息输入时,处理较为困难。

在实际的测试过程中,研究者通过对比TAPA和CodeLLaMA的实验结果得出了一个结论,即语言模型很难较好地处理长文本输入。研究者们遵从TAPA的方法,使用真实的物体信息来进行任务规划,而CodeLLaMA使用物体和物体之间的相对位置关系,以期提供较为完整的信息。但在实验过程中,研究者发现由于环境当中存在大量的冗余信息,因此当环境较为复杂时,文本输入显著增加,LLM难以从大量的冗余信息当中提取有价值的线索,从而降低了任务的成功率。这也体现了LLM的局限性,即如果使用文本信息来表示复杂的场景,将会产生大量冗余且无价值的输入信息。

3.Octopus表现出了较好的任务泛化能力。

通过实验结果可以得出,Octopus具有较强的任务泛化能力。其在训练集当中未出现的新场景中完成任务的成功率和任务规划的成功率均优于已有的模型。这也展现出了视觉-语言模型的一些内在优势,针对同一类别的任务,其泛化性优于传统的LLM。

4.RLEF能够增强模型的任务规划能力。

在实验结果中,研究者们提供了只经过第一阶段监督式微调的模型以及经过RLEF训练之后模型的性能比较。可以看出,在经过RLEF训练之后,模型在需要较强的推理能力和任务规划能力的任务上,整体成功率和规划能力有了显著提升。与已有的VLM训练策略相比,RLEF也更加的高效。上图所展示的示例也能够体现RLEF训练之后模型在任务规划能力上的提升。经过RLEF训练之后的模型能够懂得在面对较为复杂的任务时,如何在环境当中进行探索;此外,模型在任务规划上能够更加遵从仿真环境中的实际要求(如,模型需要先移动到要交互的物体,才能开始交互),从而降低任务规划的失败比率。

消融实验

在对模型的实际能力进行评估之后,研究者们更进一步探究了一些影响模型性能的可能因素。如下图所示,研究者从三个方面开展了实验。

1.训练参数的比重

研究者对比了只训练视觉模型与语言模型的连接层,训练连接层和语言模型,以及完整训练的模型的性能。可以看出,随着训练参数的增加,模型的性能逐渐获得了提升。这说明,训练参数的多少对于模型是否能够在一些固定的场景当中完成任务至关重要。

2.模型的大小

研究者们比较了较小的3B参数模型与基线7B模型在两个训练阶段的性能差异。通过比较可以看出,当模型整体参数量较大时,模型的性能也会得到明显的提升。如何选定合适的模型训练参数,使得模型能够拥有完成对应任务的能力,同时也能够保证模型的轻量化和较快的推理速度,将是未来VLM领域研究中较为关键的一点。

3.视觉输入的连续性

为了探究不同的视觉输入对于实际VLM性能的影响,研究者对视觉信息的输入顺序进行了实验。在测试的过程中,模型会在仿真环境当中顺序转动,采集第一视角图像,并采集两张鸟瞰图,之后这些视觉图像会按顺序输入VLM当中。而在实验中,当研究者随机打乱视觉图像顺序再输入VLM中时,VLM产生了较大的性能损失。这一方面说明了完整且结构化的视觉信息对于VLM的重要性,另一方面也从某种程度上反映了VLM在对视觉输入进行响应时需要依靠视觉图像的内在联系,而一旦这种视觉上的联系被破坏,将会极大的影响VLM的表现。

GPT-4

此外,研究者还对GPT-4以及GPT-4V在仿真环境当中的性能进行了测试和统计。

1.GPT-4

针对GPT-4,在测试过程中研究者提供与使用其采集训练数据时完全相同的文本信息作为输入。在测试任务上,GPT-4能够完成一半的任务,这一方面说明现有的VLM相对于GPT-4这样的语言模型,从性能上还有很大的提升空间;另一方面也说明,即使是GPT-4这样性能较强的语言模型,在面对具身智能任务时,其任务规划能力和任务执行能力依然需要更进一步的提升。

2.GPT-4V

由于GPT-4V刚刚发布可以直接调用的API,研究者还没来得及尝试,但是研究者们之前也手动测试了一些实例来展现GPT-4V的性能。通过一些示例,研究者认为GPT-4V对于仿真环境当中的任务具有较强的零样本泛化能力,也能够根据视觉输入生成对应的可执行的代码,但其在一些任务规划上稍逊色于在仿真环境采集的数据上微调之后的模型。

总结

研究者们指出了目前工作的一些局限性:

1.当前的Octopus模型在较为复杂的任务上性能并不令人满意。在面对复杂任务时,Octopus往往会做出错误的规划,并且严重依赖于环境给出的反馈信息,最终往往难以完成整体的任务。

2.Octopus模型仅在仿真环境当中进行训练,而如何将其迁移到真实世界当中将会面临一系列的问题。例如,真实环境当中模型将难以得到较为准确的物体相对位置信息,如何构建起物体对于场景的理解将变得更加困难。

3.Octopus目前的视觉输入为离散的静态图片,如何使其能够处理连续的视频将是未来的挑战。连续的视频可以更进一步提高模型完成任务的性能,但如何高效地处理和理解连续视觉输入将成为进一步提升VLM性能的关键。

THE END
1.应用猎人app赚钱应用猎人苹果版应用猎人app是一款苹果手机兼职赚钱平台,应用猎人苹果版app赚钱,新人送1元现金红包,手机兼职赚钱的任务单价1元起,10元提现支付宝或微信。因为是新平台,前期任务可能会少一点,应用猎人试玩有趣有好玩的app还能赚零花钱,何乐而不为,0投资,在家就能利用手机兼职赚钱https://www.daka163.com/app/178.html
2.应用猎人下载安装应用猎人下载安装相关文章 应用宝如何使用 应用宝下载安装后怎么使用 应用宝这是腾讯应用中心专为智能手机网友打造的一个手机应用获取的平台,最近这段时间有很多用户想下载安装这个软件,但是自己不知道应用宝下载安装后如何使用,今天小编就 腾讯应用宝怎么安装下载好的软件 具体操作方法介绍 1、打开手机里的应用宝,你https://www.pianwan.com/s/topic/247686
3.猎人掌握移动应用相似应用下载猎人掌握移动应用是地方是让你所有的魔兽世界猎人和黄金制作信息。以黄金制作指南,猎人指南、赠品、评论和那么多!你也可以在网络上访问然而与移动应用程序把网站无论你去哪里,去最好的是它是免费的!(需要互联网连接)我们的猎人掌握移动应用是包新每周更新,连同我们的正常内容你可以在网站上发现的,作为一个移动应用程https://m.wandoujia.com/apps/5888621
4.骰子猎人应用宝骰子猎人应用宝 在游戏的世界里,骰子猎人作为一款备受欢迎的策略角色扮演游戏,凭借其独特的玩法和丰富的故事情节吸引了无数玩家。应用宝作为一个集游戏、应用于一体的平台,为玩家提供了便捷的下载和游戏体验。本文将深入探讨骰子猎人在应用宝上的特点和优势。https://www.97507.net/news/34172.html
5.帮助Linux管理员简化任务并实现自动化的七大工具它还提供警报服务,一旦察觉到你的网络中哪里有问题,就会提醒系统管理员。借助SNMP以及Nagios,系统管理员还可以控制并管理打印机、路由器和交换机。Nagios让我们得以创建事件处理工具,一旦某个应用程序及其服务停运,就可以自动重启出现故障的那个应用程序及其服务。https://zhuanlan.zhihu.com/p/632290825
6.时空猎人应用宝腾讯版时空猎人应用宝最新版下载时空猎人应用宝最新版是腾讯应用宝渠道的《时空猎人》手游,该版本支持腾讯QQ和微信登录游戏,也可以通过应用宝app授权快速登录,方便快捷,还送时空猎人应用宝特权礼包,新人送充值优惠券,游戏福利虽然不是很多,但是比官服多,玩起来还是很不错的! 游戏特色 1、十二大角色,近百套华丽的时装, 七种PVP模式,200多个随机副https://www.kunduo.com/game/19468.html
7.时空猎人gm服下载时空猎人gm版下载应用中心 时空猎人gm服是一款针对android平台而开发的手机横版游戏,目前在网络上下载非常火爆,该游戏采用了关卡式设计,拥有狼人、异能者、枪械师、斩魂四大职业,形式紧凑玩法灵活,组队PK玩法异常丰富,保证版本流畅运行的同时,全新升级体感触键设计,随时体验完美微操带来的游戏快感。http://m.ttmnq.com/game/sklrgmf.html
8.猎人影视app下载安装猎人影视app官网版v4.0.8应用截图 应用介绍 猎人影视app是一款十分好用的影视播放软件。在软件中用户将能够看到自己想要的影视,无论是什么类型的影视,在软件中都可以进行免费的观看,将能够最大程度的帮助用户在空闲的时间中获得自己想要的影视。使用软件,用户可以看到国外和国内的各种影视,将使用户获得更好的体验,从软件中获得更多的欢乐。 https://www.vqs.com/down/80039.html
9.猎人iPhone版免费下载猎人app的ios最新版1.3.19下载应用简介 【基本介绍】 《猎人》手游是一款由《HUNTER×HUNTER》(中文名:猎人×猎人)官方唯一正版授权、腾讯游戏和蓝图游戏倾力打造的横版动作手游。经典动画的人物与剧情、丰富的职业与技能搭配,酣畅淋漓的连招体验,百变多样的探索副本,与其他玩家共同猎取一切可能! https://www.duote.com/ios/412708.html
10.手机猎人影视app应用图标素材免费下载觅元素为您提供手机猎人影视app应用图标素材免费下载,此作品编号为evcxipipun,图片大小为 0.25M,图片规格为 1024*1024 | 72dpi,下载更多图片素材就来觅元素!https://www.51yuansu.com/sc/evcxipipun.html
11.怪物猎人崛起曙光致命的应用程序退出怎么办致命的应用程序退出,许多玩家在游戏时都遇到了报错致命的应用程序退出的情况,那么该如何解决呢,今天小编就为大家带来,希望可以帮到大家。 怪物猎人崛起曙光致命的应用程序退出解决方法 1、删除MOD,重装DLC内容: 部分玩家是因为之前打过MOD所以导致冲突,需要将之前玩的MOD删除,如果不会删除的玩家可以尝试将本体卸载后重装。 https://a.9game.cn/gwlrjqsg/6901120.html
12.时空猎人腾讯正版是不是只有在应用宝哪有。是 https://ask.zol.com.cn/x/5313175.html
13.魔兽世界,猎人爆发宏的奥秘与运用在《魔兽世界》这款大型多人在线角色扮演游戏中,猎人职业以其独特的输出方式和强大的爆发能力,深受玩家们的喜爱,猎人爆发宏更是猎人们在战斗中不可或缺的利器,本文将为大家详细解析猎人爆发宏的原理、使用技巧以及其在实战中的应用。 猎人爆发宏的基本概念 http://www.ljhjdmj.com/glwd/38025.html
14.爬虫猎人游戏下载手机版爬虫猎人v0.0.2安卓版应用介绍 爬虫猎人是一款十分刺激的动作冒险手机游戏,在游戏中你将扮演猎人,不断去冒险作战,开启属于自己的征途冒险之旅,超大主题场景让你展开高度自由冒险,恐怖氛围感拉满,胆小的妹子们别尝试玩。 爬虫猎人游戏介绍: 爬虫猎人游戏是一款动作冒险游戏,玩家扮演一位勇敢的猎人,踏上探险之旅,与各种恐怖的巨型爬虫展开激https://www.hncj.com/sjyx/118305.html
15.全职猎人HUNTER×HUNTER世界观“圆”的范围因各人技术高低而异,但“圆”并不能代表个人念能力的高低,有时只是个人对“圆”的应用方式或需求的不同;在猎人中,奇犽的爷爷杰诺·揍敌客的圆半径可达300米,而幻影旅团里的信长就能使用刚刚在武士刀挥剑范围里,半径4米的“圆”,虽然从覆盖面看,信长的念能力比杰诺来说弱了很多,这一点也是毋庸https://www.meoogo.com/worldview/detail/1/26