2024国际智能体和多智能体系统会议(AAMAS)自动化所入选成果速览

国际智能体和多智能体系统会议(InternationalConferenceonAutonomousAgentsandMulti-agentSystems,AAMAS),是智能体和多智能体系统领域最大和最有影响力的国际学术会议之一。智能体研究作为人工智能领域的重要分支,具有巨大的革新潜力与应用前景,其发展对于理解人类智能本质,推动人工智能技术发展,解决社会问题具有重要价值。第23届AAMAS于5月6日至10日在新西兰召开。自动化所多篇研究论文被本届AAMAS录用,并参与组织了两项智能体赛事。

一、研究论文

1.面向连续控制的一致性策略

BoostingContinuousControlwithConsistencyPolicy

论文作者:陈宇辉,李浩然,赵冬斌

2.基于反事实信誉分配的协作多智能体强化学习算法

AligningCreditforMulti-AgentCooperationviaModel-basedCounterfactualImagination

论文作者:柴嘉骏、傅宇千、赵冬斌、朱圆恒

现有基于模型的多智能体强化学习方法仍采用为单智能体环境设计的训练框架,导致现有算法对多智能体协作的促进不足。该研究提出了一种新颖的基于模型的多智能体强化学习方法,称为多智能体反事实Dreamer(MACD)。其引入了一种集中式想象与分布式执行框架,用于生成更高质量的想象数据以进行策略学习,从而进一步提高算法的样本效率,并通过生成额外的反事实轨迹评估单一智能体对整体的贡献,进而解决信誉分配和非平稳问题。研究中提供了对应的理论推导,表明该反事实策略更新规则能够提升多智能体协作学习目标。实验结果验证了该研究在样本效率、训练稳定性和最终合作性能方面相较于几种最先进的无模型和有模型的多智能体强化学习算法的优越性。消融研究和可视化演示进一步强调了该训练框架以及其反事实模块的重要性。

MA-RSSM框架。(a)MACD与已有算法框架的对比。(b)集中式想象世界模型。智能体将在该模型中建模整个系统的状态转移过程。(c)想象空间内进行的集中式预测。通信模块聚合来自所有智能体的输入信息,并生成智能体i的通信特征。

3.多智能体强化学习中的智能体策略距离度量

MeasuringPolicyDistanceforMulti-AgentReinforcementLearning

论文作者:扈天翼、蒲志强;艾晓琳;丘腾海;易建强

策略多样性对于提升多智能体强化学习的效果起着至关重要的作用。尽管现在已经有许多基于策略多样性的多体强化学习算法,但是目前尚缺乏一个通用的方法来量化智能体之间的策略差异。测量策略差异性不仅能够方便评估多智能体系统在训练中的多样性演化,还有助于为基于策略多样性的算法设计提供指导。为此,我们提出了MAPD,一个通用的多智能体策略距离度量方法。不同于直接量化形式各异的动作分布间的距离,该方法通过学习智能体决策的条件表征来间接量化智能体的策略距离。我们还开发了MAPD的扩展版本CMAPD,其能够量化智能体策略在特定倾向上的差异,如两个智能体在攻击倾向和防御倾向上的策略差异。基于MAPD和CMAPD的在线部署,我们设计了一套多智能体动态参数共享算法MADPS。实验表明我们的方法在测量智能体策略差异和特定行为倾向上的差异是有效的。而且,与其他参数共享方法相比,MADPS展示了更优越的性能。

学习智能体决策的条件表征

4.TaxAI:动态经济仿真器和多智能体强化学习算法基准

TaxAI:ADynamicEconomicSimulatorandBenchmarkforMulti-AgentReinforcementLearning

论文作者:米祈睿,夏思宇,宋研,张海峰,朱胜豪,汪军

税收是政府促进经济增长和保障社会公正的关键手段。但是,准确预测多样的自利家庭的动态策略是非常困难的,这对政府制定有效的税收政策构成了挑战。多智能体强化学习(MARL),凭借其在模拟部分可观测环境中的其他智能体、以及适应性学习求解最优策略的能力,非常适合去解决政府与众多家庭间的动态博弈问题。尽管MARL展现出比遗传算法和动态规划等传统方法更大的潜力,但目前仍缺乏大规模的多智能体强化学习经济模拟器。因此,我们基于Bewley-Aiyagari经济模型,提出了一个名为TaxAI的MARL环境,用于模拟包括众多家庭、政府、企业和金融中介在内的动态博弈。我们的研究在TaxAI上对2种传统经济方法与7种MARL方法进行了对比,证明了MARL算法的有效性和优越性。更重要的是,TaxAI在模拟政府与高达10,000户家庭之间的动态互动及其与真实数据的校准能力上,都大幅提升了模拟的规模和现实性,使其成为目前最为逼真的经济模拟器。

图1.Bewley-Aiyagari模型动力学

图2.政府与家庭智能体之间的部分可观测马尔科夫博弈

5.谷歌足球环境中的多智能体强化学习研究:回顾、现状和展望

BoostingStudiesofMulti-AgentReinforcementLearningonGoogleResearchFootballEnvironment:thePast,Present,andFuture

论文作者:宋研,江河,张海峰,田政,张伟楠,汪军

图1.在六个Academy足球场景中不同多智能体强化学习算法的效果对比

图2.分布式异构种群自博弈训练框架示意图

6.针对自然语言约束的基于预训练语言模型的安全强化学习算法

SafeReinforcementLearningwithFree-formNaturalLanguageConstraintsandPre-TrainedLanguageModels

论文作者:娄行舟,张俊格,王梓岩,黄凯奇,杜雅丽

针对基于自然语言约束的安全强化学习中,现有方法对复杂形式自然语言约束表征能力、处理能力不足,并且将自然语言约束转化为智能体可学习的代价函数需要大量的特定领域知识的问题,我们提出使用预训练语言模型对自然语言约束进行处理,帮助智能体进行理解,并且完成代价函数预测,实现了在无需真实代价函数的前提下,让智能体能够学会遵守自由形式的复杂人类自然语言给出的约束条件。我们提出的算法在性能上可以达到与使用真实代价函数的方法相近的性能。并且在代价函数预测上,相比直接提示GPT-4来进行预测,我们所提出方法的预测结果的F1-score实现了23.9%的提升。

所提出方法对自然语言约束进行处理,使得处理后的约束可用于预测代价函数和约束智能体的策略

7.PDiT:用于深度强化学习的感知与决策交错Transformer

PDiT:InterleavingPerceptionandDecision-makingTransformersforDeepReinforcementLearning

论文作者:毛航宇,赵瑞,黎子玥,徐志伟,陈皓,陈逸群,张斌,肖臻,张俊格,尹江津

8.从显式通信到默契合作:一种新的合作多智能体强化学习范式

FromExplicitCommunicationtoTacitCooperation:ANovelParadigmforCooperativeMARL

论文作者:李大鹏、徐志伟、张斌、周光翀、张泽仁、范国梁

集中式训练-分散式执行作为一种被广泛使用的学习范式,近年来在复杂合作任务中取得了显著成功。然而,该范式的有效性在部分可观察性问题中会存在一定的限制。尽管通信可以缓解这一挑战,但同时引入的通信成本也降低了算法的实用性。本文从人类团队合作学习中汲取灵感,提出了一种新的学习范式并称为TACO,TACO促进了算法从完全的显式通信到无通信的默契合作的转变。在初始训练阶段,TACO通过在智能体间进行显式通信来促进合作,同时以自监督的方式使用每个智能体的局部轨迹来对通信信息进行重建。在整个训练过程中,TACO不断减少显式通信信息的比值,从而逐渐转移到无沟通的完全分散式执行。在多个不同场景下的实验结果表明,TACO在不使用通信的表现可以接近甚至超过经典值分解方法和基于通信的方法。

图1.人类团队合作过程中的演变过程

图2.TACO算法的整体框架

9.ELA:用于零和博弈离线学习的受剥削等级增强方法

ELA:ExploitedLevelAugmentationforOfflineLearninginZero-SumGames

论文作者:雷世骐、李康勋、李林静、朴振奎、李家琛

离线学习算法通常都会受到低质量演示者的负面影响,而在博弈场景中,还需要对各个轨迹所对应策略的优劣做出估计,并剔除其中较差策略产生的轨迹。本文设计了一种部分条件可训练变分循环神经网络(P-VRNN),采用无监督的方式来学习轨迹所对应策略的表示,通过结合已有轨迹可预测下一步动作。同时,本文定义了轨迹的受剥削等级(ExploitedLevel,EL),用以近似经典的可利用度。根据轨迹对应的策略表示,并利用其最终收益可以对EL做出估计。本文将EL作为轨迹筛选器,用以增强现有的离线学习算法。在Pong和有限注德州扑克中的测试表明,BC、BCQ和CQL三种代表性离线学习算法在通过ELA增强后,均可以击败原有算法生成的策略。

图1.ELA算法整体结构

图2.在Pong游戏中轨迹对应的策略表示及估计出的受剥削等级

二、游戏竞赛

1.非完全信息棋牌游戏竞赛AAMAS2024Imperfect-informationCardGamesCompetition

竞赛设计者:张海峰,宋研,闫雪,邵坤

为促进不完美信息游戏中AI技术的发展,自动化所团队举办第二届不完美信息卡牌游戏竞赛。此次竞赛将涵盖多智能体领域的各种挑战,探索诸如对手建模和AI智能体泛化能力等领域。参与者通过及第平台参与竞赛,平台将对提交AI智能体的进行在线评估,为举办大规模在线比赛做准备。

AAMAS2024非完全信息棋牌游戏竞赛共有三个赛道,如图所示分别为四人德州扑克(左)、桥牌(中)以及麻将(右)。

【竞赛网页】

四人无限注德州扑克赛道:

桥牌赛道:

麻将赛道:

2.计算经济学竞赛AAMAS2024ComputationalEconomicsCompetition

竞赛设计者:张海峰,米祈睿,宋研

为鼓励人工智能在解决复杂经济问题方面的发展,自动化所团队举办第二届计算经济学竞赛。该竞赛将包括两个赛道:政府方面的最优税收解决方案和家庭方面的最优储蓄和劳动策略。竞赛情景具有高度多主体属性和学术研究价值,与AAMAS2024的目标受众和竞赛要求高度契合。参与者将通过及第平台参与竞赛,该平台配备了大规模在线事件所需的设施,并提供AI智能体的实时评估。

图1.TaxAI仿真器的经济活动

图2.各赛道参赛者统计

此网站支持IE9及以上浏览器访问

地址:北京市海淀区中关村东路95号邮编:100190Email:casia@ia.ac.cn

THE END
1.一次开发一键部署!跨平台高性能边端AI推理部署框架的应用与实践算法模型一般都运行在 NPU 上,在边端硬件层,包含了芯片、NPU 算力、推理库和量化工具等关键部分,尽管不同硬件厂商提供的推理库和量化工具各异,但它们的 NPU 一般只支持 INT8,这就要求模型必须经过 INT8 量化才能在 NPU 上跑。INT8 量化是模型生产阶段的一部分,由于每家硬件的量化工具不同,如果在各硬件平台上https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/141073493
2.在线协作工具都有哪些?推荐这10款即时设计是一款免费的在线 UI 设计工具,无系统限制,浏览器打开即可使用,更有丰富的在线素材、云端字体、交互动画等功能满足多种需求,轻松应付移动端、Web端、可视化大屏等设计场景,还可和产品、开发轻松协作,实时在线评审、交付切图、查看代码标注,大幅提高团队工作效率。 http://www.wjks.cn/news/64952.html
3.企业常用的文件加密软件分享轻松加密,2025年文件加密软件精选软件推荐:Zoho Vault:一款在线协作加密工具,支持对文档、密码和其他敏感信息进行加密管理。它提供直观的用户界面和强大的权限管理功能,确保团队成员只能访问他们被授权的文件。 五、混合加密法 方法介绍:混合加密是结合多种加密算法和加密方法,对文件进行多重加密保护的方法。这种方法能够提供更高级别的安全性,但也可能增https://maimai.cn/article/detail?fid=1857884355&efid=E5NGU5xfjtYYef_Um3RK-A
4.基于JavaScript实现实时在线协作编辑器javascript技巧这个函数接收两个用户操作作为参数,并根据操作转换算法计算合并后的操作。具体实现可以根据所选算法进行自定义。你可以查阅相关资料或使用现有的库来实现操作转换算法。 4. 冲突解决 冲突解决是在线协作编辑器中的另一个挑战性任务。一种常见的方法是使用三向合并算法来解决冲突。以下是一个简单的示例: 1 2 3 4 fuhttps://www.jb51.net/javascript/313108jfq.htm
5.在线协作文档编辑原理合集以下给?家带来了?款在线协同编辑?档软件,?家就根据的需求进?选择吧。 ?墨?档 轻便、简洁 的在线协作?档?具,PC端和移动端全覆盖,?持多?同时对?档编辑和评论,让你与他?轻松完成协作撰稿、?案讨论、会议记录 和资料共享等?作,可以创建 ?档、表格、幻灯?、https://wenku.baidu.com/aggs/d73c7216866fb84ae45c8d4e.html
6.如何实现多人协作的在线文档腾讯云开发者社区文档加锁:当有人修改文档时,对整个文档加写锁,别人都只能看不可编辑。虽然实现简单,不过协作的体验会特别差。 diff+patch的合并算法:diff+patch是常用的文档内容比较和合并算法,Linux本身就提供了diff和patch命令支持文件的比较和合并。git也使用了diff+patch方法来合并文件,当无法解决冲突时,会把冲突抛给用户手动合https://cloud.tencent.com/developer/article/2081616
7.实现一个多人协作在线文档有哪些技术难点?用于多人协同编辑 Autodesk Maya 文档OT算法维持一致性的基本思路是根据先前执行的并发操作的影响将编辑操作转换为新形式,以便转换后的操作可以实现正确的效果,并确保复制的文档相同。 这是一篇鸽了很久的回答,正巧 Cloud Studio 也实现了多人协作代码编辑,技术原理上来说是差不多的,这里把之前我的一篇博客发上来吧https://www.51cto.com/article/681349.html
8.智能感知与人机协同教育部重点实验室多项研究成果入选NeurIPS上海科技大学“智能感知与人机协同”教育部重点实验室共有10篇论文入选。该系列论文展示了重点实验室在多模态场景感知与生成、多模态学习推理和负责任的人工智能理论方向上的高水平学术成果,为探索人类智能与机器智能交互协作奠定了理论和算法基础。 一、场景感知与生成https://www.shanghaitech.edu.cn/2023/1228/c1001a1087388/page.htm
9.七月在线七月在线创始人,七月大模型与机器人技术总负责人 北理工校外导师,微软AI MVP,Github上2万余star,CSDN 2000万PV博客『结构之法 算法之道』博主,去过近百所985/211高校分享算法,亦是华为云等数十个大会的演讲嘉宾。2015年创办七月在线,并于2018年获得好未来千万投资,到2022年平台上聚集了350+的大厂专家讲师团队https://www.julyedu.com/
10.基于人工智能算法的推荐系统原理及优势人工智能DL 技术还利用庞大且快速发展的新颖网络架构和优化算法,对大量数据进行训练,利用深度学习的强大功能进行特征提取,并构建更具表现力的模型。 当前基于 DL 的推荐系统模型:DLRM、Wide and Deep (W&D)、神经协作过滤 (NCF)、b 变分自动编码器 (VAE) 和 BERT(适用于 NLP)构成了 NVIDIA GPU 加速 DL 模型产品组合https://www.elecfans.com/rengongzhineng/2315977.html
11.推进上海经济数字化转型赋能高质量发展行动方案(2021——经济“存量”基础能级提升。数字新基建能力保持全国领先,全球信息枢纽城市基本建成,关键核心技术创新和智能产品转化力度全面增强,在集成电路、人工智能、工业软件等领域集中突破100+关键技术、形成100+标准化算法产品、培育100+智能硬件产品。 ——产业“增量”动能全面释放。在线新经济增长极作用显现,业态模式持续创新https://www.sheitc.sh.gov.cn/bmgzjxgwj/20211110/95deefdb2e3040e39714927266acdc5c.html
12.Agent机制6篇(全文)2.2.3 算法描述 设计多Agent协作算法应遵循以下3个原则。一是尽可能保证系统内各Agent的总付出花费接近。二是总付出相等时,应该保证系统总花费尽可能小。三是更倾向于与轻载Agent进行合作,保证执行效率尽可能高。 依据上述原则,将系统中的Agent以及其要完成的任务用加权有向图的方式来表示(见图1)。在图1中每条https://www.99xueshu.com/w/ikeyplhg7o3k.html
13.一种基于蚁群算法的多机器人协作方法经管文库相似文件换一批 国民经济行业分类与国际标准行业分类(ISIC R15.33 KB0个论坛币 如何用Stata实现https://bbs.pinggu.org/thread-13315003-1-1.html
14.桂林电子科技大学导师教师师资介绍简介李树2. “基于多源偏振遥感数据的云光学厚度及有效粒子半径反演研究”(编号:桂科AD**),广西科技人才项目,2019.12-2022.11 3. “基于多光谱偏振成像的目标变化检测技术研究”,协作课题 4. “弱标注深度学习数据生成算法开发”,协作课题 专利及知识产权 联系信息邮箱:lishu_owen@sina.comhttp://school.freekaoyan.com/guangxi/guet/2021/06-13/16235680151504762.shtml
15.新一代知识管理与协同平台,在线文档笔记知识库,项目管理协作FlowUs息流新一代知识管理与协作平台,以云端笔记为载体, 为个人和团队提供在线协作文档、多维表、流程图、网盘等多形态功能。产品覆盖移动及PC端全生态链条,依托FlowUs息流,团队和个人用户能够实现项目管理、知识库、网盘、内部工作流等一站式解决方案。https://flowus.cn/product
16.干货一夏丨RDS核心功能讲解篇「下」行业资讯资讯有别于传统的格点矩阵地图,RDS 基于有向图,运用多智能体协作规划(MAPF)算法,在面向任意拓扑结构、存在任意人为干扰的场景时,通过动态全局协同规划,进行多机器人路径搜索和交通管制,可令机器人有效躲避拥堵、及时预防和解除死锁。 「全厂调控,智慧调度」,RDS 已实现支持各种复杂的现场环境和路线;支持不同程度的模块化https://www.chinaagv.com/news/detail/202306/26982.html
17.目录《新兴权利》集刊2023年第2卷澎湃号·政务澎湃新闻“人机协作”在智慧司法不同阶段具有不同的功能定位,立案阶段目的在于人民司法获得感的实践提升,智慧裁判目的在于对数字正义的司法追求,智慧执行的目的在于对胜诉权益的司法维护。然而,我国智慧法院建设仍面临着缺乏能动司法意识,存在机械司法的法律风险、阻碍法官自主性的伦理风险,算法黑箱与技术鸿沟依然存在的技术风险。https://www.thepaper.cn/newsDetail_forward_26108976
18.金山协作隐私政策在进行在线文档协作时,为使参与协作编辑的各方知晓被编辑、改动的信息,我们会对展示您的头像、昵称和修改痕迹,并供各方查看文档的历史版本。此外,您可以根据个人需求设置文档权限。 音视频会议 当您使用本服务的音视频会议时,我们需要您授权我们获取设备的摄像头/麦克风权限,如果您拒绝授权将无法使用本功能,但不影响https://www.wps.cn/privacy/xiezuo
19.张西恒生成式人工智能对在线异步审理困境的疏解及限度而生成式人工智能嵌入在线异步审理,可以在增强司法的可及性、提升审理效率、优化诉讼参与主体表述的准确性等方面疏解在线异步审理与传统诉讼原理之间的紧张关系。但是,也应注意其在异步审理中的运用可能造成的负面影响,包括对司法人员的技术奴役将可能使司法人员庸化并丧失主体性;技术自身的算法伦理风险有可能使司法丧失公https://www.jfdaily.com/sgh/detail?id=1205126