2024国际智能体和多智能体系统会议(AAMAS)自动化所入选成果速览

国际智能体和多智能体系统会议(InternationalConferenceonAutonomousAgentsandMulti-agentSystems,AAMAS),是智能体和多智能体系统领域最大和最有影响力的国际学术会议之一。智能体研究作为人工智能领域的重要分支,具有巨大的革新潜力与应用前景,其发展对于理解人类智能本质,推动人工智能技术发展,解决社会问题具有重要价值。第23届AAMAS于5月6日至10日在新西兰召开。自动化所多篇研究论文被本届AAMAS录用,并参与组织了两项智能体赛事。

一、研究论文

1.面向连续控制的一致性策略

BoostingContinuousControlwithConsistencyPolicy

论文作者:陈宇辉,李浩然,赵冬斌

2.基于反事实信誉分配的协作多智能体强化学习算法

AligningCreditforMulti-AgentCooperationviaModel-basedCounterfactualImagination

论文作者:柴嘉骏、傅宇千、赵冬斌、朱圆恒

现有基于模型的多智能体强化学习方法仍采用为单智能体环境设计的训练框架,导致现有算法对多智能体协作的促进不足。该研究提出了一种新颖的基于模型的多智能体强化学习方法,称为多智能体反事实Dreamer(MACD)。其引入了一种集中式想象与分布式执行框架,用于生成更高质量的想象数据以进行策略学习,从而进一步提高算法的样本效率,并通过生成额外的反事实轨迹评估单一智能体对整体的贡献,进而解决信誉分配和非平稳问题。研究中提供了对应的理论推导,表明该反事实策略更新规则能够提升多智能体协作学习目标。实验结果验证了该研究在样本效率、训练稳定性和最终合作性能方面相较于几种最先进的无模型和有模型的多智能体强化学习算法的优越性。消融研究和可视化演示进一步强调了该训练框架以及其反事实模块的重要性。

MA-RSSM框架。(a)MACD与已有算法框架的对比。(b)集中式想象世界模型。智能体将在该模型中建模整个系统的状态转移过程。(c)想象空间内进行的集中式预测。通信模块聚合来自所有智能体的输入信息,并生成智能体i的通信特征。

3.多智能体强化学习中的智能体策略距离度量

MeasuringPolicyDistanceforMulti-AgentReinforcementLearning

论文作者:扈天翼、蒲志强;艾晓琳;丘腾海;易建强

策略多样性对于提升多智能体强化学习的效果起着至关重要的作用。尽管现在已经有许多基于策略多样性的多体强化学习算法,但是目前尚缺乏一个通用的方法来量化智能体之间的策略差异。测量策略差异性不仅能够方便评估多智能体系统在训练中的多样性演化,还有助于为基于策略多样性的算法设计提供指导。为此,我们提出了MAPD,一个通用的多智能体策略距离度量方法。不同于直接量化形式各异的动作分布间的距离,该方法通过学习智能体决策的条件表征来间接量化智能体的策略距离。我们还开发了MAPD的扩展版本CMAPD,其能够量化智能体策略在特定倾向上的差异,如两个智能体在攻击倾向和防御倾向上的策略差异。基于MAPD和CMAPD的在线部署,我们设计了一套多智能体动态参数共享算法MADPS。实验表明我们的方法在测量智能体策略差异和特定行为倾向上的差异是有效的。而且,与其他参数共享方法相比,MADPS展示了更优越的性能。

学习智能体决策的条件表征

4.TaxAI:动态经济仿真器和多智能体强化学习算法基准

TaxAI:ADynamicEconomicSimulatorandBenchmarkforMulti-AgentReinforcementLearning

论文作者:米祈睿,夏思宇,宋研,张海峰,朱胜豪,汪军

税收是政府促进经济增长和保障社会公正的关键手段。但是,准确预测多样的自利家庭的动态策略是非常困难的,这对政府制定有效的税收政策构成了挑战。多智能体强化学习(MARL),凭借其在模拟部分可观测环境中的其他智能体、以及适应性学习求解最优策略的能力,非常适合去解决政府与众多家庭间的动态博弈问题。尽管MARL展现出比遗传算法和动态规划等传统方法更大的潜力,但目前仍缺乏大规模的多智能体强化学习经济模拟器。因此,我们基于Bewley-Aiyagari经济模型,提出了一个名为TaxAI的MARL环境,用于模拟包括众多家庭、政府、企业和金融中介在内的动态博弈。我们的研究在TaxAI上对2种传统经济方法与7种MARL方法进行了对比,证明了MARL算法的有效性和优越性。更重要的是,TaxAI在模拟政府与高达10,000户家庭之间的动态互动及其与真实数据的校准能力上,都大幅提升了模拟的规模和现实性,使其成为目前最为逼真的经济模拟器。

图1.Bewley-Aiyagari模型动力学

图2.政府与家庭智能体之间的部分可观测马尔科夫博弈

5.谷歌足球环境中的多智能体强化学习研究:回顾、现状和展望

BoostingStudiesofMulti-AgentReinforcementLearningonGoogleResearchFootballEnvironment:thePast,Present,andFuture

论文作者:宋研,江河,张海峰,田政,张伟楠,汪军

图1.在六个Academy足球场景中不同多智能体强化学习算法的效果对比

图2.分布式异构种群自博弈训练框架示意图

6.针对自然语言约束的基于预训练语言模型的安全强化学习算法

SafeReinforcementLearningwithFree-formNaturalLanguageConstraintsandPre-TrainedLanguageModels

论文作者:娄行舟,张俊格,王梓岩,黄凯奇,杜雅丽

针对基于自然语言约束的安全强化学习中,现有方法对复杂形式自然语言约束表征能力、处理能力不足,并且将自然语言约束转化为智能体可学习的代价函数需要大量的特定领域知识的问题,我们提出使用预训练语言模型对自然语言约束进行处理,帮助智能体进行理解,并且完成代价函数预测,实现了在无需真实代价函数的前提下,让智能体能够学会遵守自由形式的复杂人类自然语言给出的约束条件。我们提出的算法在性能上可以达到与使用真实代价函数的方法相近的性能。并且在代价函数预测上,相比直接提示GPT-4来进行预测,我们所提出方法的预测结果的F1-score实现了23.9%的提升。

所提出方法对自然语言约束进行处理,使得处理后的约束可用于预测代价函数和约束智能体的策略

7.PDiT:用于深度强化学习的感知与决策交错Transformer

PDiT:InterleavingPerceptionandDecision-makingTransformersforDeepReinforcementLearning

论文作者:毛航宇,赵瑞,黎子玥,徐志伟,陈皓,陈逸群,张斌,肖臻,张俊格,尹江津

8.从显式通信到默契合作:一种新的合作多智能体强化学习范式

FromExplicitCommunicationtoTacitCooperation:ANovelParadigmforCooperativeMARL

论文作者:李大鹏、徐志伟、张斌、周光翀、张泽仁、范国梁

集中式训练-分散式执行作为一种被广泛使用的学习范式,近年来在复杂合作任务中取得了显著成功。然而,该范式的有效性在部分可观察性问题中会存在一定的限制。尽管通信可以缓解这一挑战,但同时引入的通信成本也降低了算法的实用性。本文从人类团队合作学习中汲取灵感,提出了一种新的学习范式并称为TACO,TACO促进了算法从完全的显式通信到无通信的默契合作的转变。在初始训练阶段,TACO通过在智能体间进行显式通信来促进合作,同时以自监督的方式使用每个智能体的局部轨迹来对通信信息进行重建。在整个训练过程中,TACO不断减少显式通信信息的比值,从而逐渐转移到无沟通的完全分散式执行。在多个不同场景下的实验结果表明,TACO在不使用通信的表现可以接近甚至超过经典值分解方法和基于通信的方法。

图1.人类团队合作过程中的演变过程

图2.TACO算法的整体框架

9.ELA:用于零和博弈离线学习的受剥削等级增强方法

ELA:ExploitedLevelAugmentationforOfflineLearninginZero-SumGames

论文作者:雷世骐、李康勋、李林静、朴振奎、李家琛

离线学习算法通常都会受到低质量演示者的负面影响,而在博弈场景中,还需要对各个轨迹所对应策略的优劣做出估计,并剔除其中较差策略产生的轨迹。本文设计了一种部分条件可训练变分循环神经网络(P-VRNN),采用无监督的方式来学习轨迹所对应策略的表示,通过结合已有轨迹可预测下一步动作。同时,本文定义了轨迹的受剥削等级(ExploitedLevel,EL),用以近似经典的可利用度。根据轨迹对应的策略表示,并利用其最终收益可以对EL做出估计。本文将EL作为轨迹筛选器,用以增强现有的离线学习算法。在Pong和有限注德州扑克中的测试表明,BC、BCQ和CQL三种代表性离线学习算法在通过ELA增强后,均可以击败原有算法生成的策略。

图1.ELA算法整体结构

图2.在Pong游戏中轨迹对应的策略表示及估计出的受剥削等级

二、游戏竞赛

1.非完全信息棋牌游戏竞赛AAMAS2024Imperfect-informationCardGamesCompetition

竞赛设计者:张海峰,宋研,闫雪,邵坤

为促进不完美信息游戏中AI技术的发展,自动化所团队举办第二届不完美信息卡牌游戏竞赛。此次竞赛将涵盖多智能体领域的各种挑战,探索诸如对手建模和AI智能体泛化能力等领域。参与者通过及第平台参与竞赛,平台将对提交AI智能体的进行在线评估,为举办大规模在线比赛做准备。

AAMAS2024非完全信息棋牌游戏竞赛共有三个赛道,如图所示分别为四人德州扑克(左)、桥牌(中)以及麻将(右)。

【竞赛网页】

四人无限注德州扑克赛道:

桥牌赛道:

麻将赛道:

2.计算经济学竞赛AAMAS2024ComputationalEconomicsCompetition

竞赛设计者:张海峰,米祈睿,宋研

为鼓励人工智能在解决复杂经济问题方面的发展,自动化所团队举办第二届计算经济学竞赛。该竞赛将包括两个赛道:政府方面的最优税收解决方案和家庭方面的最优储蓄和劳动策略。竞赛情景具有高度多主体属性和学术研究价值,与AAMAS2024的目标受众和竞赛要求高度契合。参与者将通过及第平台参与竞赛,该平台配备了大规模在线事件所需的设施,并提供AI智能体的实时评估。

图1.TaxAI仿真器的经济活动

图2.各赛道参赛者统计

此网站支持IE9及以上浏览器访问

地址:北京市海淀区中关村东路95号邮编:100190Email:casia@ia.ac.cn

THE END
1.什么是人工智能领域的ReinforcementLearning现实世界中强化学习的应用广泛而深远,从自动驾驶、机器人控制,到游戏玩家和推荐系统,都能看到它的身影。以 AlphaGo 为例,这是一个结合了蒙特卡洛树搜索和深度神经网络的深度强化学习系统,它学会了在围棋游戏中战胜世界级的人类选手。这一成就不仅展示了深度强化学习的强大能力,也激发了更多领域对强化学习技术的探索和https://open.alipay.com/portal/forum/post/159101016
2.ReinforcementLearning)和在线强化学习(OnlineReinforcementLearnin训练过程:在离线强化学习中,模型使用这些离线数据进行训练,目标是从这些数据中学习到一个良好的策略,而不需要与真实环境进行交互。 应用场景:离线强化学习适用于那些收集数据困难或成本高昂的场景,以及对实时反馈不敏感的任务。 在线强化学习: 数据获取:在线强化学习是在实际环境中与代理程序交互,通过与环境的交互来获取https://blog.csdn.net/qq_40718185/article/details/139231769
3.强化学习的基本概念在线学习和离线学习针对的是在强化学习模型在训练过程中交互数据的使用方式。在线学习的强化学习模型,会在一个交互之后,立即用本次交互得到的经验进行训练。而离线学习的强化学习模型,往往是先将多个交互的经验存储起来,然后在学习的时候,从存储的经验中取出一批交互经验来学习。 https://www.jianshu.com/p/28625d3a60e6
4.强化学习离线模型离线模型和在线模型强化学习离线模型 离线模型和在线模型 在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。 本文尝试列举一些常见的原因,为大家排查问题提供一点思路。 1. 离线、在线特征不一致https://blog.51cto.com/u_14499/11815202
5.离线强化学习图18-1 离线强化学习和在线策略算法、离线策略算法的区别 18.2 批量限制 Q-learning 算法 图18-1 中的离线强化学习和离线策略强化学习很像,都要从经验回放池中采样进行训练,并且离线策略算法的策略评估方式也多种多样。因此,研究者们最开始尝试将离线策略算法直接照搬到离线的环境下,仅仅是去掉算法中和环境交互的https://hrl.boyuai.com/chapter/3/%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/
6.科学网—[转载]强化学习在资源优化领域的应用随着强化学习在围棋、游戏等序列化决策领域大放异彩、在多智能体协作等领域取得较好表现,它的一些优秀特性也得到了资源优化领域的关注。首先,基于强化学习的解决方案决策非常高效。虽然强化学习策略的训练非常耗时,但是这些训练工作可以离线进行,实际中只需要利用训练好的模型进行推理,因而在绝大部分情况下可以做到近似实时https://blog.sciencenet.cn/blog-3472670-1312677.html
7.2020届计算机科学方向毕业设计(论文)阶段性汇报本文将信息流推荐系统与用户的多步交互过程建模为马尔科夫决策过程,并基于强化学习算法设计动态决定信息流推荐中广告间隔的模型,以优化广告收入与用户参与度指标的综合长期目标。针对在推荐系统场景中部署在线强化学习模型的挑战,本文使用推荐系统的历史日志数据离线训练强化学习策略,并通过实验对相应算法的可行性及效果进行https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3709
8.多目标排序在快手短视频推荐中的实践多目标精排:从手工融合到Learn To Rank 复杂多目标:Ensemble Sort和在线自动调参 重排序:Listwise、强化学习和端上重排序 总结和展望 01 快手短视频推荐场景介绍 1. 关于快手 快手主要的流量形态 有4个页面: ① 发现页:致力于让用户看见更大的世界,分为单列和双列两种形态。 https://maimai.cn/article/detail?fid=1603183032&efid=T7RIoRo14AcJUC_PIXWVhA
9.从搜索到智能客服:阿里开放强化学习技术演进与实践书籍机器之心近日,阿里开放了一本描述强化学习在实践中应用的书籍《强化学习在阿里的技术演进与业务创新》,这本书重点描述了阿里巴巴在推动强化学习输出产品及商业化的实践过程。例如在在搜索场景中对用户的浏览购买行为进行 MDP 建模、在推荐场景中使用深度强化学习与自适应在线学习帮助每?个用户迅速发现宝贝、在智能客服中赋予阿里https://www.jiqizhixin.com/articles/2018-02-06-3
10.强化学习究竟是什么?它与机器学习技术有什么联系?▌3.最常用的深度学习算法原理是什么? Q-learning和SARSA是两种最常见的不理解环境强化学习算法,这两者的探索原理不同,但是开发原理是相似的。Q-learning是一种离线学习算法,智能体需要从另一项方案中学习到行为a*的价值;SARSA则是一种在线学习算法,智能体可从现有方案指定的当前行为来学习价值。这两种方法都很容易https://m.elecfans.com/article/662224.html
11.探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff同样的思想也可以应用到强化学习算法中。在下面的章节中,基于附加奖励的探索奖励方法大致分为两类:一是发现全新的状态,二是提高智能体对环境的认知。 1、基于计数的探索策略 如果将状态的新颖程度作为内在奖励的条件,那就需要寻找一种方法来衡量当前状态是新颖的还是经常出现的。一种直观的方法是统计一个状态出现的次https://www.zhuanzhi.ai/document/8c25cb38ff7b6a2acc8610b42ff00fdd
12.基于深度强化学习的水面无人艇路径跟踪方法6.针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于深度强化学习的水面无人艇路径跟踪方法,无需进行环境和无人艇运动建模并且具备自适应能力,从而能够进一步提高无人艇路径跟踪控制的稳定性和准确性。 7.为了解决上述技术问题,本发明采用了如下的技术方案: https://www.xjishu.com/zhuanli/54/202210772926.html/
13.在对齐AI时,为什么在线方法总是优于离线方法?根据人类反馈的强化学习(RLHF)随着大型语言模型(LLM)发展而日渐成为一种用于 AI 对齐的常用框架。不过近段时间,直接偏好优化(DPO)等离线方法异军突起 —— 无需主动式的在线交互,使用离线数据集就能直接对齐 LLM。这类方法的效率很高,也已经得到实证研究的证明。但这也引出了一个关键问题: https://m.thepaper.cn/newsDetail_forward_27434433
14.深度强化学习实战:用OpenAIGym构建智能体全书先简要介绍智能体和学习环境的一些入门知识,概述强化学习和深度强化学习的基本概念和知识点,然后重点介绍 OpenAI Gym 的相关内容,随后在具体的 Gym 环境中运用强化学习算法构建智能体。本书还探讨了这些算法在游戏、自动驾驶领域的应用。本书适合想用 OpenAI Gym 构建智能体的读者阅读,也适合对强化学习和深度强化https://www.epubit.com/bookDetails?id=UB83082546ee4de
15.深度强化学习针对控制的强化学习实践:设计、测试和部署 产品 了解深度强化学习使用的产品。 Reinforcement Learning Toolbox Deep Learning Toolbox Parallel Computing Toolbox Simulink Simscape 30天免费试用 快速入门 有疑问吗? 请与深度强化学习专家交流。 发邮件给我们https://ww2.mathworks.cn/solutions/deep-learning/deep-reinforcement-learning.html
16.机器学习学术速递[7.26]腾讯云开发者社区【1】 Model Selection for Offline Reinforcement Learning: Practical Considerations for Healthcare Settings 标题:离线强化学习的模型选择:医疗设置的实际考虑 作者:Shengpu Tang,Jenna Wiens 机构:Department of Electrical Engineering and Computer Science, University of Michigan, Ann Arbor, MI, USA 备注:33 pahttps://cloud.tencent.com/developer/article/1852823
17.人工智能技术研究人工智能技术创新自动离线强化学习 自动算法选择与动态调参 自动表示学习 样本高效强化学习 环境学习Environment Learning 知识驱动离散环境学习 知识驱动连续环境学习 数据驱动基于ML的环境学习 数据驱动基于因果的环境学习 AI基础架构 系统框架System Architecture 异构计算Heterogeneous Computing https://www.4paradigm.com/about/research.html