2024国际智能体和多智能体系统会议（AAMAS）自动化所入选成果速览|离线和在线强化学习_在线学习

国际智能体和多智能体系统会议（InternationalConferenceonAutonomousAgentsandMulti-agentSystems，AAMAS），是智能体和多智能体系统领域最大和最有影响力的国际学术会议之一。智能体研究作为人工智能领域的重要分支，具有巨大的革新潜力与应用前景，其发展对于理解人类智能本质，推动人工智能技术发展，解决社会问题具有重要价值。第23届AAMAS于5月6日至10日在新西兰召开。自动化所多篇研究论文被本届AAMAS录用，并参与组织了两项智能体赛事。

一、研究论文

1.面向连续控制的一致性策略

BoostingContinuousControlwithConsistencyPolicy

论文作者：陈宇辉，李浩然，赵冬斌

2.基于反事实信誉分配的协作多智能体强化学习算法

AligningCreditforMulti-AgentCooperationviaModel-basedCounterfactualImagination

论文作者：柴嘉骏、傅宇千、赵冬斌、朱圆恒

现有基于模型的多智能体强化学习方法仍采用为单智能体环境设计的训练框架，导致现有算法对多智能体协作的促进不足。该研究提出了一种新颖的基于模型的多智能体强化学习方法，称为多智能体反事实Dreamer（MACD）。其引入了一种集中式想象与分布式执行框架，用于生成更高质量的想象数据以进行策略学习，从而进一步提高算法的样本效率，并通过生成额外的反事实轨迹评估单一智能体对整体的贡献，进而解决信誉分配和非平稳问题。研究中提供了对应的理论推导，表明该反事实策略更新规则能够提升多智能体协作学习目标。实验结果验证了该研究在样本效率、训练稳定性和最终合作性能方面相较于几种最先进的无模型和有模型的多智能体强化学习算法的优越性。消融研究和可视化演示进一步强调了该训练框架以及其反事实模块的重要性。

MA-RSSM框架。(a)MACD与已有算法框架的对比。(b)集中式想象世界模型。智能体将在该模型中建模整个系统的状态转移过程。(c)想象空间内进行的集中式预测。通信模块聚合来自所有智能体的输入信息，并生成智能体i的通信特征。

3.多智能体强化学习中的智能体策略距离度量

MeasuringPolicyDistanceforMulti-AgentReinforcementLearning

论文作者：扈天翼、蒲志强；艾晓琳；丘腾海；易建强

策略多样性对于提升多智能体强化学习的效果起着至关重要的作用。尽管现在已经有许多基于策略多样性的多体强化学习算法，但是目前尚缺乏一个通用的方法来量化智能体之间的策略差异。测量策略差异性不仅能够方便评估多智能体系统在训练中的多样性演化，还有助于为基于策略多样性的算法设计提供指导。为此，我们提出了MAPD，一个通用的多智能体策略距离度量方法。不同于直接量化形式各异的动作分布间的距离，该方法通过学习智能体决策的条件表征来间接量化智能体的策略距离。我们还开发了MAPD的扩展版本CMAPD，其能够量化智能体策略在特定倾向上的差异，如两个智能体在攻击倾向和防御倾向上的策略差异。基于MAPD和CMAPD的在线部署，我们设计了一套多智能体动态参数共享算法MADPS。实验表明我们的方法在测量智能体策略差异和特定行为倾向上的差异是有效的。而且，与其他参数共享方法相比，MADPS展示了更优越的性能。

学习智能体决策的条件表征

4.TaxAI:动态经济仿真器和多智能体强化学习算法基准

TaxAI:ADynamicEconomicSimulatorandBenchmarkforMulti-AgentReinforcementLearning

论文作者：米祈睿，夏思宇，宋研，张海峰，朱胜豪，汪军

税收是政府促进经济增长和保障社会公正的关键手段。但是，准确预测多样的自利家庭的动态策略是非常困难的，这对政府制定有效的税收政策构成了挑战。多智能体强化学习（MARL），凭借其在模拟部分可观测环境中的其他智能体、以及适应性学习求解最优策略的能力，非常适合去解决政府与众多家庭间的动态博弈问题。尽管MARL展现出比遗传算法和动态规划等传统方法更大的潜力，但目前仍缺乏大规模的多智能体强化学习经济模拟器。因此，我们基于Bewley-Aiyagari经济模型，提出了一个名为TaxAI的MARL环境，用于模拟包括众多家庭、政府、企业和金融中介在内的动态博弈。我们的研究在TaxAI上对2种传统经济方法与7种MARL方法进行了对比，证明了MARL算法的有效性和优越性。更重要的是，TaxAI在模拟政府与高达10,000户家庭之间的动态互动及其与真实数据的校准能力上，都大幅提升了模拟的规模和现实性，使其成为目前最为逼真的经济模拟器。

图1.Bewley-Aiyagari模型动力学

图2.政府与家庭智能体之间的部分可观测马尔科夫博弈

5.谷歌足球环境中的多智能体强化学习研究：回顾、现状和展望

BoostingStudiesofMulti-AgentReinforcementLearningonGoogleResearchFootballEnvironment:thePast,Present,andFuture

论文作者：宋研，江河，张海峰，田政，张伟楠，汪军

图1.在六个Academy足球场景中不同多智能体强化学习算法的效果对比

图2.分布式异构种群自博弈训练框架示意图

6.针对自然语言约束的基于预训练语言模型的安全强化学习算法

SafeReinforcementLearningwithFree-formNaturalLanguageConstraintsandPre-TrainedLanguageModels

论文作者：娄行舟，张俊格，王梓岩，黄凯奇，杜雅丽

针对基于自然语言约束的安全强化学习中，现有方法对复杂形式自然语言约束表征能力、处理能力不足，并且将自然语言约束转化为智能体可学习的代价函数需要大量的特定领域知识的问题，我们提出使用预训练语言模型对自然语言约束进行处理，帮助智能体进行理解，并且完成代价函数预测，实现了在无需真实代价函数的前提下，让智能体能够学会遵守自由形式的复杂人类自然语言给出的约束条件。我们提出的算法在性能上可以达到与使用真实代价函数的方法相近的性能。并且在代价函数预测上，相比直接提示GPT-4来进行预测，我们所提出方法的预测结果的F1-score实现了23.9%的提升。

所提出方法对自然语言约束进行处理，使得处理后的约束可用于预测代价函数和约束智能体的策略

7.PDiT：用于深度强化学习的感知与决策交错Transformer

PDiT:InterleavingPerceptionandDecision-makingTransformersforDeepReinforcementLearning

论文作者：毛航宇，赵瑞，黎子玥，徐志伟，陈皓，陈逸群，张斌，肖臻，张俊格，尹江津

8.从显式通信到默契合作：一种新的合作多智能体强化学习范式

FromExplicitCommunicationtoTacitCooperation:ANovelParadigmforCooperativeMARL

论文作者：李大鹏、徐志伟、张斌、周光翀、张泽仁、范国梁

集中式训练-分散式执行作为一种被广泛使用的学习范式，近年来在复杂合作任务中取得了显著成功。然而，该范式的有效性在部分可观察性问题中会存在一定的限制。尽管通信可以缓解这一挑战，但同时引入的通信成本也降低了算法的实用性。本文从人类团队合作学习中汲取灵感，提出了一种新的学习范式并称为TACO，TACO促进了算法从完全的显式通信到无通信的默契合作的转变。在初始训练阶段，TACO通过在智能体间进行显式通信来促进合作，同时以自监督的方式使用每个智能体的局部轨迹来对通信信息进行重建。在整个训练过程中，TACO不断减少显式通信信息的比值，从而逐渐转移到无沟通的完全分散式执行。在多个不同场景下的实验结果表明，TACO在不使用通信的表现可以接近甚至超过经典值分解方法和基于通信的方法。

图1.人类团队合作过程中的演变过程

图2.TACO算法的整体框架

9.ELA：用于零和博弈离线学习的受剥削等级增强方法

ELA:ExploitedLevelAugmentationforOfflineLearninginZero-SumGames

论文作者：雷世骐、李康勋、李林静、朴振奎、李家琛

离线学习算法通常都会受到低质量演示者的负面影响，而在博弈场景中，还需要对各个轨迹所对应策略的优劣做出估计，并剔除其中较差策略产生的轨迹。本文设计了一种部分条件可训练变分循环神经网络（P-VRNN），采用无监督的方式来学习轨迹所对应策略的表示，通过结合已有轨迹可预测下一步动作。同时，本文定义了轨迹的受剥削等级（ExploitedLevel，EL），用以近似经典的可利用度。根据轨迹对应的策略表示，并利用其最终收益可以对EL做出估计。本文将EL作为轨迹筛选器，用以增强现有的离线学习算法。在Pong和有限注德州扑克中的测试表明，BC、BCQ和CQL三种代表性离线学习算法在通过ELA增强后，均可以击败原有算法生成的策略。

图1.ELA算法整体结构

图2.在Pong游戏中轨迹对应的策略表示及估计出的受剥削等级

二、游戏竞赛

1.非完全信息棋牌游戏竞赛AAMAS2024Imperfect-informationCardGamesCompetition

竞赛设计者：张海峰，宋研，闫雪，邵坤

为促进不完美信息游戏中AI技术的发展，自动化所团队举办第二届不完美信息卡牌游戏竞赛。此次竞赛将涵盖多智能体领域的各种挑战，探索诸如对手建模和AI智能体泛化能力等领域。参与者通过及第平台参与竞赛，平台将对提交AI智能体的进行在线评估，为举办大规模在线比赛做准备。

AAMAS2024非完全信息棋牌游戏竞赛共有三个赛道，如图所示分别为四人德州扑克（左）、桥牌（中）以及麻将（右）。

【竞赛网页】

四人无限注德州扑克赛道：

桥牌赛道：

麻将赛道：

2.计算经济学竞赛AAMAS2024ComputationalEconomicsCompetition

竞赛设计者：张海峰，米祈睿，宋研

为鼓励人工智能在解决复杂经济问题方面的发展，自动化所团队举办第二届计算经济学竞赛。该竞赛将包括两个赛道：政府方面的最优税收解决方案和家庭方面的最优储蓄和劳动策略。竞赛情景具有高度多主体属性和学术研究价值，与AAMAS2024的目标受众和竞赛要求高度契合。参与者将通过及第平台参与竞赛，该平台配备了大规模在线事件所需的设施，并提供AI智能体的实时评估。

图1.TaxAI仿真器的经济活动

图2.各赛道参赛者统计

此网站支持IE9及以上浏览器访问

地址：北京市海淀区中关村东路95号邮编：100190Email：casia@ia.ac.cn

THE END

2024国际智能体和多智能体系统会议（AAMAS）自动化所入选成果速览

新的控制论与新的强化学习算法科学信号人工智能

今天来讨论下离线强化学习方法

强化学习图鉴｜你与最优策略之间，可能还差一本离线强化学习秘籍

基于集成网络的离线到在线强化学习

AWAC：使用离线数据集加速在线强化学习技术博客技术支持京天机器人官网

大模型面经答案—强化学习：理论解释与讲解

扩散模型如何构建新一代决策智能体？超越自回归，同时生成长序列规划轨迹智能体新浪科技

强化学习（七）时序差分离线控制算法QLearning刘建平Pinard

2024国际智能体和多智能体系统会议（AAMAS）自动化所入选成果速览

ADL120《深度强化学习》开始报名

深度强化学习