中山大学美团联合团队推出行为正则化与顺序策略优化结合的离线多智能体学习算法AI.xAIGC专属社区

离线多智能体强化学习(MARL)是一个新兴领域,目标是在从预先收集的数据集中学习最佳的多智能体策略。相比于单智能体情况,多智能体环境涉及到大规模的联合状态-动作空间和多智能体间的耦合行为,这给离线策略优化带来了额外的复杂性。随着人工智能技术的发展,多智能体系统在诸如自动驾驶、智能家居和机器人协作等方面展现了巨大的应用潜力。但是离线MARL较单智能体情况下更加复杂,其涉及庞大的联合状态-动作空间和多智能体间的复杂互动行为,这使得离线策略优化成为一项艰巨的任务。

离线MARL面临的主要挑战包括:一是如何有效应对分布偏移问题,即在策略评估过程中,分布外(OOD)样本可能导致误差积累;二是在多智能体环境下,协调多个智能体的行为显得尤为困难。现有的离线MARL方法尽管取得了一些进展,但仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战,来自中山大学、美团的联合团队提出了一种新颖的离线MARL算法——样本内顺序策略优化(In-SampleSequentialPolicyOptimization,InSPO),该方法通过顺序更新每个智能体的策略,避免选择OOD联合动作,同时增强了智能体之间的协调。

12月11日,arXiv发表了他们的技术论文《OfflineMulti-AgentReinforcementLearningviaIn-SampleSequentialPolicyOptimization》。研究团队的主要贡献在于提出了InSPO算法,该算法不仅避免了OOD联合动作,还通过探索行为策略中的低概率动作,解决了提前收敛到次优解的问题。理论上InSPO保证了策略的单调改进,并收敛到量化响应均衡(QRE)。实验结果表明,InSPO在多个离线MARL任务中表现出了显著的效果,与当前最先进的方法相比具有明显的优势。

研究团队成员又来自中山大学计算机科学与工程学院的ZongkaiLiu,QianLin,ChaoYu和XiaweiWu、上海创新研究院的ZongkaiLiu和美团的YileLiang,DonghuiLi和XuetaoDing,涵盖了学术界和工业界的专家,致力于多智能体强化学习和行为优化等领域的研究。

在理解离线多智能体强化学习(MARL)中的样本内顺序策略优化之前,首先需要了解合作型马尔可夫游戏的基本概念和框架。

图1:XOR游戏。(a)是联合行动的奖励矩阵。(b)是数据集的分布。

在多智能体系统中,直接计算联合Q函数是一个极其复杂的问题,因为状态-动作空间会随着智能体数量的增加而指数级增长。值分解方法通过将联合Q函数分解为每个智能体的个体Q函数,极大地简化了这个计算过程。具体来说,联合Q函数Q(s,a)Q(s,a)被表示为每个智能体Q函数QiQ_i的组合。这种分解方式依赖于个体-全局-最大化(IGM)原则,即最优联合动作可以通过每个智能体的贪婪动作来识别。然而,这种方法在处理环境中存在多模态奖励景观时可能会遇到困难,因为IGM假设往往会被破坏。

图2:M-NE游戏。(a)是联合行动的奖励矩阵。(b)是数据集的分布。

离线MARL中的行为正则化马尔可夫游戏

通过引入这些基础概念和原理,合作型马尔可夫游戏为多智能体系统的行为建模和优化提供了一个强大的工具。尤其在离线环境中,结合行为正则化和值分解方法,可以有效解决多智能体间的协调问题,并提高策略的整体表现。

在离线多智能体强化学习(MARL)中,策略的优化往往面临着分布外(OOD)联合动作和局部最优解问题。为了应对这些挑战,研究团队提出了一种创新的方法——样本内顺序策略优化(In-SampleSequentialPolicyOptimization,InSPO)。该方法在行为正则化马尔可夫游戏框架下进行,结合了逆KL散度和最大熵正则化,旨在通过顺序更新每个智能体的策略,避免选择OOD联合动作,同时增强智能体之间的协调。

InSPO方法的核心在于通过逆KL散度进行行为正则化,从而确保学习到的策略与行为策略共享相同的支持集,避免选择分布外的动作。具体来说,目标函数中的逆KL散度项可以分解为各个智能体的独立项,这使得顺序更新每个智能体的策略成为可能。数学上通过使用Karush-Kuhn-Tucker(KKT)条件,推导出目标函数的闭式解,从而实现样本内学习。最终的优化目标为最小化KL散度,以确保策略更新的有效性和一致性。

为了进一步增强探索性,防止策略过早收敛到局部最优解,InSPO引入了最大熵行为正则化马尔可夫游戏(MEBR-MG)框架。在这个框架中,策略优化的目标函数不仅包含逆KL散度项,还引入了策略熵项。通过这种方式,优化目标能够促使策略在高概率动作和低概率动作之间保持平衡,鼓励充分探索低概率动作,从而避免局部最优解。理论上,最大熵行为正则化还能够确保策略收敛到量化响应均衡(QRE),即在面对扰动奖励时,策略仍能维持稳定的性能。

通过上述方法,样本内顺序策略优化不仅有效解决了离线MARL中的OOD联合动作问题,还通过策略熵的引入,显著提高了策略的探索能力和全局最优解的发现概率。

算法1:InSPO的步骤

InSPO算法的核心在于通过顺序更新的方式,逐步优化每个智能体的策略,最终实现全局最优。具体步骤如下:

这种顺序更新的策略,确保了每一步的策略优化都是在样本内进行的,避免了分布外动作的选择,提高了策略的稳定性和有效性。

策略评估是InSPO算法中的一个关键步骤。根据更新的Q函数,计算当前策略的期望回报。在多智能体环境中,由于联合动作空间的庞大,研究团队采用了局部Q函数来进行近似。在策略评估过程中,需要顺序地更新每个智能体的局部Q函数,使其能反映最新的策略信息。具体的目标函数包括一个权重项,用于平衡策略的探索和利用。此外,为了降低重要性采样比率的高方差,InSPO采用了重要性重采样技术,通过概率比例重采样构建新的数据集,从而稳定算法的训练效果。

在获得优化的局部Q函数后,接下来就是策略改进步骤。通过最小化KL散度,InSPO能够在保持行为策略特性的同时,逐步优化每个智能体的策略。在具体操作中,使用推导出的目标函数来指导每个智能体的策略更新,这一过程确保了策略的收敛性和改进性。

在实际应用中,InSPO不仅需要在理论上保证策略的有效性,还需要在大规模状态-动作空间中保持高效的计算性能。为了实现这一点,我们对算法进行了多方面的优化:

局部Q函数的优化:为了避免联合动作空间的指数级增长,我们使用局部Q函数来近似全局Q函数,并通过顺序更新的方法逐步优化每个智能体的局部Q函数。

重要性重采样:通过重要性重采样技术,构建新的数据集,降低采样比率的方差,提高训练的稳定性。

自动调节温度参数α:为了找到合适的保守程度,我们实现了自动调节α的机制,根据目标值进行动态调整,从而进一步提高性能。

这些优化措施使得InSPO在处理复杂的多智能体任务时,能够保持高效的性能和良好的收敛性。通过这些实际应用和实现细节,InSPO展现了其在离线MARL中的巨大潜力和应用价值。

在M-NE游戏中,研究团队评估了InSPO对局部最优收敛问题的缓解能力。实验使用两个数据集:一个是由均匀策略收集的平衡数据集,另一个是由接近局部最优的策略收集的不平衡数据集。结果显示,在平衡数据集上,大多数算法都能找到全局最优解,而在不平衡数据集上,只有InSPO正确识别出全局最优解。这表明,在存在多个局部最优解的环境中,数据集分布对算法收敛性有显著影响。InSPO通过全面探索数据集,避免了次优解的影响,展现了其强大的全局最优解识别能力。

图3:数据集XOR博弈的最终联合策略(b)。

星际争霸II微操作基准测试的实验结果

为了进一步验证InSPO的性能,研究团队将研究扩展到星际争霸II微操作基准测试,这是一个高维复杂的环境。实验使用了四个代表性地图,并采用了四个不同的数据集:medium、expert、medium-replay和mixed。在这些实验中,尽管值分解方法在该环境中表现出色,InSPO依然展示了其竞争力,在大多数任务中取得了最先进的结果。实验结果证明了InSPO在高维复杂环境中的应用潜力。

表1-4:星际争霸II微管理的平均测试获胜率。

图4:开始时的桥。

为了评估InSPO中不同组件的影响,研究团队进行了消融研究。首先他们在不平衡数据集上的M-NE游戏中测试了去除熵项的InSPO,结果显示没有熵扰动的InSPO无法逃离局部最优。他们在XOR游戏中测试了同时更新而非顺序更新的InSPO,由于更新方向的冲突,未能学习到最优策略,并面临OOD联合动作问题。此外,研究团队还评估了温度参数α对策略保守程度的影响,结果表明自动调节的α能够找到合适的值,进一步提升性能。

图5:熵消融和顺序更新方案。(a)对于不平衡数据集,在M-NE博弈中没有熵的InSPO。(b)是数据集(b)XOR游戏上InSPO的同步更新版本。

通过这些实验验证,InSPO展现了其在解决离线MARL中的局部最优收敛问题、增强策略探索能力和提高全局最优解识别能力方面的优势。实验结果不仅证明了InSPO的理论可行性,还展示了其在实际应用中的强大潜力。

结论

在本研究中,研究团队提出了一种新颖的离线多智能体强化学习(MARL)算法——样本内顺序策略优化(In-SampleSequentialPolicyOptimization,InSPO)。通过引入逆KL散度和策略熵,他们有效地解决了离线MARL中的分布外(OOD)联合动作和局部最优解问题。理论分析和实验验证表明,InSPO不仅能够实现策略的单调改进,并最终收敛到量化响应均衡(QRE),还在多个基准测试中展示了优越的性能。与现有的离线MARL方法相比,InSPO在应对复杂多智能体任务、提高策略稳定性和探索能力方面具有显著优势。

尽管InSPO在离线MARL领域取得了突破性的进展,但仍有许多值得进一步探索的方向。

算法扩展与优化:未来可以考虑将InSPO与其他先进的MARL算法相结合,进一步提升策略优化的效果。同时,研究如何在更大规模、更复杂的环境中实现高效的策略优化,也是一个重要的方向。

数据集增强与生成:在离线MARL中,数据集的质量和分布对算法性能有着直接影响。未来可以探索通过生成对抗网络(GANs)等技术生成高质量的数据集,从而改善策略学习的效果。

多模态奖励景观的应对:在存在多个局部最优解的环境中,如何更有效地识别和收敛到全局最优解,仍是一个具有挑战性的问题。研究新的正则化方法和优化策略,能够进一步提升InSPO的鲁棒性。

实际应用与验证:将InSPO应用到更多实际场景中,如智能交通系统、自动驾驶和智能制造等,验证其在真实环境中的性能和稳定性,将是未来的重要研究方向。

通过这些方向的深入研究与探索,我们有望进一步提升离线MARL算法的性能和应用价值,推动人工智能技术在多智能体系统中的广泛应用。(END)

THE END
1.强化学习ReinforcementLearning在航空航天领域的应用与挑战强化学习,Reinforcement Learning,航空航天,应用,挑战,控制,优化,决策 1. 背景介绍 航空航天领域一直以来都是科技发展的前沿阵地,其复杂性、安全性要求极高,对智能控制和决策的需求日益迫切。传统控制方法往往依赖于预先设定的规则和模型,难以应对复杂、动态变化的环境。而强化学习(Reinforcement Learning,RL)作为一种机器https://blog.csdn.net/2301_76268839/article/details/144429525
2.自然语言强化学习:一个可处理语言反馈的强化学习框架这种困境促使研究团队开始探索一个更具突破性的方向:能否设计一个框架,让 AI 系统完全通过与环境的交互来学习,而不依赖任何人类标注数据?传统强化学习为这个问题提供了灵感,但其单一数值奖励的机制难以满足复杂场景的需求。团队意识到需要一个新范式,既要继承强化学习的数学严谨性,又要具备自然语言的表达丰富性。这个https://hub.baai.ac.cn/view/41851
3.大数据上云存算分离演进思考与实践大数据阿里技术异构计算的资源负载混部:在统一存储平台提供面向异构计算的工作资源负载下的多维度查询分析服务。在线与离线计算共用计算和存储资源。解决资源波峰波谷问题,实现资源动态削峰填谷 存储降本: 存储利用率+冷热分层。支持基于分布式存储系统上的多层存储(热存储/标准存储/冷存储等)。举例来说,存储降本优化主要依赖于归档与冷https://xie.infoq.cn/article/de0971c840628b7b467a110dc
4.Volcano:在离线作业混部管理平台,实现智能资源管理和作业调度节点可观测性增强,对在离线任务资源布局动态优化,识别在线业务是否受到干扰,对干扰进行定位和控制。 集群可观测性增强,对集群任务布局动态优化,减少集群资源使用不均衡问题。 基于Volcano混合部署解决方案如下图所示: 图3 基于Volcano混合部署架构 Volcano混部调度能力 https://developer.huawei.com/consumer/cn/forum/topic/0202841185168780412
5.云计算:ChatGPT的“中枢神经”云原生离混部技术实现离散训练,在线微调 ChatGPT基于大量优质的数据语料训练,实现对话意图识别和内容生成能力的突破,这主要由于ChatGPT具有强大的智能算法学习和记忆调用基础,通过云原生离线混部和极致弹性调用机制,离线训练千亿级别的超大规模参数,形成了ChatGPT的存储记忆资源池,通过在线补充完成人类反馈强化学习(RLHF)的微调https://m.thepaper.cn/newsDetail_forward_22342649
6.在离线混部云容器引擎最佳实践调度在离线混部的核心目标是通过将在线应用和离线应用混合部署到同一个集群中,最大程度地提高集群的资源利用率,进而降低企业的运营成本。值得注意的是,在线应用和离线应用这两种不通类型的应用对服务质量的要求是不一样,在线应用往往是延时高度敏感,对资源质量要求也更高。而离线应用则对延迟要求相对宽松,有更好的重试容错https://www.ctyun.cn/document/10083472/10172926
7.阿里决战双11核心技术揭秘——混部调度助力云化战略再次突破在大家如丝般顺滑地完成一次次秒杀、抢购和付款过程的背后,是阿里巴巴技术团队经历数年时间的系统打磨,技术架构优化所做出的努力。而底层基础设施服务质量不断提升、IT 成本增加逐年递减的演进历程,都由一个名为「云化战略」的技术梦想所贯穿起来。 特别是 2017 年双 11,阿里巴巴首次混合部署了在线服务、离线计算以及https://www.leiphone.com/category/ai/HHa8Y9tPeVgB1Kt8.html
8.Kubernetes资源拓扑感知调度优化腾讯云开发者社区基于离线虚拟机的混部方案导致的节点实际可用 CPU 核心数变化 面对运行在线业务的云主机平均利用率较低的现实,为充分利用空闲资源,可将离线虚拟机和在线虚拟机混合部署,解决公司离线计算需求,提升自研上云资源平均利用率。在保证离线不干扰在线业务的情况下,腾讯星辰算力基于自研内核调度器 VMF 的支持,可以将一台机器上https://cloud.tencent.com/developer/article/2029446
9.浪潮云海首席科学家张东:面向一云多芯的系统设计云海云操作系统(InCloud OS)、Apsara Stack、EasyStack等通过单一资源池实现异构资源的统一调度和互联互通,但当前阶段主要解决“多芯”的混部问题,距离以应用为中心的跨架构运行和低成本切换尚有较大差距。为满足多芯共存条件下业务的稳定运行、平滑切换和弹性伸缩,如下科学问题和技术难题亟待解决。 https://www.cet.com.cn/itpd/itxw/3465583.shtml
10.便宜云服务器容器服务在AI智算嘲的创新与实践容器服务也在积极推动上游开源社区,在Kubernetes体系下,定义支持各类计算框架和任务类型的云原生任务标准API和生命周期。帮助用户可以在Kubernetes集群上以统一的标准和接口,管理调度各类数据计算类工作负载。 ACK扩展了Kube-scheduler framework,与Slurm调度系统打通,即支持节点池维度的分节点调度,也支持共享节点资源的混部调度http://zhanzhang.ceden.cn/?article/1644909
11.腾讯云专有云TCS容器平台企业级云容器平台云原生容器腾讯云专有云TCS容器平台,适配丰富异构IAAS设备,满足利旧需求,广泛适配兼容信创CPU/指令集/操作系统。自研高性能负载均衡;基于eBPF的高性能网络;跨集群统一服务发现;高性能Ingress;平台高可用和部署方案,运维运营能力。 立即咨询 传统企业信息化体系存在的问题 https://www.yun88.com/product/3926.html
12.华为云UCS华为云与本地IDC协同,实现弹性上云 构筑本地集群极速弹性上云,流量高峰,业务云上秒级扩容 结合Volcano以及HCE OS 2.0能力,构建本地集群在线、离线混部能力,资源利用率提升40% 在AI训练和AI推理场景下,通过GPU虚拟化技术实现GPU隔离以及资源利用率提升 云原生应用全景观测,大幅提升运维效率 https://www.huaweicloud.com/product/ucs.html
13.阿里云异构计算类云服务器介绍(GPU云服务器FPGA云服务器等神龙AI加速引擎AIACC是基于阿里云IaaS资源推出的AI加速引擎,用于优化基于AI主流计算框架搭建的模型,能显著提升深度学习场景下的训练和推理性能。配合集群极速部署工具FastGPU快速构建AI计算任务,全面提升研发效率和GPU利用率,缩短计算时间并降低AI的推理延迟。 2、神龙AI加速引擎AIACC产品优势 https://www.jianshu.com/p/d4c370053533
14.深入硬件层内核态与用户态,一文看懂火山引擎云原生操作系统近日,在2020全球分布式云大会上,火山引擎解决方案总监于鸿磊以“多云环境下的云原生操作系统”为主题,从云原生操作系统出发,分享了火山引擎敏捷高效的基础设施与技术,为企业追求业务持续增长的提供了一种创新技术思路。 激发创造,释放潜能 字节跳动具有长期沉淀、服务于数亿用户的大数据技术、人工智能等基础技术服务能力,拥https://www.volcengine.com/docs/6316/66821
15.小红书近线服务统一调度平台建设实践对于服务,我们目前将服务划分为强隔离要求在线服务、普通在线服务、近线服务、离线服务4个QoS级别。 服务QoS 资源保障模型,本质上就是按照服务的 QoS 级别,给予不同的算力保障。 对于近线服务,调度优先级为:独占资源池机器 > 在线集群闲置算力 > 混部算力 > 公有云容器实例服务。目前公有云容器实例服务,只是作为一https://blog.itpub.net/70016482/viewspace-2927565/
16.成立3年,云服务厂商火山引擎全景扫描该服务属于实时计算方面,完全基于云原生构建:脱胎于抖音内部超大规模实践,日常峰值 QPS 达100亿,稳定性提升51%;通过Serverless,实现弹性扩缩容和在离线业务混部,资源利用率提升40%;并且能够统一调度,满足流批一体等多种计算模态。通过LAS和Serverless Flink,企业可以更加高效、经济的建设自身的数据底座。https://www.eefocus.com/article/1512934.html