AI研习丨专题:多智能体强化学习研究与实践马尔科夫算法

本文浅析多智能体强化学习的主要科学问题和技术基础,并介绍该领域的前沿科研工作和最新工业技术落地,最后对多智能体强化学习的未来发展做出展望。

关键字

多智能体强化学习;博弈论;多智能体系统;群体智能

0引言

随着机器学习技术在近10年内的蓬勃发展,越来越多的应用场景加入了机器学习,例如刷脸支付、手掌静脉识别、机器翻译和个性化商品推荐等。人们也对机器学习这个本来比较陌生的研究领域越来越熟悉并接纳,开始赋予机器学习技术更重要的任务场景,即决策任务。同时,机器也不再只是面对固定的数据集做训练,而开始相互之间做出交互协作,进而完成更加复杂的群体智能任务。图1示出了机器学习在这两个维度的范式扩展。

图1机器学习范式发展

图2单智能体学习和多智能体学习的学习目标

1研究背景

多智能体强化学习是一个新兴的研究领域,研究的是多个具有自主决策能力的智能体在环境中进行连续决策的优化问题。传统上,多智能体决策问题主要属于博弈论的研究范畴,但博弈论侧重单回合决策的分析。随着深度强化学习技术的逐渐成熟,单智能体连续决策问题的解决获得了突破。近年来,研究者将深度强化学习技术用于多智能体连续决策问题中,并结合博弈论的研究基础,确立了多智能体强化学习这一新的研究领域。

1.1博弈论

图3“囚徒困境”矩阵博弈

1.2强化学习

强化学习研究的是一类连续决策问题,数学上一般用马尔科夫决策过程描述。如图4所示,从状态1开始,玩家做一系列决策产生动作1、动作2、动作3……下一时刻状态由上一时刻状态和动作共同决定。在每个状态下,玩家都将获得基于这个状态的收益,玩家的目标是使整个动态过程的累积收益最大。针对这一问题,基于值迭代的Q学习和策略迭代的策略梯度等方法被广泛研究,近年来与深度学习相结合,在Atari游戏、围棋等任务中取得显著的效果。强化学习研究的是“多状态,单玩家”问题,它为多智能体强化学习提供了有力的机器学习算法工具。

图4强化学习问题的动态过程

1.3多智能体强化学习

多智能体强化学习研究的是“多状态,多玩家”问题,数学上一般用马尔科夫博弈描述。一个马尔科夫博弈是一个六元组

图5多智能体强化学习问题的动态过程

2前沿问题

多智能体强化学习作为新的研究领域,产生了一些全新的学术研究问题,本文着重介绍多智能体间的合作与协同、通讯机制和对手手建模三个问题,图6是这三个问题的示意图。

图6多智能体强化学习中的合作与协同、通讯机制和对手建模

2.1多智能体合作与协同

在多智能体环境中,智能体间的合作与协同有助于提升各自收益。智能体间的合作指的是多个智能体通过合理选择联合动作,使得每个智能体的收益都获得提高。智能体间的协同指的是,当有多个较好的联合动作可供选择时,多个智能体协调一致选择其中的一个,从而避免由于不协调而无法选中其中的任何一个。合作与协同的共同点是智能体都需要联合起来,选择特定的联合动作。针对这一问题,研究者提出了各种各样的解决方案,这里简单介绍其中的两种。OpenAI公司和伯克利大学研究团队提出的MADDPG模型,首先引入了“集中式训练,分布式执行”的思想,既符合马尔科夫博弈模型中智能体需分布式执行的要求,又在训练中建模了智能体联合动作的收益,使智能体学会合作和协同。另一种“多层次学习”的思路由伦敦大学学院和上海交通大学的研究团队提出,它在训练时规定了智能体的行动次序,从而使联合动作收敛到Stackelberg均衡,在合作类场景中取得比纳什均衡更高的收益。

2.2多智能体通讯机制

2.3多智能体对手建模

除了通讯之外,智能体还可以通过观察对手智能体的行为对其建模,从而使自身的行为更好地针对预判的对手行为。无论是合作还是竞争类场景中,对手建模都可以起到优化自身行为的作用。伦敦大学学院研究团队提出的PR2模型考虑了自身动作对对手策略的影响,同时对手也对自身做了同样的考虑,并研究了该模型自我博弈的收敛性。在此基础之上,智能体之间还可以进行更深层次的递归推理,即无穷地考虑对手的策略依赖于自身的策略,自身的策略依赖于对手的策略,循环往复。此外,纽约大学研究团队提出的SOM模型将自身的策略模型用于预测对手的行为,适用于智能体相互对称的环境。

3工业应用

3.2交通灯控制

智能交通灯控制是智慧城市中的典型场景,通过感知路网中的车流情况,对交通灯做出实时调配,进而优化城市片区不同时段的交通效率。单个交通灯的调度优化可由传统强化学习解决,但单路口的车流效率优化可能会对周围路口带来新的拥堵,因此城市片区级别的智能交通灯调度可建模为一个多智能体强化学习问题。美国宾州州立大学的研究团队近年给出了一个研究中,将每个交通灯作为一个决策智能体,通过固定的路网连接,可以接收到周边路口交通灯智能体的局部信息。对其进行深度学习处理后,可以提取对当前决策有价值的信息,进而以去中心化的方式完成整个城市片区交通效率的优化。而要支持智慧城市的决策落地,首先需要在一个大规模高精度城市交通模拟器中验证新算法的有效性。CityFlow是上海交通大学研究团队近期发布的开源交通模拟器(见图7),目前已经支持了多个科研机构和智慧城市项目的交通灯调度研发工作。

(a)上海徐家汇交通模拟(b)路口交通灯调度模拟

强化学习平台CityFlow

图7面向城市片区交通灯调度优化的多智能体

3.3网约车派单

网约车平台每天都会派送千万级别的车次给用户完成他们的出行需求。简单来说,每个城市的网约车系统每隔几秒钟会完成一次空车和订单的匹配,这是一个二部图匹配任务,图的两部分结点分别为空车和订单,而图的边则为派遣该空车去完成该订单所对应的效用。传统的方法为使用KM等匹配算法来快速求解最佳匹配,而如果考虑当前匹配决策对未来的影响,则需要引入强化学习技术。滴滴公司近年在多智能体强化学习领域做出了一系列研究,发现基于车辆作为智能体,或者基于城市片区作为智能体都可以比较高效地解决高效车辆分单的任务(见图8),并且能在城市级别优化每天的平台收益、司机收入和用户订单相应率,优化网约车平台生态的长期利益。

THE END
1.伯克利开源工具库RLib现已支持大规模多智能体强化学习开源AI 前线导读:近日,UC 伯克利的研究团队 RISELab 在其 Github 的项目 Ray Rlib 0.6.0 中添加了面向多智能体强化学习(multi-agent Reinforcement Learning)的支持。本文由团队成员 Eric Liang 首发于 RISELab 团队主页,AI 前线翻译整理。本文主要是关于多智能体强化学习的简明教程,以及在 RLib 中的设计思路。 https://www.infoq.cn/article/DLEqWRPc-Pcek5EQ6But
2.探秘多智能体强化学习MADDPG算法原理及简单实现探秘多智能体强化学习-MADDPG算法原理及简单实现 明天就是端午节了,首先祝兄弟姐妹们端午节安康! 之前接触的强化学习算法都是单个智能体的强化学习算法,但是也有很多重要的应用场景牵涉到多个智能体之间的交互,比如说,多个机器人的控制,语言的交流,多玩家的游戏等等。本文,就带你简单了解一下Open-AI的MADDPG(Multi-https://cloud.tencent.com/developer/news/246458
3.多智能体强化学习(MARL)框架一种新型的多智能体强化学习(MARL)框架——基于分层共识的多智能体强化学习(HC-MARL),由北京航空航天大学的研究团队提出。以下是核心内容概要:多智能体协作系统的重要性:解决单智能体无法完成的复杂任务。应用领域包括工业自动化、自动驾驶、能源管理和多人在线游戏。现有挑战:集中训练与分散执行(CTDE)框架的https://baijiahao.baidu.com/s?id=1804553133774179903&wfr=spider&for=pc
4.多智能体强化学习多智能体强化学习的在于,每一个Agent的动作都会影响环境的下一个状态,从而影响所有Agent。 Rewards 有n个Agent,所以每一轮都有n个奖励。使用R i R^iRi表示第i个Agent的奖励 在合作关系中,每个Agent获得的奖励都相等。在竞争的关系下,一个agent获得的奖励是另一个agent受的损失。 https://blog.csdn.net/qq_38689352/article/details/119646555
5.清华大学汪玉中文主页多智能体强化学习算法 得益于人工智能技术的发展和算力的不断提升,单智能体的感知和推理能力得到了大幅度增强。一般来说,提升系统智能性有两条途径,(1)不断提升单体智能,(2)利用协同智能,也就是利用多智能体系统。多智能体系统可以通过共享信息、资源调度、配合行动等手段配合完成任务,达到比单体系统更高的效率,目http://web.ee.tsinghua.edu.cn/wangyu/zh_CN/yjfx/2129/content/1304.htm
6.qlearning多智能体强化学习多智能体概念qlearning多智能体强化学习 多智能体概念 最近在学习多智能体的强化学习,看了几篇高质量基础论文,发现还是很有必要将强化学习的体系简单过一遍,然后再有针对性地练习代码。 1.强化学习简介 1.1 强化学习概念 强化学习与监督学习、非监督学习都属于机器学习,是人工智能的范畴。值得一提的是深度学习也是机器学习的一种https://blog.51cto.com/u_16099283/11852182
7.多智能体强化学习方法综述【摘要】:在自动驾驶、团队配合游戏等现实场景的序列决策问题中,多智能体强化学习表现出了优秀的潜力。然而,多智能体强化学习面临着维度灾难、不稳定性、多目标性和部分可观测性等挑战。为此,概述了多智能体强化学习的概念与方法,并整理了当前研究的主要趋势和研究方向。研究趋势包括CTDE范式、具有循环神经单元的智能体https://www.cnki.com.cn/Article/CJFDTotal-XXDU202401003.htm
8.科学网—[转载]群视角下的多智能体强化学习方法综述多智能体系统是分布式人工智能领域的前沿研究概念,传统的多智能体强化学习方法主要聚焦群体行为涌现、多智能体合作与协调、智能体间交流与通信、对手建模与预测等主题,但依然面临环境部分可观、对手策略非平稳、决策空间维度高、信用分配难理解等难题,如何设计满足智能体数量规模比较大、适应多类不同应用场景的多智能体强https://blog.sciencenet.cn/home.php?mod=space&uid=3472670&do=blog&id=1422698
9.多智能体强化学习入门本书之前介绍的算法都是单智能体强化学习算法,其基本假设是动态环境是稳态的(stationary),即状态转移概率和奖励函数不变,并依此来设计相应的算法。而如果环境中还有其他智能体做交互和学习,那么任务则上升为多智能体强化学习(multi-agent reinforcement learning,MARL),如图 20-1 所示。图https://hrl.boyuai.com/chapter/3/%E5%A4%9A%E6%99%BA%E8%83%BD%E4%BD%93%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E5%85%A5%E9%97%A8/
10.强化学习技术赋能智慧交通与电网让多智能体“见微知著”“这也意味着我们现在能够同时控制多个智能体,例如在交通信号灯、电网以及无人驾驶车辆等场景中的应用。这些系统都涉及大量智能体的协同运作。而这项工作的社会效应在于,它是首次由华人主导的多智能体强化学习应用,打破了此前该领域被西方机构垄断的局面。”论文通讯作者,北京大学人工智能研究院杨耀东研究员介绍道。http://www.xinhuanet.com/tech/20240904/1eeb042bdd5f4c6187fe0e2aa31196db/c.html
11.多智能体强化学习及其在游戏AI上的应用与展望多智能体强化学习及其在游戏AI上的应用与展望 近年来,人工智能技术在很多领域都取得了亮眼成就,并逐步从感知智能向决策智能迈进。强化学习是实现决策智能的重要路径,而现实世界中往往存在着多智能体的交互,也催生了多智能体强化学习的发展。这篇文章主要对多智能体强化学习进行整体阐述,并对其在游戏AI上的应用进行探讨https://www.gameres.com/890381.html
12.多智能体强化学习算法总结参考文章:多智能体强化学习(一) IQL、VDN、QMIX、QTRAN算法详解 - 知乎 (zhihu.com) "虚假奖励"(spurious reward signals)与“懒惰智能体”(lazy agent):当一个智能体 表现优秀的时候,另一个智能体 会“偷懒”,因为 的探索会导致整体奖励的下降。 https://www.jianshu.com/p/4467b7583206
13.多智能体机器学习本书主要介绍了多智能体机器人强化学习的相关内容。全书共6章,首先介绍了几种常用的监督式学习方法,在此基础上,介绍了单智能体强化学习中的学习结构、值函数、马尔科夫决策过程、策略迭代、时间差分学习、Q学习和资格迹等概念和方法。然后,介绍了双人矩阵博弈问题、多人随机博弈学习问题,并通过3种博弈游戏详细介绍了纳https://book.douban.com/subject/27095590/
14.基于多智能体深度强化学习的体系任务分配方法为了应对在未来复杂的战场环境下,由于通信受限等原因导致的集中式决策模式难以实施的情况,提出了一个基于多智能体深度强化学习方法的分布式作战体系任务分配算法,该算法为各作战单元均设计一个独立的策略网络,并采用集中式训练、分布式执行的方法对智能体的策略网络进行训练,结果显示,经过学习训练后的各作战单元具备一定的https://www.elecfans.com/d/2085562.html
15.多智能体机器学习强化学习方法中文pdf扫描版[29MB]电子书下载《多智能体机器学习:强化学习方法》共6章,首先介绍了几种常用的监督式学习方法,在此基础上,介绍了单智能体强化学习中的学习结构、值函数、马尔科夫决策过程、策略迭代、时间差分学习、Q学习和资格迹等概念和方法。然后,介绍了双人矩阵博弈问题、多人随机博弈学习问题,并通过3种博弈游戏详细介绍了纳什均衡、学习算法、https://www.jb51.net/books/693051.html
16.基于多智能体深度强化学习的无人机集群自主决策AET对人工操纵无人机来说,同时操控多架无人机完成多项任务且无人机之间形成有效配合是相当困难的,注意力分散或者操控失误都会造成较大的安全风险。无人机的操控还受到电磁干扰和远程控制距离的限制,因此,无人机灵活自主决策能力显得尤为重要。近年来,多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)http://www.chinaaet.com/article/3000149669
17.深度强化学习实战:用OpenAIGym构建智能体第6章涵盖多种实现Q-Learning的方式,包括使用深度神经网络的动作-值函数近似、经验回放、目标网络和必要的相关实用工具,以及常用于训练和测试深度强化学习智能体的组件。学完本章,你能实现一个基于深度Q-Learning网络的智能体,做出最优化离散控制的决策,可以训练智能体玩一些Atari游戏,并观察它的性能。 第7章介绍如何https://www.epubit.com/bookDetails?id=UB83082546ee4de
18.告别偏科,能玩转多模态多任务多领域的强化智能体终于来了来自Hugging Face、法国国家信息与自动化研究所(INRIA)和波尔多大学的四位研究者提出了智能体中的「六边形战士」——Jack of All Trades (JAT)。JAT 是一个基于 Transformer 的多模态通用强化学习智能体框架。在此框架下,智能体能够通过同一套参数应对不同复杂度的多种任务,化身既会打游戏,又能控制机器人的全能高https://m.thepaper.cn/newsDetail_forward_27266388