本文浅析多智能体强化学习的主要科学问题和技术基础,并介绍该领域的前沿科研工作和最新工业技术落地,最后对多智能体强化学习的未来发展做出展望。
关键字
多智能体强化学习;博弈论;多智能体系统;群体智能
0引言
随着机器学习技术在近10年内的蓬勃发展,越来越多的应用场景加入了机器学习,例如刷脸支付、手掌静脉识别、机器翻译和个性化商品推荐等。人们也对机器学习这个本来比较陌生的研究领域越来越熟悉并接纳,开始赋予机器学习技术更重要的任务场景,即决策任务。同时,机器也不再只是面对固定的数据集做训练,而开始相互之间做出交互协作,进而完成更加复杂的群体智能任务。图1示出了机器学习在这两个维度的范式扩展。
图1机器学习范式发展
图2单智能体学习和多智能体学习的学习目标
1研究背景
多智能体强化学习是一个新兴的研究领域,研究的是多个具有自主决策能力的智能体在环境中进行连续决策的优化问题。传统上,多智能体决策问题主要属于博弈论的研究范畴,但博弈论侧重单回合决策的分析。随着深度强化学习技术的逐渐成熟,单智能体连续决策问题的解决获得了突破。近年来,研究者将深度强化学习技术用于多智能体连续决策问题中,并结合博弈论的研究基础,确立了多智能体强化学习这一新的研究领域。
1.1博弈论
图3“囚徒困境”矩阵博弈
1.2强化学习
强化学习研究的是一类连续决策问题,数学上一般用马尔科夫决策过程描述。如图4所示,从状态1开始,玩家做一系列决策产生动作1、动作2、动作3……下一时刻状态由上一时刻状态和动作共同决定。在每个状态下,玩家都将获得基于这个状态的收益,玩家的目标是使整个动态过程的累积收益最大。针对这一问题,基于值迭代的Q学习和策略迭代的策略梯度等方法被广泛研究,近年来与深度学习相结合,在Atari游戏、围棋等任务中取得显著的效果。强化学习研究的是“多状态,单玩家”问题,它为多智能体强化学习提供了有力的机器学习算法工具。
图4强化学习问题的动态过程
1.3多智能体强化学习
多智能体强化学习研究的是“多状态,多玩家”问题,数学上一般用马尔科夫博弈描述。一个马尔科夫博弈是一个六元组
图5多智能体强化学习问题的动态过程
2前沿问题
多智能体强化学习作为新的研究领域,产生了一些全新的学术研究问题,本文着重介绍多智能体间的合作与协同、通讯机制和对手手建模三个问题,图6是这三个问题的示意图。
图6多智能体强化学习中的合作与协同、通讯机制和对手建模
2.1多智能体合作与协同
在多智能体环境中,智能体间的合作与协同有助于提升各自收益。智能体间的合作指的是多个智能体通过合理选择联合动作,使得每个智能体的收益都获得提高。智能体间的协同指的是,当有多个较好的联合动作可供选择时,多个智能体协调一致选择其中的一个,从而避免由于不协调而无法选中其中的任何一个。合作与协同的共同点是智能体都需要联合起来,选择特定的联合动作。针对这一问题,研究者提出了各种各样的解决方案,这里简单介绍其中的两种。OpenAI公司和伯克利大学研究团队提出的MADDPG模型,首先引入了“集中式训练,分布式执行”的思想,既符合马尔科夫博弈模型中智能体需分布式执行的要求,又在训练中建模了智能体联合动作的收益,使智能体学会合作和协同。另一种“多层次学习”的思路由伦敦大学学院和上海交通大学的研究团队提出,它在训练时规定了智能体的行动次序,从而使联合动作收敛到Stackelberg均衡,在合作类场景中取得比纳什均衡更高的收益。
2.2多智能体通讯机制
2.3多智能体对手建模
除了通讯之外,智能体还可以通过观察对手智能体的行为对其建模,从而使自身的行为更好地针对预判的对手行为。无论是合作还是竞争类场景中,对手建模都可以起到优化自身行为的作用。伦敦大学学院研究团队提出的PR2模型考虑了自身动作对对手策略的影响,同时对手也对自身做了同样的考虑,并研究了该模型自我博弈的收敛性。在此基础之上,智能体之间还可以进行更深层次的递归推理,即无穷地考虑对手的策略依赖于自身的策略,自身的策略依赖于对手的策略,循环往复。此外,纽约大学研究团队提出的SOM模型将自身的策略模型用于预测对手的行为,适用于智能体相互对称的环境。
3工业应用
3.2交通灯控制
智能交通灯控制是智慧城市中的典型场景,通过感知路网中的车流情况,对交通灯做出实时调配,进而优化城市片区不同时段的交通效率。单个交通灯的调度优化可由传统强化学习解决,但单路口的车流效率优化可能会对周围路口带来新的拥堵,因此城市片区级别的智能交通灯调度可建模为一个多智能体强化学习问题。美国宾州州立大学的研究团队近年给出了一个研究中,将每个交通灯作为一个决策智能体,通过固定的路网连接,可以接收到周边路口交通灯智能体的局部信息。对其进行深度学习处理后,可以提取对当前决策有价值的信息,进而以去中心化的方式完成整个城市片区交通效率的优化。而要支持智慧城市的决策落地,首先需要在一个大规模高精度城市交通模拟器中验证新算法的有效性。CityFlow是上海交通大学研究团队近期发布的开源交通模拟器(见图7),目前已经支持了多个科研机构和智慧城市项目的交通灯调度研发工作。
(a)上海徐家汇交通模拟(b)路口交通灯调度模拟
强化学习平台CityFlow
图7面向城市片区交通灯调度优化的多智能体
3.3网约车派单
网约车平台每天都会派送千万级别的车次给用户完成他们的出行需求。简单来说,每个城市的网约车系统每隔几秒钟会完成一次空车和订单的匹配,这是一个二部图匹配任务,图的两部分结点分别为空车和订单,而图的边则为派遣该空车去完成该订单所对应的效用。传统的方法为使用KM等匹配算法来快速求解最佳匹配,而如果考虑当前匹配决策对未来的影响,则需要引入强化学习技术。滴滴公司近年在多智能体强化学习领域做出了一系列研究,发现基于车辆作为智能体,或者基于城市片区作为智能体都可以比较高效地解决高效车辆分单的任务(见图8),并且能在城市级别优化每天的平台收益、司机收入和用户订单相应率,优化网约车平台生态的长期利益。