《自动化学报》—多Agent深度强化学习综述今日头条|在线学习结合强化学习_在线学习

关键词多Agent系统,深度学习,深度强化学习,通用人工智能

多AgentDRL(Multi-agentDRL,MADRL)是DRL在MAS中应用的研究分支,理论基础源于DRL.虽然将DRL应用于MAS中有着许多研究,但据我们所知,尚没有关于多AgentDRL研究的综述性报告,赵冬斌等[7]对DRL以及围棋的发展进行了综述,但其出发点、综述角度以及内容安排与本文有较大不同,如表1所示.本文在对近些年国内外的研究现状进行分析与研究后,从MADRL设计与实践的角度出发,对这一领域进行归纳总结.

本文首先对DRL进行基本的介绍,从策略表现的角度对当前DRL的两个主要方向,即深度Q网络和深度策略梯度的发展进行了描述.在第2节,我们首先分析了DRL与MAS的关系,描述了DRL与MAS结合的优势与挑战;同时我们利用部分可观测的马尔科夫决策过程对MADRL问题进行了模型设计,用以表达MAS的数学过程;之后,根据当前DRL的实现结构以及多Agent在DRL实现中通信过程的发生阶段,将现有MADRL划分为全通信集中决策、全通信自主决策以及欠通信自主决策等三类,对每类决策架构的当前研究现状进行讨论分析,对面向多Agent学习的开放训练平台进行介绍;在第3节,针对现有MADRL仍面临的一些关键问题,从MADRL的学习训练框架、样本增强、鲁棒性研究以及对手建模等方面进行研究,提出了当前MADRL可能发展的方向;在第4节,对全文进行总结.

1深度强化学习简介

深度强化学习的学习框架是20世纪90年代提出的强化学习,由强化学习与深度学习结合发展而来,是机器学习的重要分支.在这一学习范式中,Agent通过与环境的交互,不断调整策略,进而实现最大化累计奖赏值的目标.强化学习利用马尔科夫决策过程(Markovdecisionprocess,MDP)对序贯决策问题进行数学定义.

定义1(马尔科夫决策过程).MDP由一个五元组〈S,A,R,T,γ〉定义,其中,S表示由有限状态集合组成的环境;A表示可采取的一组有限动作集;状态转移函数T:S×A→Δ(S)表示将某一状态-动作对映射到可能的后继状态的概率分布,Δ(S)表示状态全集的概率分布,对于状态s,s′∈S以及a∈A,函数T确定了采取动作a后,环境由状态s转移到状态s′的概率;奖赏函数R(s,a,s′)定义了状态转移获得的立即奖赏;γ是折扣因子,代表长期奖赏与立即奖赏之间的权衡.

是一个带折扣γ∈(0,1]的累计奖赏值.Agent的目标是最大化每个状态值的累积奖赏期望值,即

与基本的强化学习方法相比,DRL将深度神经网络作为函数近似和策略梯度的近似函数.虽然使用深度神经网络解决强化学习问题缺乏较好的理论保证,但深度神经网络的强大表现力使得DRL的结果远超预期.在DRL中,DL同函数近似结合发展成为了深度Q学习,而策略梯度则发展为深度策略梯度.

1.1深度Q学习及其发展

其中,Q(st,at;θt)表示t时刻,状态-动作值估计;

rt+1+γmaxaQ(st+1,a;θ-)是作为临时的目标Q值,用于稳定神经网络的学习,θ-表示目标网络的参数,γ表示奖赏的折扣率;θt表示正在同环境交互的网络的参数,α表示神经网络的学习率.

将式(1)中的

替换为

图2DQN架构Fig.2FrameworkofDQN

1.2深度策略梯度及其发展

策略是将状态空间映射到动作空间的函数或者分布,策略优化的目标是寻找最优的策略映射.DQN算法主要应用于离散动作的空间任务,面对连续动作空间的任务,基于策略梯度的DRL算法能获得更好的决策效果.

SPG假设在连续控制问题研究中,策略选择具有随机性,服从某种分布(如高斯分布),在策略执行过程中依概率进行动作选择.SPG计算式为πθ(a|s)=P[a|s,θ],表示在状态为s时,动作符合参数为θ的概率分布,如高斯分布πθ(a|s)=

表示Agent采取的动作服从均值为μ(s,θ)、方差为σ(s,θ)2的正态分布.在SPG算法中,即使在相同的状态,每次所采取的动作也可能是不同的.该算法的梯度计算为

为试验过程中初始状态的累积奖赏.

DDPG算法则假设策略生成的动作是确定的,策略梯度的求解不需要在动作空间采样积分.与SPG的策略表现度量η(θ)=E[Rt]不同,DDPG的策略表现度量为η(θ)=Q(s,a),如果策略是最优的,则状态-动作值是最大的.DDPG计算式为a=μθ(s),表示在状态s下动作的取值.在相同策略(即函数参数相同)的情况下,同一状态下动作的选择是唯一的.DDPG算法的梯度计算式为

通过Q函数直接对策略进行调整,向着梯度上升的方向对策略进行更新.

广义上,DDPG算法是SPG的特例,当SPG算法中的方差σ→0时,SPG将会收敛到DDPG.SPG算法的输入需要状态和动作,而DDPG算法的输入仅依靠状态空间,且当动作空间维度较高时,DDPG算法的学习效率优于SPG算法.

图3A3C框架Fig.3FrameworkofA3C

在非线性优化问题中,梯度的求解相对容易,但合适的优化步长困扰着函数优化的速率.早期强化学习研究设置步长退火因子,随着迭代次数的增加,逐步减小步长.在强化学习任务中,大多数的策略梯度算法难以选择合适的梯度更新步长,使得NN训练处于振荡不稳定的状态.Schulman等[40]提出了可信域策略优化(Trustregionpolicyoptimization,TRPO)处理随机策略的训练过程,在训练中定义了新策略与旧策略的KL散度,要求状态空间中的每个点的KL散度有界限,即

KL[πθold(·|st),πθ(·|st)]]≤δ,得到了代理优化目标

利用非线性约束极值方法将代理优化目标转化为

进而保证策略优化过程稳定提升,同时证明了期望奖赏呈单调性增长.在此基础上,该团队继续提出了基于优势函数加权估计的广义优势估计方法(Generalizedadvantageestimation,GAE),用以减少策略梯度估计方差[18].ACKTR[41]以Actorcritic框架为基础,引入TRPO使算法稳定性得到保证,然后加上Kronecker因子分解以提升样本的利用效率并使模型的可扩展性得到加强,相比于TRPO在数据利用率和训练鲁棒性上都有所提升,训练效率更高.Wang等[42]汲取其他DRL算法的优势,提出了基于经验回放的Actor-critic算法(Actor-criticwithexperiencereplay,ACER),采用n-step的TD估计,利用偏差修正的截断重要度权重,以及后验TRPO对网络参数更新,提升了算法性能.TRPO算法使用二阶优化算法获得海塞矩阵,计算较为复杂,Schulman等[43]进一步提出了仅使用一阶优化的近端策略优化(Proximalpolicyoptimization,PPO)算法,对代理目标函数简单限定了约束,简化了实现和调参过程,性能上优于现阶段其他策略梯度算法,表现出了同TRPO算法相当的稳定性和可靠性.

2MADRL研究

2.1DRL与MAS的关系

此外,DRL和MAS的特性在一些方面可以优势互补.DRL训练往往需要大量样本进行训练,而MAS系统的天生并发性,使得多个Agent可以并发产生大量样本,大大提升了样本数量,加速学习过程以及达到更好的学习效果;MAS的这一并发性,又使得多Agent在分散架构下能够充分使用并行计算,提升了DRL的学习效率;在MAS中,新来的Agent能够接替早些时候的Agent,这使得MADRL相对于single-agentDRL具有更强的鲁棒性.现有的MAS难以处理高维连续的环境,而DRL能够处理高维度的输入,学习控制复杂的动作;神经网络的内部结构,又可以解决MAS中的通信问题,克服人为定义通信方式的不足问题.MAS同DRL的结合,在带来上述好处的同时,也遭受着自身的以及结合带来的问题:随着Agent数量的增加,决策输出的动作维度越来越大,动作空间呈现指数增长的趋势;相对于单个Agent,多Agent任务更加难以制定学习目标,单个Agent学习的结果受全体Agent的影响;多Agent的同步学习,使得环境产生了非平稳性,打破了DRL学习的基本前提;多Agent中的探索,更容易使得策略的学习陷入恶性循环,难以获得良好的策略.

2.2多Agent学习模型

多Agent集中决策过程获取全局观测并输出全局联合动作的方式满足MDP属性,同单Agent的强化学习方法决策过程类似,可以应用面向强化学习的MDP对其进行建模,在本节对这一数学过程进行了描述,但这一方式在MAS中应用有许多缺点,在第2.6节中将进行讨论.多Agent自主决策过程可以使用随机博弈理论进行描述,正则形式的博弈是MDP在多Agent的环境中的泛化形式,定义如下.

定义2(正则形式的博弈,Normalformgame).有限参与者的正则形式的博弈由三元组〈N,A,u〉组成,其中N表示I个Agent的有限集合,i表示Agent的索引;A=A1×···×AI,其中,Ai表示单个Agent的有限动作集合,向量a=(a1,···,aI)∈A表示所有Agent的一次动作集合;u=(u1,···,uI),ui:

表示单个Agent的真实效用或者收益函数.

正则形式的博弈描述了多Agent的一次决策过程,但没有对环境状态进行明确定义,不能够描述多Agent的环境特征以及动态变化特性,如StarCraftII,自动驾驶,多Agent对抗等非平稳的、不完全的、部分可观测的环境特性.在现有强化学习以及随机博弈理论的启发下,自主决策的多Agent决策过程可以建模为部分可观测的MDP,定义如下(过程如图4所示).

定义3(部分可观测马尔科夫决策过程,PartiallyobservableMDP,POMDP).面向多Agent的POMDP可由八元组G=〈N,S,A,R,T,γ,Z,O〉定义.在POMDPG中,N表示参与决策Agent的集合,i∈N≡{1,···,n}表示单个Agent;s∈S表示环境的真实状态;aaa∈AAA≡An表示参与决策的Agent的动作集合,ai∈Ai表示单个Agent执行的动作;T:S×A×S→[0,1]表示环境状态转移函数,在状态s下,执行联合动作a,转移到状态s′的概率,即P(s′|s,a);多Agent奖赏函数R:S×A×S→R,在状态s下,执行联合动作a,转移到状态s′获得的立即奖赏r(s,a,s′);z∈Z≡Zn表示Agent对环境的部分带噪声(不完全信息)观测,zi∈Zi是单个Agent对环境的观测;O:S×N→Z表示环境状态s下,单个Agent的观测状态函数O(s,i)=zi;γ是折扣因子,代表长期奖赏与立即奖赏之间的权衡.

在POMDP中,单个Agent的状态-动作值函数Q(zi,ai)的贝尔曼方程表示为

a-i表示状态s下,除Agenti外的Agent动作集合;p(s|zi)表示Agent当前局部观测对应的全局状态的映射关系;π-i(a-i|τ-i,z-i)))表示对手Agent在该全局状态下的联合动作概率;P(s′|s,a)表示全局状态和联合动作到下一状态的转移函数;r(s,a,s′)表示该全局转移下获得的全局奖赏;

表示该后继状态下对手Agent的联合观测概率;

表示该后继状态与对手联合观测下,Agent局部观测状态的概率.

图4面向多Agent的POMDPFig.4Multi-agent-orientedPOMDP

2.3MADRL分类

1)全通信集中决策架构.该决策架构中,多Agent间的通信过程发生在神经网络内部,多Agent通过自我学习通信协议,决策单元接收各Agent处理后的局部观测信息,对观测信息进行融合,获得全局信息表征,进而集中决策产生联合动作,以通信的方式指导单Agent的动作,如图5(a)所示.全通信集中决策架构通过信息融合,感知全局信息,降低了环境噪声带来的信息损失,此外,通过集中决策方式,有力地对单Agent的动作进行了协调,使得多Agent能够按照一致的目标开展行动.但这一架构对系统的时效性要求较高,并对通信系统有很大的依赖,适用于通信时效性要求较低的强化学习场景或一台PC对多个Agent控制的任务.

3)欠通信自主决策架构.在该决策架构中,多采用循环神经网络进行学习,代表Agent策略的神经网络之间没有信息交互,单Agent依靠自我观测的能力,获得部分(不完全)环境信息,结合对对手的观测与推断,进行自主决策,确定采取的行动,以期涌现出协同的联合行为,协调一致的完成任务要求,如图5(c)所示.欠通信自主决策架构仅依靠自我观测能力,通过观测与推断对手行为,进行自主决策,进而涌现出协同能力.欠通信自主决策架构不依赖通信,适用任一多Agent环境.由于缺乏通信,欠通信自主决策架构相对上述全通信决策结构,对环境的观测是部分的、不完全的.这种部分观测不仅包含观测的信息有限,也包含观测带来的环境噪声,受环境不确定因素的影响更大.此外,该结构也面临着对手策略变化带来的环境非平稳性问题.

2.4全通信集中决策架构

图5多Agent决策示意图Fig.5Diagramofmulti-agentdecision-making

早期的多Agent集中决策架构是关于多Agent的动作和观测的联合模型,将多Agent的联合观测映射到联合行动,训练过程同单Agent强化学习任务一致,如图6(a)所示.这一决策架构将多Agent问题转换为单Agent问题,有效解决了Agent数量少且固定、动作空间小等MAS任务中的多Agent间的协同问题.但是对于Agent数量较多、动作空间巨大的强化学习任务,这一架构将导致联合观测空间s∈S=|O1|×|O2|×···×|On|和联合动作空间a∈A=|A1|×|A2|×···×|An|随Agent数量增加呈指数级增长.此外,该架构限定了任务中的Agent的数量,不能在交互过程中扩展Agent的数量,即便是同样的环境,不同数量的Agent也需要单独训练模型,泛化能力弱.

图6集中决策架构输出动作分类Fig.6Outputactionclassificationofcentralizeddecisionarchitecture

在现有的多AgentDRL研究问题中,人们通常将联合动作空间分解,联合动作可以看作是每个Agent动作的组合,联合策略可以视作多个子策略的组合,这意味着神经网络的输出是单个Agent的动作分布,而不是联合动作分布,如图6(b)所示.这一改变使得动作空间的大小由

降为

同样,采样类似的方式可以对观测空间进行分解.

在全通信集中决策架构中,现有研究方法主要集中在隐藏层信息池化共享通信和双向RNN通信等两种手段,通过神经网络的隐藏层间信息传递保证全通信条件下Agent间的协商.

以及通信向量

并输出下一隐藏层信息

其中通信信息为

隐藏层信息为

输出的隐藏层信息为

σ为非线性的激活函数.该算法采用平均池化

可以克服Agent数量不定,解决MAS中算法难以扩展Agent数量的问题.

基于隐藏层信息池化共享通信的决策架构人为设定通信协议,利用池化方法对信息进行整合,虽然解决了Agent间的通信问题以及扩展问题,但针对缺乏先验知识的任务,难以设计有效的通信协议.基于双向RNN通信的集中决策架构利用双向RNN结构的信息存储特征,自学习Agent间的通信协议,克服了通信协议设计对任务先验知识的刚性需求.Peng等[55]提出了基于AC的多Agent双向协作网络(Bidirectionally-coordinatednetwork,BiCNet),Actor和critic网络均使用双向LSTM架构将Agent串联,在训练过程中,双向LSTM自行学习通信协议,在输入端利用Attention机制从全局态势信息中抽取每个Agent的观测输入,输出行动集合,同样采用基于Attention机制的双向LSTM对动作集合进行评价.

通信协议的自我学习解决了Agent间的信息传递规则,但不合适的奖赏会带来虚假奖赏和产生懒惰Agent等问题,Sunehag等[56]提出了全局奖赏下的值分解网络,采用DQN网络结构,对每个Agent设立独立Q值,进而求和获得联合行动的Q值.他们尝试了RNN、DuelingNetwork等多种组合,考虑了Agent间多种通信程度,分别对全通信自主决策架构、全通信集中决策架构以及欠通信分自主决策架构进行了学习框架设计,如图8所示.

2.5全通信自主决策架构

全通信集中决策架构利用神经网络的隐藏层将各Agent的信息进行融合,使得其必须将部分观测信息在单一的决策主体中进行融合,集中地进行决策,而全通信自主决策架构只需在输入端进行通信,将信息进行本地融合,自主的完成决策过程.

Foerster等[58]针对预定义通信协议在部分环境中不可用的问题,提出了自适应的端到端的通信协议学习算法,将通信定义为一组动作,Agent利用自身观测以及对手Agent传递的通信动作,采用时序RNN架构输出通信和决策动作,从而达到协同行动的目的.根据通信动作的连续性,将决策网络的梯度更新方式分为增强和可微两类,如图9所示,图9(a)表示增强更新的应用架构,Agent1接受来自上一阶段Agent2的通信动作

并结合自身的观测

经过Actionselect模块,产生传递给Agent2的通信动作

和对环境的动作

利用增强算法的梯度传播的思想对动作进行更新;图9(b)表示可微更新动作的应用框架,通信动作的产生不再通过动作选择模块,而是直接将神经网络的通信结果经过离散正规化单元(discretise/regulariseunit,DRU)后不经选择地传递给下一Agent,保证通信动作具有可微性,进而对决策网络进行更新.

图8多种架构下的值分解网络Fig.8Valuedecompositionnetworkformultiplearchitecture

图9通信流示意图Fig.9Diagramofcommunicationflow

此外,针对个体奖赏带来的“囚徒困境”,自主决策也可采用联合动作评估方法,对行动网络进行更新.在策略执行过程中,Agent依靠Actor网络做出行动选择,因而在训练阶段采用联合动作的Critic函数对Actor网络进行学习更新,不会破坏执行过程中的自主决策架构.Mao等[60]利用全局动作奖赏对策略进行评估,有效克服了个体奖赏带来的问题.Yang等[61]提出平均场强化学习,利用总体或邻近Agent间的平均相互作用近似Agent间的相互作用,个体的最优策略取决于全体动态,而全局动态则根据个体策略集合改变,设计了面向多Agent的平均场Q学习和平均场Actor-critic算法,并分析了解的收敛性.

2.6欠通信自主决策架构

图10决策-协同-评估网络架构Fig.10Actor-coordinator-criticnetframework

环境转移函数可表示为

其中o-i,a-i表示Agenti的对手联合观测和联合行动.在环境转移函数中,转移

是非平稳的.针对欠通信自主决策面临的环境非平稳,Hernandez-Leal等[53]将早期强化学习中处理环境非平稳问题的方法分为忽略、遗忘、响应目标对手、学习对手模型以及心智理论等五类,在此不再赘述.本文结合当前DRL的发展特性,从经历重放、协作中的“囚徒困境”以及参数共享等方面对欠通信自主决策的MAS进行研究.

Tampuu等[62]开展了将DRL应用到多Agent环境中的开拓性研究,但没有考虑环境的非平稳性,通过设计不同的全局奖赏函数,采用两个独立自主的DQN网络对合作、竞争和合竞等多Agent强化学习任务进行训练,取得了较好的效果.由于环境的非平稳性,在自主Q学习强化学习任务中,经历重放机制所存储的经历不能反映当前环境的动态性.Omidshafiei等[63]忽略环境非平稳问题,依旧利用经历重放机制,采用分散滞后深度RNN的Q网络(Dec-HDRQNs)架构,克服环境非平稳带来的值估计偏差.他们根据单Agent的TDerror有选择得对策略进行更新

其中,

表示除Agenti外,其他Agent在当前策略下的联合动作产生概率;

表示除Agenti外,其他Agent联合动作在离环境下的产生概率;yl采用Q学习的方式获得.

利用获得优势函数

(z,(ai,a-i)对策略网络进行增强更新,获得的最好的实验效果超越了集中决策模型.

2.7多Agent实验平台

3MADRL中的关键问题及其展望

MADRL决策架构研究对当前MAS的强化学习决策结构进行了分析与讨论,但MADRL仍面临着多Agent训练要素的研究,即构建何种训练结构可以使得Agent能够不依赖人类知识而由弱到强的进行学习,如何构建合适的模型能够更加准确的描述MAS,针对特定的MAS采用何种决策架构等;此外,PS机制虽然使得单个Agent拥有足量的训练样本,但当前MAS系统仿真难度大,总体样本数量依然有限,数据效率低,因而,需要利用已有样本对整体样本进行增强,满足训练的样本量需求以及如何提高数据效率;同时,DRL训练通常面临着对环境过拟合的问题,而MADRL则面临着对对手和环境的双重过拟合问题,需要采用对抗机制提高MADRL算法的鲁棒性;在自主决策架构中,受限于不完全环境信息,需要充分考虑对手模型,学习对手行为,进而产生协同行为;另外,当前多Agent逆强化学习的研究仍是一片空白.本节针对这些实用技术展开分析与研究.

3.1多Agent训练要素研究

AlphaGoZero[7-8]利用自博弈的学习方式,不依赖人类知识,从零开始,训练出强大的围棋Agent.虽然AlphaGoZero是面向单Agent的强化学习,但从训练过程分析,其采用了竞争环境的多Agent共享参数训练框架,自博弈的双方Agent共用一套网络参数,增加了训练的样本量,并通过对抗式的训练架构,在19×19的简单环境中获得了远远超越环境复杂度的强大Agent.在多Agent学习中,可以使用类似的训练过程.Bansal等[81]针对Agent的行为容量受限于环境容量问题,即环境的复杂度限制了训练Agent的复杂度上限,提出了一种同AlphaGoZero相似的对抗式的训练架构,该架构是无模型的强化学习方法,通过从零开始的课程学习,使得带自博弈的对抗多Agent环境可以训练出远比环境本身更复杂的行为.尽管这种对抗训练方式在单个独立Agent环境中取得很大成功,在多Agent也取得一些进展,但并没有类似AlphaGoZero的重大的突破.

3.2样本增强技术研究

3.3鲁棒性研究

3.4对手建模研究

在多Agent任务中,存在着动作探索的风险.当多Agent同时进行探索时,各Agent都要面临这种噪声,往往造成全盘皆输的局面.同样的问题也出现在多Agent深度强化学习设置中[59],在不能进行通信协调的任务中,该问题显得更加复杂.而且在MAS中,Agent是多种多样的,在多Agent系统中可能包含着各种各样的Agent,它们的目标、感知以及奖赏都有可能是不同的.这种混杂的多Agent任务为最优行动的学习带来了极大的挑战.在多Agent决策中,需要考虑对队友与对抗对手的理解.在全通信中,Agent通过通信完成了对己方协同Agent的行为推断,但对对抗Agent仍需要进行观察与学习;在欠通信中,Agent不仅要对协同Agent的行为进行分析与判断,同时也要考虑对抗Agent的行为,对其进行分析与预测.Lowe等[105]利用对手的历史行为对对手的策略进行推断,通过最大化对手Agent的动作概率来近似对手策略,定义损失函数为

其中oj和aj表示待近似的Agentj的观测和实际执行动作,

表示对于决策Agenti而言的对手Agentj的近似策略,H表示策略分布的熵.Rabinowitz等[106]提出了一种使得机器可以学习他人心理状态的心智理论神经网络(Theoryofmindnetwork,ToMnet),通过观察Agent的行为,使用元学习对它们进行建模,得到一个对Agent行为具备强大先验知识的模型,该模型能够利用少量的行为观测,对Agent特征和心理状态进行更丰富的预测.如图11所示,特征网络从POMDP集合中解析Agent过去的轨迹,从而形成嵌入表示echar.心理状态表示网络的心智网络解析当前片段中Agent的轨迹,形成心理状态嵌入emental.然后,这些嵌入被输入至预测网络Predictionnet,结合当前状态对Agent未来行为进行预测,如下一步动作概率

、特定对象被消耗的概率

和预测后继者表示

图11心智网络Fig.11Mindtheoryneuralnetwork

4结论

尽管DRL在一些单Agent复杂序列决策任务中取得了卓越的效果,但多Agent环境下的学习任务中任然面临诸多挑战,另一方面,人类社会中很多问题都可以抽象为复杂MAS问题,所以,在这个领域需要进一步地深入探索.现有多Agent学习综述多同博弈论关联,但伴随着DRL的产生与发展,国内外尚没有一份关于MADRL的综述.我们通过总结近些年深度强化学习以及多Agent深度强化学习方面的论文,从训练架构以及实现技巧方面着手,撰写此文.MADRL是DRL在多Agent领域的扩展.本文首先对强化学习的基本方法以及DRL的主要方法进行了介绍与分析;在此基础上,从通信和决策架构方面对MADRL进行分类,抽象为全通信集中决策、全通信自主决策、欠通信自主决策三类,并对一些开放的多Agent训练环境进行了简要介绍;然后,对多Agent深度强化学习中需要用到的实用技术进行了分析与讨论,包含多Agent训练框架、样本增强、鲁棒性以及对手建模等一些关键问题,并根据对这些关键问题的认识,给出MADRL领域的发展展望,对仍待研究的问题进行了探讨.

THE END

《自动化学报》—多Agent深度强化学习综述今日头条

什么是强化学习？强化学习有哪些框架算法应用？

在线学习心得（精选25篇）

《自动化学报》—多Agent深度强化学习综述今日头条

鲁东大学以“五个结合”强化理论学习实效推动主题教育走深走实新闻中心

第2期全省党校（行政学院）系统党校教师网络学习专题好干部在线

在线精品课程应用效果范文

深度强化学习在交通信号控制中的应用资讯

AlphaGo原来是这样运行的，一文详解多智能体强化学习基础和应用alphago马尔科夫算法