AlphaGo原来是这样运行的,一文详解多智能体强化学习基础和应用alphago马尔科夫算法

近年来,随着强化学习(reinforcementlearning)在多个应用领域取得了令人瞩目的成果,并且考虑到在现实场景中通常会同时存在多个决策个体(智能体),部分研究者逐渐将眼光从单智能体领域延伸到多智能体。

1.强化学习和多智能体强化学习

我们知道,强化学习的核心思想是“试错”(trial-and-error):智能体通过与环境的交互,根据获得的反馈信息迭代地优化。在RL领域,待解决的问题通常被描述为马尔科夫决策过程。

图1:强化学习的框架(同时也表示了马尔科夫决策过程)。图源:[1]

1.1多智能体问题的建模——博弈论基础

马尔科夫决策过程拓展到多智能体系统,被定义为马尔科夫博弈(又称为随机博弈,Markov/stochasticgame)。当我们对博弈论有一定了解后,能够借助博弈论来对多智能体强化学习问题进行建模,并更清晰地找到求解问题的方法。

图2:马尔科夫博弈过程。图源:[2]

在马尔科夫博弈中,所有智能体根据当前的环境状态(或者是观测值)来同时选择并执行各自的动作,该各自动作带来的联合动作影响了环境状态的转移和更新,并决定了智能体获得的奖励反馈。它可以通过元组来表示,其中S表示状态集合,Ai和Ri分别表示智能体i的动作集合和奖励集合,T表示环境状态转移概率,表示损失因子。此时,某个智能体i获得的累积奖励的期望可以表示为:

对于马尔科夫博弈,纳什均衡(Nashequilibrium)是一个很重要的概念,它是在多个智能体中达成的一个不动点,对于其中任意一个智能体来说,无法通过采取其他的策略来获得更高的累积回报,在数学形式上可以表达为:

在该式中,π^表示智能体i的纳什均衡策略。

在这个表格中,当A和B都选择撒谎时,能够达到全局最优的回报。但是每个个体都不知道另外的个体会做出怎样的行为,对于A或者是来B说,如果改成选择坦白,则能够获得更优的回报。实际上,对于A或者B来说,此时不管另外的个体选择了哪种行为,坦白是它能够获得最优回报的选择。所以,最终会收敛到A和B都选择坦白,即囚徒困境中的纳什均衡策略。

相比于单智能体系统,强化学习应用在多智能体系统中会遇到哪些问题和挑战?

智能体获取信息的局限性:不一定能够获得全局的信息,智能体仅能获取局部的观测信息,但无法得知其他智能体的观测信息、动作和奖励等信息;

个体的目标一致性:各智能体的目标可能是最优的全局回报;也可能是各自局部回报的最优;

可拓展性:在大规模的多智能体系统中,就会涉及到高维度的状态空间和动作空间,对于模型表达能力和真实场景中的硬件算力有一定的要求。

1.2多智能体问题的求解——多智能体强化学习算法介绍

对于多智能体强化学习问题,一种直接的解决思路:将单智能体强化学习方法直接套用在多智能体系统中,即每个智能体把其他智能体都当作环境中的因素,仍然按照单智能体学习的方式、通过与环境的交互来更新策略;这是independentQ-learning方法的思想。这种学习方式固然简单也很容易实现,但忽略了其他智能体也具备决策的能力、所有个体的动作共同影响环境的状态,使得它很难稳定地学习并达到良好的效果。

在一般情况下,智能体之间可能存在的是竞争关系(非合作关系)、半竞争半合作关系(混合式)或者是完全合作关系,在这些关系模式下,个体需要考虑其他智能体决策行为的影响也是不一样的。参考综述[3],接下来的部分将根据智能体之间的关系,按照完全竞争式、半竞争半合作、完全合作式来阐述多智能体问题的建模以及求解方法。

1.2.1智能体之间是完全竞争关系

minimaxQ-learning算法用于两个智能体之间是完全竞争关系的零和随机博弈。首先是最优值函数的定义:对于智能体i,它需要考虑在其他智能体(i-)采取的动作(a-)令自己(i)回报最差(min)的情况下,能够获得的最大(max)期望回报。该回报可以表示为:

在式子中,V和Q省略了智能体i的下标,是因为在零和博弈中设定了Q1=-Q2,所以上式对于另一个智能体来说是对称等价的。这个值函数表明,当前智能体在考虑了对手策略的情况下使用贪心选择。这种方式使得智能体容易收敛到纳什均衡策略。

在学习过程中,基于强化学习中的Q-learning方法,minimaxQ-learning利用上述minimax思想定义的值函数、通过迭代更新Q值;动作的选择,则是通过线性规划来求解当前阶段状态s对应的纳什均衡策略。

图3:minimax-Qlearning算法流程。图源[4]

minimaxQ方法是竞争式博弈中很经典的一种思想,基于该种思想衍生出很多其他方法,包括Friend-or-FoeQ-learning、correlatedQ-learning,以及接下来将要提到的NashQ-learning。

1.2.2智能体之间是半合作半竞争(混合)关系

双人零和博弈的更一般形式为多人一般和博弈(general-sumgame),此时minimaxQ-learning方法可扩展为NashQ-learning方法。当每个智能体采用普通的Q学习方法,并且都采取贪心的方式、即最大化各自的Q值时,这样的方法容易收敛到纳什均衡策略。NashQ-learning方法可用于处理以纳什均衡为解的多智能体学习问题。它的目标是通过寻找每一个状态的纳什均衡点,从而在学习过程中基于纳什均衡策略来更新Q值。

具体地,对于一个智能体i来说,它的NashQ值定义为:

此时,假设了所有智能体从下一时刻开始都采取纳什均衡策略,纳什策略可以通过二次规划(仅考虑离散的动作空间,π是各动作的概率分布)来求解。

在Q值的迭代更新过程中,使用NashQ值来更新:

可以看到,对于单个智能体i,在使用NashQ值进行更新时,它除了需要知道全局状态s和其他智能体的动作a以外,还需要知道其他所有智能体在下一状态对应的纳什均衡策略π。进一步地,当前智能体就需要知道其他智能体的Q(s')值,这通常是根据观察到的其他智能体的奖励和动作来猜想和计算。所以,NashQ-learning方法对智能体能够获取的其他智能体的信息(包括动作、奖励等)具有较强的假设,在复杂的真实问题中一般不满足这样严格的条件,方法的适用范围受限。

图4:nash-Qlearning算法流程。图源:[5]

1.2.3智能体之间是完全合作关系

怎样实现在智能体策略学习过程中考虑其他协作智能体的影响呢?这个问题我们可以分类讨论,分类的依据是具体问题对于智能体协作的条件要求,即智能体通过协作获得最优回报时,是否需要协调机制:

不需要协作机制

对于一个问题(或者是任务),当所有智能体的联合最优动作是唯一的时候,完成该任务是不需要协作机制的。这个很容易理解,假设对于环境中的所有智能体存在不只一个最优联合动作,即有和,那么A和B之间就需要协商机制,决定是同时取π,还是同时取h;因为如果其中一个取π、另一个取h,得到的联合动作就不一定是最优的了。TeamQ-learning是一种适用于不需要协作机制的问题的学习方法,它提出对于单个智能体i,可以通过下面这个式子来求出它的最优动作hi:

DistributedQ-learning也是一种适用于不需要协作机制的问题的学习方法,不同于TeamQ-learning在选取个体最优动作的时候需要知道其他智能体的动作,在该方法中智能体维护的是只依据自身动作所对应的Q值,从而得到个体最优动作。

隐式的协作机制

在智能体之间需要相互协商、从而达成最优的联合动作的问题中,个体之间的相互建模,能够为智能体的决策提供潜在的协调机制。在联合动作学习(jointactionlearner,JAL)[6]方法中,智能体i会基于观察到的其他智能体j的历史动作、对其他智能体j的策略进行建模。在频率最大Q值(frequencymaximumQ-value,FMQ)[7]方法中,在个体Q值的定义中引入了个体动作所在的联合动作取得最优回报的频率,从而在学习过程中引导智能体选择能够取得最优回报的联合动作中的自身动作,那么所有智能体的最优动作组合被选择的概率也会更高。

JAL和FMQ方法的基本思路都是基于均衡求解法,但这类方法通常只能处理小规模(即智能体的数量较少)的多智能体问题:在现实问题中,会涉及到大量智能体之间的交互和相互影响,而一般的均衡求解法受限于计算效率和计算复杂度、很难处理复杂的情况。在大规模多智能体学习问题中,考虑群体联合动作的效应,包括当前智能体受到的影响以及在群体中发挥的作用,对于智能体的策略学习是有较大帮助的。

基于平均场理论的多智能体强化学习(MeanFieldMARL,MFMARL)方法是UCL学者在2018年ICML会议上提出的一种针对大规模群体问题的方法,它将传统强化学习方法(Q-learning)和平均场理论(meanfieldtheory)相结合。平均场理论适用于对复杂的大规模系统建模,它使用了一种简化的建模思想:对于其中的某个个体,所有其他个体产生的联合作用可以用一个“平均量”来定义和衡量。此时,对于其中一个个体来说,所有其他个体的影响相当于一个单体对于它的影响,这样的建模方式能够有效处理维度空间和计算量庞大的问题。

MFMARL方法基于平均场理论的建模思想,将所有智能体看作一个“平均场”,个体与其他智能体之间的关系可以描述为个体和平均场之间的相互影响,从而简化了后续的分析过程。

图5:基于平均场理论的多智能体建模方式,单个智能体只考虑与相邻的其他智能体(蓝色球体区域)的相互作用。图源:[8]

首先,为了处理集中式全局值函数的学习效果会受到智能体数量(联合动作的维度)的影响,对值函数进行分解。对于单个智能体j,它的值函数Qj(s,a)包含了与所有Nj个相邻智能体k之间的相互作用:

然后,将平均场理论的思想结合到上式中。考虑离散的动作空间,单个智能体的动作采用one-hot编码的方式,即aj=[h(aj_1),...h(aj_d)],其中h(aj_i)=1ifaj=aj_i:0;其他相邻智能体的动作可以表示为平均动作\bar和一个波动δ的形式:

利用泰勒二阶展开,得到

该式子即是将当前智能体j与其他相邻智能体k的相互作用,简化为当前智能体j和虚拟智能体\bar的相互作用,是平均场思想在数学形式上的体现。此时,在学习过程中,迭代更新的对象为平均场下的Q(s,aj,\bar)值(即MF-Q),有:

在更新中使用v而不是使用maxQ的原因在于:对Q取max,需要相邻智能体策略\bar的合作,而对于智能体j来说是无法直接干涉其他智能体的决策情况;另一方面,贪心的选择依旧会导致学习过程受到环境不稳定性的影响。

对应地,智能体j的策略也会基于Q值迭代更新,使用玻尔兹曼分布有:

原文证明了通过这样的迭代更新方式,\bar最终能够收敛到唯一平衡点的证明,并推出智能体j的策略πj能够收敛到纳什均衡策略。

显式的协作机制

关于显式的协作机制,我们将通过多智能体深度强化学习在多机器人领域的应用中会简单介绍(主要是人机之间的交互,考虑现存的一些约束条件/先验规则等)。

2.多智能体深度强化学习

2.1policy-based的方法

在完全合作的setting下,多智能体整体通常需要最大化全局的期望回报。前面提到一种完全集中式的方式:通过一个中心模块来完成全局信息的获取和决策计算,能够直接地将适用于单智能体的RL方法拓展到多智能体系统中。但通常在现实情况中,中心化的控制器(centralizedcontroller)并不一定可行,或者说不一定是比较理想的决策方式。而如果采用完全分布式的方式,每个智能体独自学习自己的值函数网络以及策略网络、不考虑其他智能体对自己的影响,无法很好处理环境的不稳定问题。利用强化学习中actor-critic框架的特点,能够在这两种极端方式中找到协调的办法。

1.多智能体DDPG方法(Multi-AgentDeepDeterministicPolicyGradient,MADDPG)

这种方法是在深度确定策略梯度(DeepDeterministicPolicyGradient,DDPG)方法的基础上、对其中涉及到的actor-critic框架进行改进,使用集中式训练、分布式执行的机制(centralizedtraininganddecentralizedexecution),为解决多智能体问题提供了一种比较通用的思路。

MADDPG为每个智能体都建立了一个中心化的critic,它能够获取全局信息(包括全局状态和所有智能体的动作)并给出对应的值函数Qi(x,a1,...,an),这在一定程度上能够缓解多智能体系统环境不稳定的问题。另一方面,每个智能体的actor则只需要根据局部的观测信息作出决策,这能够实现对多智能体的分布式控制。

在基于actor-critic框架的学习过程中,critic和actor的更新方式和DDPG类似。对于critic,它的优化目标为:

对于actor,考虑确定性策略μi(ai|oi),策略更新时的梯度计算可以表示为:

图6:中心化的Q值学习(绿色)和分布式的策略执行(褐色)。Q值获取所有智能体的观测信息o和动作a,策略π根据个体的观测信息来输出个体动作。图源:[9]

在MADDPG中,个体维护的中心化Q值需要知道全局的状态信息和所有智能体的动作信息,此时假设了智能体能够通过通信或者是某种方式得知其他智能体的观测值和策略,这种假设前提过于严格。MADDPG进一步提出了可以通过维护策略逼近函数\hat{\miu}来估计其他智能体的策略,通过对其他智能体的行为建模使得维护中心化的Q值、考虑联合动作效应对单个个体来说是可行的。智能体i在逼近第j个智能体的策略函数时,其优化目标是令策略函数能够近似经验样本中智能体j的行为,同时考虑该策略的熵,可表示为:

除了考虑联合动作以外,MADDPG在处理环境不稳定问题方面还使用了策略集成(policiesensemble)的技巧。由于环境中的每个智能体的策略都在迭代更新,因此很容易出现单个智能体的策略对其他智能体的策略过拟合,即当其他智能体的策略发生改变时,当前得到的最优策略不一定能很好的适应其他智能体的策略。为了缓和过拟合问题,MADDPG提出了策略集成的思想,即对于单个智能体i,它的策略μi是由多个子策略μi^k构成的集合。在一个episode中,只使用一种从集合中采样得到的子策略进行决策和完成交互。在学习过程中最大化的目标是所有子策略的期望回报,即

每个子策略的更新梯度为:

总的来说,MADDPG的核心是在DDPG算法的基础上,对每个智能体使用全局的Q值来更新局部的策略,该方法在完全合作、完全竞争和混合关系的问题中都能取得较好效果。算法流程如下所示:

图7:MADDPG算法流程。图源:[9]

2.反事实多智能体策略梯度法方法(CounterfactualMulti-AgentPolicyGradients,COMA)

在合作式的多智能体学习问题中,每个智能体共享奖励(即在同一个时刻获得相同的奖励),此时会存在一个“置信分配”问题(creditassignment):如何去评估每个智能体对这个共享奖励的贡献?

COMA方法在置信分配中利用了一种反事实基线:将智能体当前的动作和默认的动作进行比较,如果当前动作能够获得的回报高于默认动作,则说明当前动作提供了好的贡献,反之则说明当前动作提供了坏的贡献;默认动作的回报,则通过当前策略的平均效果来提供(即为反事实基线)。在对某个智能体和基线进行比较的时,需要固定其他智能体的动作。当前策略的平均效果和优势函数的定义如下:

COMA方法结合了集中式训练、分布式执行的思想:分布式的个体策略以局部观测值为输入、输出个体的动作;中心化的critic使用特殊的网络结构来输出优势函数值。

具体地,critic网络的输入包括了全局状态信息s、个体的局部观测信息o、个体的编号a以及其他智能体的动作,首先输出当前智能体不同动作所对应的联合Q值。然后,再经过COMA模块,使用输入其中的智能体当前策略和动作,计算反事实基线以及输出最终的优势函数。

图8:(a)COMA方法中的actor-critic框架图,(b)actor的网络结构,(c)critic的网络结构(包含了核心的COMA模块来提供优势函数值)。图源:[10]

2.2value-based的方法

在前面提到的policy-based方法中,中心化的值函数是直接使用全局信息进行建模,没有考虑个体的特点。在多智能体系统是由大规模的多个个体构成时,这样的值函数是难以学习或者是训练到收敛的,很难推导出理想的策略。并且仅依靠局部观测值,无法判断当前奖励是由于自身的行为还是环境中其他队友的行为而获得的。

值分解网络(valuedecompositionnetworks,VDN)由DeepMind团队在2018年提出,该方法的核心是将全局的Q(s,a)值分解为各个局部Qi(si,ai)的加权和,每个智能体拥有各自的局部值函数。

这样的分解方式,在联合动作Q值的结构组成方面考虑了个体行为的特性,使得该Q值更易于学习。另一方面,它也能够适配集中式的训练方式,在一定程度上能够克服多智能体系统中环境不稳定的问题。在训练过程中,通过联合动作Q值来指导策略的优化,同时个体从全局Q值中提取局部的Qi值来完成各自的决策(如贪心策略ai=argmaxQi),实现多智能体系统的分布式控制。

图9:左图是完全分布式的局部Q值网络结构,右图是VDN的联合动作Q值网络结构。考虑两个智能体,它们的联合动作Q值由个体的Q1和Q2求和得到,在学习时针对这个联合Q值进行迭代更新,而在执行时个体根据各自的Qi值得到自身的动作ai。图源:[11]

VDN对于智能体之间的关系有较强的假设,但是,这样的假设并不一定适合所有合作式多智能体问题。在2018年的ICML会议上,有研究者提出了改进的方法QMIX。

QMIX在VDN的基础上实现了两点改进:1)在训练过程中加入全局信息进行辅助;2)采用混合网络对单智能体的局部值函数进行合并(而不是简单的线性相加)。

在QMIX方法中,首先假设了全局Q值和局部Q值之间满足这样的关系:最大化全局Q_tot值对应的动作,是最大化各个局部Q_a值对应动作的组合,即

在这样的约束条件下,既能够使用集中式的学习方法来处理环境不稳定性问题以及考虑多智能体的联合动作效应(全局Q值的学习),又能够从中提取出个体策略实现分布式的控制(基于局部Q值的行为选择)。进一步地,该约束条件可转化为全局Q值和局部Q值之间的单调性约束关系:

令全局Q值和局部Q值之间满足该约束关系的函数表达式有多种,VDN方法的加权求和就是其中一种,但简单的线性求和并没有充分考虑到不同个体的特性,对全体行为和局部行为之间的关系的描述有一定的局限性。QMIX采用了一个混合网络模块(mixingnetwork)作为整合Qa生成Q_tot的函数表达式,它能够满足上述的单调性约束。

图10:QMIX网络结构。图源:[12]

在QMIX方法设计的网络结构中,每个智能体都拥有一个DRQN网络(绿色块),该网络以个体的观测值作为输入,使用循环神经网络来保留和利用历史信息,输出个体的局部Qi值。

所有个体的局部Qi值输入混合网络模块(蓝色块),在该模块中,各层的权值是利用一个超网络(hypernetwork)以及绝对值计算产生的:绝对值计算保证了权值是非负的、使得局部Q值的整合满足单调性约束;利用全局状态s经过超网络来产生权值,能够更加充分和灵活地利用全局信息来估计联合动作的Q值,在一定程度上有助于全局Q值的学习和收敛。

结合DQN的思想,以Q_tot作为迭代更新的目标,在每次迭代中根据Q_tot来选择各个智能体的动作,有:

最终学习收敛到最优的Q_tot并推出对应的策略,即为QMIX方法的整个学习流程。

3.多智能体强化学习的应用

3.1.游戏应用

分步对抗游戏

针对巨大状态空间的问题,使用网络结构CNN来提取和表示状态信息;

在训练的第一个阶段,使用人类玩家的数据进行有监督训练,得到预训练的网络;

在训练的第二个阶段,通过强化学习方法和自我博弈进一步更新网络;

在实际参与游戏时,结合价值网络(valuenetwork)和策略网络(policynetwork),使用蒙特卡洛树搜索(MCTS)方法得到真正执行的动作。

实时战略游戏

MARL的另一种重要的游戏应用领域,是实时战略游戏,包括星际争霸,DOTA,王者荣耀,吃鸡等。该类游戏相比于前面提到的国际象棋、围棋等回合制类型的游戏,游戏AI训练的难度更大,不仅因为游戏时长过长、对于未来预期回报的估计涉及到的步数更多,还包括了多方同时参与游戏时造成的复杂空间维度增大,在一些游戏设定中可能无法获取完整的信息以及全局的形势(比如在星际争霸中,不知道迷雾区域是否有敌方的军队),在考虑队内合作的同时也要考虑对外的竞争。

AlphaStar是OpenAI团队另一个针对星际争霸2(StarcraftII)研发的游戏AI,其中在处理多智能体博弈问题的时候,再次利用了self-play的思想并进一步改进,提出了一种联盟利用探索的学习方式(leagueexploiterdiscovery)。使用多类个体来建立一个联盟(league),这些个体包括主智能体(mainagents)、主利用者(mainexploiters)、联盟利用者(leagueexploiters)和历史玩家(pastplayers)四类。这几类智能体的策略会被保存(相当于构建了一个策略池),在该联盟内各类智能体按照一定的匹配规则与策略池中的其他类智能体的策略进行对抗,能够利用之前学会的有效信息并且不断增强策略的能力,解决普通的自我博弈方法所带有的“循环学习”问题(“Chasingitstail”)。

图12:联盟利用者探索(leagueexploiterdiscovery)的学习框架。图源:[14]

3.2.多机器人避碰

在移动机器人方面,自主避障导航是底层应用的关键技术,近几年通过强化学习的方法来学习单机器人导航策略这方面的工作成果比较多;而当环境中存在多个移动机器人同时向各自目标点移动的时候,需要进一步考虑机器人之间的相互避碰问题,这也是MARL在多机器人导航(multi-robotnavigation)领域的主要研究问题。JiaPan教授团队[13]在控制多机器人避碰导航问题上使用了集中式学习和分布式执行的机制,在学习过程中机器人之间共享奖励、策略网络和值函数网络,通过共享的经验样本来引导相互之间达成隐式的协作机制。

图13:多机器人向各自目标点移动过程中的相互避碰。仓库物件分发是该问题的常见场景,多个物流机器人在向各自指定的目标点移动过程当中,需要避免和仓库中的其他物流机器人发生碰撞。图源:[15]

另外,不仅有机器人和机器人之间的避碰问题,有一些工作还考虑到了机器人和人之间的避碰问题,如SA-CADRL(sociallyawarecollisionavoidancedeepreinforcementlearning)。根据该导航任务的具体设定(即机器人处在人流密集的场景中),在策略训练是引入一些人类社会的规则(sociallyrule),相当于要让机器人的策略学习到前面1.2.3部分提到显式的协调机制,达成机器人与人的行为之间的协作。

图14:左图展示了相互避碰时的两种对称规则,上面为左手规则,下面为右手规则。右图是在SA-CADRL方法中模型引入这样的对称性信息,第一层中的红色段表示当前智能体的观测值,蓝色块表示它考虑的附近三个智能体的观测值,权重矩阵的对称性是考虑了智能体之间遵循一定规则的对称行为。图源:[16]

4.总结

参考文献:

[1]SuttonRS,BartoAG.Reinforcementlearning:Anintroduction[M].MITpress,2018.

[2]ZhangK,YangZ,BaarT.Multi-AgentReinforcementLearning:ASelectiveOverviewofTheoriesandAlgorithms[J].2019.

[3]L.Busoniu,R.Babuska,andB.DeSchutter,“Acomprehensivesurveyofmulti-agentreinforcementlearning,”IEEETransactionsonSystems,Man,andCybernetics,PartC:ApplicationsandReviews,vol.38,no.2,pp.156–172,Mar.2008.

[4]LittmanML.Markovgamesasaframeworkformulti-agentreinforcementlearning[C].internationalconferenceonmachinelearning,1994:157-163.

[5]HuJ,WellmanMP.NashQ-learningforgeneral-sumstochasticgames[J].Journalofmachinelearningresearch,2003,4(Nov):1039-1069.

[6]CarolineClausandCraigBoutilier.Thedynamicsofreinforcementlearningincooperativemultiagentsystems.InProceedingsoftheFifteenthNationalConferenceonArtificialIntelligence,pp.746–752,1998.

[7]S.KapetanakisandD.Kudenko.Reinforcementlearningofcoordinationincooperativemulti-agentsystems.AmericanAssociationforArtificialIntelligence,pp.326-331,2002.

[8]YangY,LuoR,LiM,etal.MeanFieldMulti-AgentReinforcementLearning[C].internationalconferenceonmachinelearning,2018:5567-5576

[9]LoweR,WuY,TamarA,etal.Multi-AgentActor-CriticforMixedCooperative-CompetitiveEnvironments[C].neuralinformationprocessingsystems,2017:6379-6390.

[10]FoersterJ,FarquharG,AfourasT,etal.CounterfactualMulti-AgentPolicyGradients[J].arXiv:ArtificialIntelligence,2017.

[11]SunehagP,LeverG,GruslysA,etal.Value-DecompositionNetworksForCooperativeMulti-AgentLearning.[J].arXiv:ArtificialIntelligence,2017.

[12]RashidT,SamvelyanM,DeWittCS,etal.QMIX:MonotonicValueFunctionFactorisationforDeepMulti-AgentReinforcementLearning[J].arXiv:Learning,2018.

[14]Vinyals,O.,Babuschkin,I.,Czarnecki,W.M.etal.GrandmasterlevelinStarCraftIIusingmulti-agentreinforcementlearning.Nature575,350–354(2019).

[15]P.Long,T.Fan,X.Liao,W.Liu,H.ZhangandJ.Pan,"TowardsOptimallyDecentralizedMulti-RobotCollisionAvoidanceviaDeepReinforcementLearning,"2018IEEEInternationalConferenceonRoboticsandAutomation(ICRA),Brisbane,QLD,2018,pp.6252-6259,doi:10.1109/ICRA.2018.8461113.

[16]Y.F.Chen,M.Everett,M.LiuandJ.P.How,"Sociallyawaremotionplanningwithdeepreinforcementlearning,"2017IEEE/RSJInternationalConferenceonIntelligentRobotsandSystems(IROS),Vancouver,BC,2017,pp.1343-1350,doi:10.1109/IROS.2017.8202312.

[17]Hernandez-LealP,KartalB,TaylorME.Asurveyandcritiqueofmultiagentdeepreinforcementlearning[J].AutonomousAgents&MultiAgentSystems,2019(2).

THE END
1.干部在线培训学习心得体会(通用21篇)学习能促进思维创新,思维创新促进智力发展。这市委委组织部又推出网上平台学习,对干部队伍强化学习、提高素质起到了极大的促进作用。 一是在线学习解决了工学矛盾的突出问题。它突破了面对面式授课,使整个学习变得灵活便捷,完全可以利用工作的闲暇时间,打开电脑就能进入“干部在线学习系统”。因此,一些零散的时间也就变成https://www.ruiwen.com/xindetihui/3426039.html
2.持续学习与在线强化学习.pptx2.通过持续学习和在线强化学习,可以实现更智能、更自主的系统,提高生产效率和服务质量。3.未来,持续学习与强化学习将成为人工智能领域的重要研究方向之一。在线强化学习的基本原理持续学习与在线强化学习在线强化学习的基本原理在线强化学习的定义1.在线强化学习是在线学习和强化学习的结合,通过实时的反馈和数据进行模型优化https://m.renrendoc.com/paper/297429452.html
3.强化学习的教育资源:在线课程与学习路径在线课程和教育资源是学习强化学习的一个好方法。在这篇文章中,我们将介绍一些在线课程和学习路径,以帮助您更好地理解强化学习的核心概念、算法和应用。 2.核心概念与联系 强化学习的核心概念包括:状态、动作、奖励、策略、值函数等。这些概念是强化学习中最基本的元素,理解这些概念对于学习强化学习至关重要。 https://blog.csdn.net/universsky2015/article/details/135801299
4.强化学习的应用领域和案例腾讯云开发者社区强化学习可以用于自动驾驶领域,使自动驾驶车辆在复杂的交通环境中做出最优决策。例如,让自动驾驶车辆学习如何避让障碍物、规划最佳路径等。 这也是这个强化学习系列课程想要给大家解决的一个问题:如何在迷宫中训练智能机器人,寻找最佳路径。 第四:资源管理 强化学习可以用于资源管理的优化,例如电力系统调度、网络流量管理等https://cloud.tencent.com/developer/article/2309423
5.安徽师范大学干部在线学习中心安徽师范大学于2013年5月与国家教育行政学院正式建立合作关系,在“中国教育干部网络学院”基础上,共同建设“安徽师范大学干部在线学习中心”,利用平台优质网络培训课程资源及在线学习系统,先后于2013年、2015年和2017年在全校处科级干部中开展在线学习,累计在线培训学员近千人次,每期培训期限为1年,较好地完成干部在职提高培https://www.enaea.edu.cn/news/dxyinling/hzjg/2019-01-10/70402.html
6.科学网—[转载]强化学习在资源优化领域的应用根据智能体在与环境交互过程中具体学习的内容,可以把无须对环境进行建模(即model-free)的强化学习算法分为两大类:直接学习动作执行策略的策略优化算法(如REINFORCE)和通过学习一个值函数进而做出动作执行决策的值优化算法(如Q-learning)。 在策略优化这类算法中,主要学习对象是动作执行策略πθ,其中,θ表示当前策略的https://blog.sciencenet.cn/blog-3472670-1312677.html
7.线上教学方案根据xx省教育厅关于延迟开学期间中小学线上开课的指导意见》(xx教基二函〔20xx〕xx号)和《xx市教育局关于延迟开学期间中小学线上开课实施方案》(xx教通〔20xx〕xx号)要求,结合本校实际情况,制定线上教学实施方案,丰富学生居家学习生活,确保延迟开学期间停课不停学。 https://www.oh100.com/a/202212/5827795.html
8.qlearning多智能体强化学习多智能体概念最近在学习多智能体的强化学习,看了几篇高质量基础论文,发现还是很有必要将强化学习的体系简单过一遍,然后再有针对性地练习代码。 1.强化学习简介 1.1 强化学习概念 强化学习与监督学习、非监督学习都属于机器学习,是人工智能的范畴。值得一提的是深度学习也是机器学习的一种范式,深度学习在机器学习的基础上优化了数https://blog.51cto.com/u_16099283/11852182
9.张掖市干部在线学习平台张掖市在线学习平台https://www.zygbxxpt.com/Login.aspx
10.强化学习算法与应用综述表1 3类主流强化学习算法对照 2.1 基于价值(value-based)的强化学习算法 基于价值(value-based)的强化学习算法通过获取最优价值函数, 选取最大价值函数对应的动作, 隐式地构建最优策略. 代表性算法包括Q-learning[22]、SARSA[23], 以及与深度学习相结合的Deep Q-Network (DQN)算法[24,25]. 此类方法多通过https://c-s-a.org.cn/html/2020/12/7701.html
11.2022在线网课学习课堂《人工智能(北理)》单元测试考核答案.pdf在线网课学习课堂《人工智能(北理 )》单元测试考核答案.pdf,注:不含主观题 第 1 题 单选题 (1分) 变化是学习的()。 A 基础 B 结果 C 条件 D 目标 第 2 题 单选题 (1分) 群智能对应于人的()。 A 学习能力 B 行为能力 C 语言能力 D 社交能力 第 3 题 单选题 (1分) 进化https://m.book118.com/html/2022/0913/8126126014004137.shtm
12.大语言模型的拐杖——RLHF基于人类反馈的强化学习**字面翻译:**RLHF (Reinforcement Learning from Human Feedback) ,即以强化学习方式依据人类反馈优化语言模型。 强化学习从人类反馈(RLHF)是一种先进的AI系统训练方法,它将强化学习与人类反馈相结合。它是一种通过将人类训练师的智慧和经验纳入模型训练过程中,创建更健壮的学习过程的方法。该技术涉及使用人类反馈创http://wehelpwin.com/article/4042
13.基于深度强化学习的水面无人艇路径跟踪方法6.针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于深度强化学习的水面无人艇路径跟踪方法,无需进行环境和无人艇运动建模并且具备自适应能力,从而能够进一步提高无人艇路径跟踪控制的稳定性和准确性。 7.为了解决上述技术问题,本发明采用了如下的技术方案: https://www.xjishu.com/zhuanli/54/202210772926.html/