开通VIP,畅享免费电子书等14项超值服
首页
好书
留言交流
下载APP
联系客服
2020.08.12
作者:DeepRL
一、摘要
近年来,强化学习在围棋、游戏等领域的应用取得巨大成功。然而,现有算法在学习过程中值函数的近似误差会造成严重的过估计问题,导致策略性能极大地降低。智能驾驶课题组(iDLab)提出一种可减少过估计的DistributionalSoftActor-Critic(DSAC)算法,通过学习连续状态-动作回报分布(state-actionreturndistribution)来动态调节Q值的更新过程,并证明引入该分布降低过估计的原理。本文基于异步并行计算框架PABAL来实施DSAC算法,Mujoco环境的验证表明:相比于目前最流行的强化学习算法,如:SAC、TD3、DDPG等,所提出的DSAC算法在不引入额外值网络或者策略网络的前提下能够更加有效地降低Q值的估计误差,并在各项任务中获得最好的性能。
二、介绍
三、DistributionalRL框架
DSAC是基于MaximumEntropy架构设计的,该学习过程不仅试图最大累积的回报,同时最大化策略的熵以提高策略的探索性:
此版本下的最优策略的求解仍然由策略评估和策略提升两步构成,在策略迭代中,基于以下的贝尔曼自洽算子来更新值函数:
策略提升环节通过最大化值函数对策略进行更新:
以上两步交替迭代直到达到最终的最优策略。
DistributionalRL直接对回报分布进行建模,而并非学习其期望值(Q值),其定义为:
此时其均值为Q函数:
很显然,上式等号两端都是分布,因此表示两个分布具有相同的概率形式。而此时的策略提升环节仍然和MaximumEntropyRL类似,我们把这种结合最大熵和分布式回报的策略迭代称之为‘DistributionalSoftPolicyIteration(DSPI)’,并且证明DSPI也会收敛到最优的策略。
四、减小过估计的原理
本节对returndistribution学习的过估计误差进行定量分析。为方便起见,假设熵的权重系数为0。在Q学习算法中,定义其目标函数值为,每一步Q值的更新都是最小化目标值和当前值的平方误差,即:
可以看到,此时的过估计误差随着的增大呈平方下降趋势。另一方面,通常正比于系统的不确定性,回报函数的随机性以及后续return分布的随机性,这些不确定性和随机性越显著,那么就越大,分布式回报学习对误差的降低作用也更加显著。同时,如果则有。通过方差剪枝技术和reward缩放技术,是很容易得到满足的。
五、DSAC算法设计
在前文中,我们提出了DSPI的框架并证明了策略的收敛性,本节以此为基础提出一种具体的算法:DistributionalSoftActor-Critic,简写为DSAC。考虑return和策略服从参数化的高斯分布和,它们的均值和方差都由神经网络拟合。
在策略评估阶段,我们选择KL散度为分布距离的度量,优化当前策略对应的return的分布:
关于参数的梯度为:
以上梯度公式面临两个问题:当分布的标准差和时,将分别发生梯度爆炸或消失。这里我们采用截断技术(clip)解决这一问题,将标准差限制在一个合理范围内,同时为了防止目标分布变化过大造成学习的不稳定,将目标分布限制在当前return分布的期望附近:
在策略改进阶段,可以直接最大化softQ值:
为了减小策略的方差,我们使用重参数化技术求解策略的梯度。如果中显含,则可以将随机动作表示为:
这里是从某个分布采样的辅助变量,此时梯度为:
如果中不显含,还需要对return的分布进行重参数化:
此时得到的梯度为:
此外,熵系数更新方式参考了SAC论文的更新:
整个算法伪代码如图1所示:
图1DSAC算法伪代码
本文基于parallelasynchronousbuffer-actor-learnerarchitecture(PABAL)这一异步并行计算架构(如图2)来部署各强化学习算法,以提高采样、探索和更新效率。每个actor异步地与环境交互并将产生的经验数据随机发送至buffer,buffer随机选取经验并发送至随机的learner计算梯度,更新共享值网络与策略网络参数。为了方便对比,论文中所有的算法均在PABAL架构下实现。
图2PABAL架构
六、实验结果
实验任务为经典的MuJoCo连续控制任务平台,共做了Humanoid-v2、HalfCheetah-v2、Ant-v2、Walker2d、InvertedDoublePendulum-v2等5个任务。比较的算法包括DDPG,TD3与SAC,以及本文提出的SAC两种变体Double-QSAC和Single-QSAC。另外,我们将传统TD3算法引入分布式return提出一种新的算法,称为TD4算法。所有算法采用相同的神经网络结构、训练超参数、PABAL进程数与输入输出。绘制训练曲线如图3所示,实验结果表明本文所提出的DSAC算法在5个MuJoCo连续控制任务中均能取得最好的效果。此外,TD4的表现超越了基础版本TD3与DDPG,也验证了分布式return的引入也能提升确定性策略的性能。DSAC和SAC的控制效果比较见视频。由于mujoco环境的reward往往与智能体速度成正比,DSAC控制下的智能体具有更好的行走姿态因此其回报更高。
图3MuJoCo连续控制任务训练曲线(实线表示均值,阴影区域表示5次运行95%置信区间)
图4MuJoCo练习控制任务的平均Q值估计偏差曲线(实线表示均值,阴影区域表示5次运行的95%置信区间)
总结而言,DSAC在不需要引入额外值网络和策略网络的前提下,可以很好地抑制过估计误差并提高策略性能。