DistributionalSoftActor

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2020.08.12

作者:DeepRL

一、摘要

近年来,强化学习在围棋、游戏等领域的应用取得巨大成功。然而,现有算法在学习过程中值函数的近似误差会造成严重的过估计问题,导致策略性能极大地降低。智能驾驶课题组(iDLab)提出一种可减少过估计的DistributionalSoftActor-Critic(DSAC)算法,通过学习连续状态-动作回报分布(state-actionreturndistribution)来动态调节Q值的更新过程,并证明引入该分布降低过估计的原理。本文基于异步并行计算框架PABAL来实施DSAC算法,Mujoco环境的验证表明:相比于目前最流行的强化学习算法,如:SAC、TD3、DDPG等,所提出的DSAC算法在不引入额外值网络或者策略网络的前提下能够更加有效地降低Q值的估计误差,并在各项任务中获得最好的性能。

二、介绍

三、DistributionalRL框架

DSAC是基于MaximumEntropy架构设计的,该学习过程不仅试图最大累积的回报,同时最大化策略的熵以提高策略的探索性:

此版本下的最优策略的求解仍然由策略评估和策略提升两步构成,在策略迭代中,基于以下的贝尔曼自洽算子来更新值函数:

策略提升环节通过最大化值函数对策略进行更新:

以上两步交替迭代直到达到最终的最优策略。

DistributionalRL直接对回报分布进行建模,而并非学习其期望值(Q值),其定义为:

此时其均值为Q函数:

很显然,上式等号两端都是分布,因此表示两个分布具有相同的概率形式。而此时的策略提升环节仍然和MaximumEntropyRL类似,我们把这种结合最大熵和分布式回报的策略迭代称之为‘DistributionalSoftPolicyIteration(DSPI)’,并且证明DSPI也会收敛到最优的策略。

四、减小过估计的原理

本节对returndistribution学习的过估计误差进行定量分析。为方便起见,假设熵的权重系数为0。在Q学习算法中,定义其目标函数值为,每一步Q值的更新都是最小化目标值和当前值的平方误差,即:

可以看到,此时的过估计误差随着的增大呈平方下降趋势。另一方面,通常正比于系统的不确定性,回报函数的随机性以及后续return分布的随机性,这些不确定性和随机性越显著,那么就越大,分布式回报学习对误差的降低作用也更加显著。同时,如果则有。通过方差剪枝技术和reward缩放技术,是很容易得到满足的。

五、DSAC算法设计

在前文中,我们提出了DSPI的框架并证明了策略的收敛性,本节以此为基础提出一种具体的算法:DistributionalSoftActor-Critic,简写为DSAC。考虑return和策略服从参数化的高斯分布和,它们的均值和方差都由神经网络拟合。

在策略评估阶段,我们选择KL散度为分布距离的度量,优化当前策略对应的return的分布:

关于参数的梯度为:

以上梯度公式面临两个问题:当分布的标准差和时,将分别发生梯度爆炸或消失。这里我们采用截断技术(clip)解决这一问题,将标准差限制在一个合理范围内,同时为了防止目标分布变化过大造成学习的不稳定,将目标分布限制在当前return分布的期望附近:

在策略改进阶段,可以直接最大化softQ值:

为了减小策略的方差,我们使用重参数化技术求解策略的梯度。如果中显含,则可以将随机动作表示为:

这里是从某个分布采样的辅助变量,此时梯度为:

如果中不显含,还需要对return的分布进行重参数化:

此时得到的梯度为:

此外,熵系数更新方式参考了SAC论文的更新:

整个算法伪代码如图1所示:

图1DSAC算法伪代码

本文基于parallelasynchronousbuffer-actor-learnerarchitecture(PABAL)这一异步并行计算架构(如图2)来部署各强化学习算法,以提高采样、探索和更新效率。每个actor异步地与环境交互并将产生的经验数据随机发送至buffer,buffer随机选取经验并发送至随机的learner计算梯度,更新共享值网络与策略网络参数。为了方便对比,论文中所有的算法均在PABAL架构下实现。

图2PABAL架构

六、实验结果

实验任务为经典的MuJoCo连续控制任务平台,共做了Humanoid-v2、HalfCheetah-v2、Ant-v2、Walker2d、InvertedDoublePendulum-v2等5个任务。比较的算法包括DDPG,TD3与SAC,以及本文提出的SAC两种变体Double-QSAC和Single-QSAC。另外,我们将传统TD3算法引入分布式return提出一种新的算法,称为TD4算法。所有算法采用相同的神经网络结构、训练超参数、PABAL进程数与输入输出。绘制训练曲线如图3所示,实验结果表明本文所提出的DSAC算法在5个MuJoCo连续控制任务中均能取得最好的效果。此外,TD4的表现超越了基础版本TD3与DDPG,也验证了分布式return的引入也能提升确定性策略的性能。DSAC和SAC的控制效果比较见视频。由于mujoco环境的reward往往与智能体速度成正比,DSAC控制下的智能体具有更好的行走姿态因此其回报更高。

图3MuJoCo连续控制任务训练曲线(实线表示均值,阴影区域表示5次运行95%置信区间)

图4MuJoCo练习控制任务的平均Q值估计偏差曲线(实线表示均值,阴影区域表示5次运行的95%置信区间)

总结而言,DSAC在不需要引入额外值网络和策略网络的前提下,可以很好地抑制过估计误差并提高策略性能。

THE END
1.算法设计非常复杂,如何才能设计出优秀的算法?10.学习和分享:不断学习新的算法技术和数据结构,并积极参与算法社区,分享你的经验和知识。 总之,设计出优秀的算法需要深刻的理解问题、熟练掌握数据结构和算法分析,以及不断的实践和反思。同时,与其他算法设计者和研究者保持沟通,分享经验,共同推动算法设计的进步。 这道题要求讨论如何设计出优秀的算法。算法设计是https://easylearn.baidu.com/edu-page/tiangong/questiondetail?id=1813192804582657431&fr=search
2.算法设计与分析(第3版)课后答案《算法设计与分析》是计算机科学领域的一本经典教材,主要涵盖了如何设计高效算法以及如何对这些算法进行分析。在本书的第三版中,作者王晓东深入浅出地讲解了算法设计的基础理论和实践技巧,并提供了详尽的习题解析,帮助读者巩固所学知识。以下是基于这个主题和提供的文件名“算法设计与分析习题答案”所涵盖的一些关键知识https://download.csdn.net/download/dyufei/1498280
3.趣学算法(第2版)本书实例丰富、通俗易懂,以大量图解展示算法的求解过程,重点讲解遇到实际问题如何分析和设计算法,讲解方式富有启发性,有利于激发学生的学习兴趣和创新潜能。书中汇集了作者根据多年教学实践总结出的各种算法的解题技巧并对知识进行了优化拓展。读者阅读时既能掌握解题的方法,又拓宽了视野,有利于培养其逻辑思维能力,为解决https://www.epubit.com/bookDetails?id=UB7d85fa69dcbd8
4.腾讯Offer已拿,这99道算法高频面试题别漏了,80%都败在算法上3. 如何对类别变量进行独热编码? 4. 如何把“年龄”字段按照我们的阈值分段? 5. 如何根据变量相关性画出热力图? 6. 如何把分布修正为类正态分布? 7. 怎么简单使用PCA来划分数据且可视化呢? 8. 怎么简单使用LDA来划分数据且可视化呢? 深度学习类: https://maimai.cn/article/detail?fid=1699482551&efid=WqEcULyCOsAoPWgBSGGaFg
5.2021届计算机科学方向毕业设计(论文)阶段性汇报在这其中所遇到的挑战有如何支持多种的语义表征任务,如何对每个实体动态的弹出实体创建菜单,以及一些网页格式问题等。 万梓煜 多智能体强化学习的实现 本次阶段性汇报主要介绍多智能体强化学习框架MALib的设计与完成情况,以及针对目前的研究内容实现的功能。其次介绍在当前框架上部分强化学习算法的复现情况以及遇到的https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3943
6.人工智能快速发展趋势下,中国该如何应对?1、AI芯片针对机器学习算法设计开发,广泛应用于云、边、端各类场景 AI芯片(AI Chip)是一种专门用于处理人工智能相关的计算任务的芯片。它的架构是专门为人工智能算法和应用进行优化的,能够高效地处理大量结构化和非结构化数据。AI芯片能够高效地支持视觉、语音、自然语言处理等智能处理任务。目前,AI芯片主要分为GPU、https://developer.aliyun.com/article/1179745
7.路径规划中的DRL与OR算法:对比与展望引入机器学习的期望之一就是提高其泛化能力,即训练完的模型可以有效地应用于未曾见过的问题实例。为了提高泛化能力,对于图这种非欧几里得数据来说,通过图嵌入(Graph embedding)来抽取数据中的有效特征,通过低维的向量来表征图的节点及拓扑结构等信息,再作为后面机器学习算法的输入。而图神经网络(Graph neural network,GNNhttps://www.51cto.com/article/757803.html
8.《面向算法设计的数据结构》之前世今生算法应用 我们考虑展示更多数据结构在算法中的应用, 特别是引入高效数据结构之后算法性能发生显著变化的实例. 只有通过这些实实在在的例子, 才能让学习者感受到数据结构之妙. 事实上, 写作本书的目的也是为了配合后续进阶算法课程的需要, 希望能让这本书成为学习《算法导论》和《算法设计》的一个良好铺垫, 能让大家https://www.jianshu.com/p/25887f595ca4
9.Creator面对面几何深度学习的算法设计和数学理论机器之心Creator 面对面 | 几何深度学习的算法设计和数学理论 2016年,Yann LeCun 等人在 《Geometric deep learning: going beyond Euclidean data》一文中提出几何深度学习这一概念。现今几何机器学习和基于图的机器学习已经是当前最热门的研究课题之一。 2022 年 1 月,上海交通大学自然科学研究院、数学科学学院副教授王宇光https://www.jiqizhixin.com/articles/2022-07-20-7
10.《自然》:科学家首次基于深度学习算法,从头设计出自然界不存在的酶虽然蛋白结构预测方面有了RoseTTAFold、AlphaFold 2等人工智能算法的相助,但要想实现从头设计全新蛋白质,仍然是个费时费力的艰巨任务。目前,即使是借助机器学习算法,蛋白质设计也主要是把自然界中现有的蛋白质拿来改造,以进行优化或获得特定功能,而非真正地设计并创造一个全新的蛋白质。 https://www.thepaper.cn/newsDetail_forward_22260238
11.第6课《猜数字算法设计》(学案)六年级上册信息科技浙教版.pdf第6课《猜数字算法设计》(学案)六年级上册信息科技浙教版.pdf,六年级第一单元第 6 课《猜数字算法设计》学案 一、学习内容 《猜数字算法设计》选自浙江教育2023 版信息科技六年级上册第一单元第 6 课。通过本单元 的学习,本节课旨在让学生分析猜数字大小的问题,提取关键https://m.book118.com/html/2023/0929/5210031034010334.shtm
12.基于深度强化学习的水面无人艇路径跟踪方法因此,如何设计一种能够提高无人艇路径跟踪控制稳定性和准确性的方法是亟需解决的技术问题。 技术实现要素: 6.针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于深度强化学习的水面无人艇路径跟踪方法,无需进行环境和无人艇运动建模并且具备自适应能力,从而能够进一步提高无人艇路径跟踪控制的稳定https://www.xjishu.com/zhuanli/54/202210772926.html/
13.AAAI2020强化学习玩王者荣耀腾讯云开发者社区算法设计 Reinforcement Learning用的还是熟悉的actor-critic网络,具体如下图所示: 状态设计:如上图;将图像特征fi,向量特征fu和游戏状态信息fg(可观察到的游戏状态)分别通过卷积层、最大池化层和全连接层编码。LSTM输出动作按钮和移动方向。 动作解耦:认为动作之间独立,目标为最终几个策略累积奖励之和; https://cloud.tencent.com/developer/article/2119379
14.科学网—[转载]基于容器云技术的典型遥感智能解译算法集成模型开发根据预先设计的深度学习算法,基于深度学习框架,进行智能解译算法的代码编写和镜像构建。其基本流程如图8所示,具体如下。 图8 模型开发流程 (1)从私有仓库或开源仓库使用Docker pull操作获取所需的基础环境镜像。基于基础环境镜像,添加OpenCV、GDAL、SciPy等Python包。对基础镜像统一设置SSH登录端口,以便后期调试https://blog.sciencenet.cn/blog-3472670-1339282.html
15.AI深度强化学习落地方法七步曲2——状态空间篇回报函数篇针对稀疏回报问题,学术界提出了很多方法,比如通过鼓励agent探索未见过的状态,提高正样本利用率,或者干脆用遗传算法或进化策略代替RL学习policy网络。这些方法不在本篇的讨论范围内,我们关心的是如何通过reward设计本身来规避稀疏回报问题,并尽可能提高训练效率和最终性能。 https://www.shangyexinzhi.com/article/4228946.html
16.《算法设计与分析基础(C++版)学习和实验指导》(李春葆陈良臣当当网图书频道在线销售正版《算法设计与分析基础(C++版)学习和实验指导》,作者:李春葆、陈良臣、喻丹丹,出版社:清华大学出版社。最新《算法设计与分析基础(C++版)学习和实验指导》简介、书评、试读、价格、图片等相关信息,尽在DangDang.com,网购《算法设计与分析http://product.dangdang.com/29583939.html