#强化学习14——TD3算法详解与tensorflow2.0实现上篇文章强化学习13——DDPG算

这就就不可避免的降低了估值函数的准确度,由于估值方法的计算依据贝尔曼方程,即使用后续状态对估值进行更新,这种性质又加剧了精确度的下降。在每一次更新策略时,使用一个不准确的估计值将会导致错误被累加。这些被累加的错误会导致某一个不好的状态被高估,最终导致策略无法被优化到最优,并使算法无法收敛。

在DQN算法中针对Q值过估计的问题采用的是利用双网络分别实现动作的选择和评估,也就是DDQN算法。在TD3算法中,我们也使用两个Critic网络来评估Q值,然后选取较小的那个网络的Q值来更新,这样就可以缓解Q值高估现象。这样或许会导致些许低估,低估会导致训练缓慢,但是总比高估要好得多。

注意:这里我们使用了两个Critic网络,每个Critic网络都有相应的Target网络,可以理解为这是两套独立的Critic网络,都在对输入的动作进行评估,然后通过min()函数求出较小值作为更新目标。所以TD3算法一共用到6个网络。

代码实现:

self.q_net1=QNetwork(state_dim,action_dim,hidden_dim)self.q_net2=QNetwork(state_dim,action_dim,hidden_dim)self.target_q_net1=QNetwork(state_dim,action_dim,hidden_dim)self.target_q_net2=QNetwork(state_dim,action_dim,hidden_dim)self.policy_net=PolicyNetwork(state_dim,action_dim,hidden_dim,action_range)self.target_policy_net=PolicyNetwork(state_dim,action_dim,hidden_dim,action_range)如上所示,包含两套Q网络,用来估计Q值,一套策略网络。具体的网络更新部分和DDPG是流程是一样的,唯一不同的是两个Critic网络算出Q值后,选取最小值去计算目标值:

target_q_min=tf.minimum(self.target_q_net1(target_q_input), self.target_q_net2(target_q_input))target_q_value=reward+(1-done)*gamma*target_q_min然后就是分别对Critic网络和policy网络进行更新。

TD3中使用的第二个技巧就是对Policy进行延时更新。在双网络中,我们让target网络与当前网络更新不同步,当前网络更新d次之后在对target网络进行更新(复制参数)。这样就可以减少积累误差,从而降低方差。同样的我们也可以policy网络进行延时更新,因为actor-critic方法中参数更新缓慢,进行延时更新一方面可以减少不必要的重复更新,另一方面也可以减少在多次更新中累积的误差。在降低更新频率的同时,还应使用软更新:

关于policy网络延时更新的实现也很简单,只需要一个if语句就可以实现

ifself.update_cnt%self.policy_target_update_interval==0其中update_cnt是更新的次数,policy_target_update_interval是policy网络更新的周期,每当critic更新了一定次数后,再更新policy网络。

误差的根源是值函数估计产生的偏差。知道了原因我们就可以去解决它,在机器学习中消除估计的偏差的常用方法就是对参数更新进行正则化,同样的,我们也可以将这种方法引入强化学习中来:

在强化学习中一个很自然的想法就是:对于相似的action,他们应该有着相似的value。

这里的噪声可以看作是一种正则化方式,这使得值函数更新更加平滑。

defevaluate(self,state,eval_noise_scale):state=state.astype(np.float32)action=self.forward(state)action=self.action_range*action#addnoisenormal=Normal(0,1)noise=normal.sample(action.shape)*eval_noise_scaleeval_noise_clip=2*eval_noise_scalenoise=tf.clip_by_value(noise,-eval_noise_clip,eval_noise_clip)action=action+noisereturnaction如代码所示,给动作加上噪音这部分在策略策略网络评估部分实现,evaluate()函数有两个参数,state是输入的状态,参数eval_noise_scale用于调节噪声的大小。可以看到,首先经过前向计算得到输出的动作action。下面详细说下如何给动作加上噪音:首先我们构造一个正太分布,然后根据动作的形状进行取样normal.sample(action.shape),然后乘以参数eval_noise_scale实现对噪音进行缩放,为了防止抽出的噪音很大或者很小的情况,我们对噪音进行剪切,范围相当于两倍的eval_noise_scale。最后把噪音加到action上并输出。

THE END
1.强化学习实战教程:从理论基础到游戏AI的应用开发指南通过强化学习实现机器人路径规划 以机器人自主导航为例,利用基于策略的强化学习算法,训练机器人学会在复杂环境中规划最优路径,以达到目标位置。 结语 通过本篇教程,我们了解了强化学习的基本概念和原理,并通过实战示例展示了强化学习在游戏AI和机器人控制中的应用。希望读者能够通过本教程对强化学习有更深入的了解,进而https://www.jianshu.com/p/166f0ed40f46
2.强化学习与机器学习的结合:实现更高效的算法本文探讨了强化学习与机器学习的区别和联系,重点介绍了如何结合这两种技术,特别是通过机器学习改进强化学习的算法,包括价值函数和策略近似的应用。通过实例展示了基于机器学习的强化学习方法,并展望了未来趋势和挑战。 摘要由CSDN通过智能技术生成 1.背景介绍 https://blog.csdn.net/universsky2015/article/details/137306987
3.强化学习算法代码实现强化学习算法的代码梳理。 残血的三井寿 · 7 篇内容 订阅专栏推荐文章 强化学习代码实现【4,QDN】 这节课我们一起来学习一下如何用代码实现强化学习算法DQN得过程,首先我们来回顾一下DQN的算法过程。 首先我们准备一个记忆池子N来存放我们的记忆内容,之后为网络net-eval赋一个随机初值q-eval… https://www.zhihu.com/column/c_1139186891151724544
4.7个流行的Python强化学习算法及代码实现详解python目前流行的强化学习算法包括 Q-learning、SARSA、DDPG、A2C、PPO、DQN 和 TRPO。这些算法已被用于在游戏、机器人和决策制定等各种应用中,本文我们将对其做一个简单的介绍,感兴趣的可以学习一下+ 目录 目前流行的强化学习算法包括 Q-learning、SARSA、DDPG、A2C、PPO、DQN 和 TRPO。 这些算法已被用于在游戏、机器人https://www.jb51.net/article/273488.htm
5.17个机器学习的常用算法应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM.)等。 4.强化学习: 在这种学习模式下,输入数据作为对模型的反馈,不像监督模型那样,输入数据仅仅是作为一https://aidc.shisu.edu.cn/78/aa/c13626a161962/page.htm
6.科学网—[转载]强化学习在资源优化领域的应用基于这种行业趋势,本文针对强化学习算法在资源优化领域的应用展开调研,帮助读者了解该领域最新的进展,学习如何利用数据驱动的方式解决资源优化问题。鉴于资源优化问题场景众多、设定繁杂,划分出3类应用广泛的资源优化问题,即资源平衡问题、资源分配问题、装箱问题,集中进行调研。在每个领域阐述问题的特性,并根据具体的问题特性https://blog.sciencenet.cn/blog-3472670-1312677.html
7.头条文章可以看到, 图 5(a)中,红色三角形数据和蓝色圆点数据为标注数据; 图 5(b)中,绿色的小圆点为非标注数据。 图 5(c)显示监督学习将有标签的数据进行分类;而半监督学习如图 5(d)中部分是有标签的,部分是没有标签的,一般而言,半监督学习侧重于在有监督的分类算法中加入无标记样本来实现半监督分类。 https://card.weibo.com/article/m/show/id/2309404598738399395890
8.5种用于Python的强化学习框架我认为,到目前为止,它是几种RL算法的代码实现的最简单的理解,包括深度Q学习(DQN),双DQN,深度确定性策略梯度(DDPG),连续DQN(CDQN或NAF),交叉熵方法(CEM) ,决斗DQN)和SARSA。 当我说"最容易理解的代码"时,我指的不是使用它,而是对其进行自定义并将其用作您的项目的构建块*。 Keras-RL github还包含一些示例https://ai.51cto.com/art/202006/618202.htm
9.强化学习系列案例强化学习实验环境Gym和TensorFlow强化学习系列案例 | 强化学习实验环境Gym和TensorFlow 查看本案例完整的数据、代码和报告请登录数据酷客(cookdata.cn)案例板块。 强化学习算法的实现需要合适的平台和工具。本案例将首先介绍目前常用的强化学习实现平台Gym的基本使用方法,再介绍实验工具TensorFlow的基本操作方法,为之后构建和评估强大的强化学习算法打下坚实https://cloud.tencent.com/developer/article/1619441
10.AI深度强化学习落地方法七步曲2——状态空间篇回报函数篇另外可以优先选择收敛速度较快的DRL算法(先不考虑绝对性能),从而快速验证新状态相对旧状态的改进效果。 <img src="https://pic2.zhimg.c错的policy时,可以用缺省的方式验证每个状态信息https://www.shangyexinzhi.com/article/4228946.html
11.17种深度强化学习算法用Pytorch实现【导读】深度强化学习已经在许多领域取得了瞩目的成就,并且仍是各大领域受热捧的方向之一。本文推荐一个用PyTorch实现了17种深度强化学习算法的教程和代码库,帮助大家在实践中理解深度RL算法。 深度强化学习已经在许多领域取得了瞩目的成就,并且仍是各大领域受热捧的方向之一。本文推荐一个包含了 17 种深度强化学习算http://www.360doc.com/content/19/0926/10/32196507_863278517.shtml