强化学习论文3NIPS2020知识转移的多任务RL(KTM

主要是两方面,一方面是说了一下连续控制领域的SOTA模型,这个不用多说。然后就是提到了一些多任务强化学习的模型。

1.DeepReinforcementLearningforContinuousControl

DDPG;SAC;TD3

2.Multi-taskDeepReinforcementLearning

这里的话还可以看一下李宏毅老师讲的Meta-Learning,有助于理解这些概念,包括MAML、Reptile等等。

KTM-DRL包括两个学习阶段:线下知识转移阶段和线上学习阶段。

线下知识转移阶段,多任务agent通过线下的方式学习特定任务教师的经验

在在线学习阶段,多任务agent再次在教师的指导下,通过与环境的交互,从收集到的在线过渡样本中学习,进一步完善其控制策略

为了减少灾难性遗忘,在这两个阶段,并没有使用单一的普通经验回放缓冲区来存储所有任务的转移样本,而是创建了一个带有K个独立子缓冲区的分层缓冲区来存储转移样本,每个子缓冲区对应一个任务。

在每个epoch,KTM-DRL从前面提到的每个子缓冲区中抽取一个batch的N个过渡样本,然后用每个小批量训练多任务代理。这种方法有助于防止多任务代理在某一特定任务上过度训练而忘记其他任务的知识。

在离线迁移阶段,我们用以下q值回归损失函数共同优化多任务agentS的两个critic网络,然后利用所计算的梯度对多任务代理的actor网络进行训练。

离线知识转移帮助多任务智能体从教师那里快速学习到较好的控制策略。然而,多任务agent在没有与实际环境进行交互的情况下,无法获得足够的新知识,可能会导致过拟合。所以就提出了一种在线学习算法,使智能体能够利用新收集的在线过渡样本进一步改进其控制策略。

在在线学习阶段,agent不再向特定任务的教师学习,而是用TD-errors更新其批评网络,这与TD3的训练过程相似。

这里具体究竟什么时候利用到teacher网络呢?我看了一下代码,下面贴一下。

然后贴一下算法,其实就是分两个阶段的学习,具体的形式类似于TD3。

实验用的是典型的连续任务benchmark,mojoco。

主要是为了探究离线学习、在线学习以及分层学习的必要性。

本文提出了KTM-DRL,使单个多任务agent能够利用离线知识转移、在线学习和分层经验重放,在多个不同的连续控制任务中实现专家级性能。在性能评价方面,对两个常用的MuJoCo基准进行了全面的实证研究。大量的实验结果表明:

该算法效果是好的,离线知识转移算法、在线学习算法和分层经验回放算法也都确实有效。存在的问题就是,文中假设所有给定的教师都有专家级的表现,不一定能从不完美的教师那里学习政策。然后这也是之后他们要解决的问题。

AMRL:AggregatedMemoryForReinforcementLearning-fromICLR2020

THE END
1.WhatIsReinforcementLearning?ReinforcementLearningGet an overview of reinforcement learning from the perspective of an engineer. Reinforcement learning is a type of machine learning that has the potential to solve some really hard control problems.https://www.mathworks.com/videos/reinforcement-learning-part-1-what-is-reinforcement-learning-1551974943006.html
2.MachineLearningSafe Reinforcement Learning using Finite-Horizon Gradient-based Estimation Juntao Dai, Yaodong Yang, Qian Zheng, Gang Pan Journal-ref: Proceedings of the 41st International Conference on Machine Learning, PMLR 235:9872-9903, 2024 Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AIhttp://arxiv.org/list/cs.LG/recent?skip=494&show=915
3.LearningCombatinNetHack在NetHack 中学习战斗Learning Combat in NetHack Jonathan Campbell, Clark Verbrugge School of Computer Science McGill University, Montr ′ eal jcampb35@cs.mcgill.ca clump@cs.mcgill.ca Abstract Combat in roguelikes involves careful strategy to best match a large variety of items and abilities to https://lib.ofeqx.com/resource/A110001A01f1663c427c2407.html
4.如何通俗易懂理解,强化学习里的modelbased和modelfree?在强化学习里,model - based和model - free是两种不同的学习方式。一、Model - based(基于模型)- https://www.zhihu.com/question/3451095238/answer/52978174884
5.DeepMind用ReinforcementLearning玩游戏说到机器学习最酷的分支,非Deep learning和Reinforcement learning莫属(以下分别简称DL和RL)。这两者不仅在实际应用中表现的很酷,在机器学习理论中也有不俗的表现。DeepMind 工作人员合两者之精髓,在Stella模拟机上让机器自己玩了7个Atari 2600的游戏,结果是玩的冲出美洲,走向世界,超越了物种的局限。不https://blog.51cto.com/u_15642578/5305055
6.人工智能基础:机器学习常见的算法介绍腾讯云开发者社区半监督学习适合由少量标签的样本和大量无标签的样本,可以实现较高的准确性预测。 4、迁移学习 迁移学习指的是一个预训练的模型被重新用在另一个学习任务中的学习方法。 源域:已有的知识;目标域:待学习的新知识。 5、强化学习(ReinforcementLearning, RL) https://cloud.tencent.com/developer/article/2146310
7.强化学习(ReinforcementLearning)reinforcementlearningReinforcement learning 是机器学习里面的一个分支,善于控制一个能够在某个环境下自主行动的个体,通过和环境之间的互动,不断改进它的行为。强化学习问题包括学习如何做、如何将环境映射为行动,从而获得最大的奖励。在强化学习中,学习器是一个制定决策的智能体,它不会被告知该执行什么动作,而是经过反复尝试运行,来发现能https://blog.csdn.net/extremebingo/article/details/79373740
8.Sutton&BartoBook:ReinforcementLearning:AnIntroductionReinforcement Learning: An Introduction -- send in your solutions for a chapter, get the official ones back (currently incomplete) Slides and Other Teaching Aids Links to pdfs of the literature sources cited in the book(Many thanks to Daniel Plop!)http://incompleteideas.net/book/the-book-2nd.html
9.强化学习(reinforcementlearning)一本关于强化学习很好的教材,附带代码,非常值得拥有!https://www.iteye.com/resource/freexilele-10347305
10.强化学习(ReinforcementLearning)莫烦Python强化学习 Reinforcement Learning 是机器学习大家族中重要一员. 他的学习方式就如一个小 baby. 从对身边的环境陌生, 通过不断与环境接触, 从环境中学习规律, 从而熟悉适应了环境. 实现强化学习的方式有很多, 比如 Q-learning, Sarsa 等, 我们都会一步步提到. 我们也会基于可https://mofanpy.com/tutorials/machine-learning/reinforcement-learning/
11.GitHubBC以carla为例,carla支持在地图中创建多个车辆进行学习(一个车辆被一个agent控制用于学习),同时也能够使用docker在本机创建server通过不同的端口连接,一个端口一个UE环境,一个地图,在局域网内部还可以跨不同的机器进行连接。 模型Models@./ReinforcementLearning/Modules/Modelshttps://github.com/B-C-WANG/ReinforcementLearningInAutoPilot/
12.《英文原版强化学习ReinforcementLearning:AnIntroduction当当中国进口图书旗舰店在线销售正版《英文原版 强化学习 Reinforcement Learning: An Introduction》。最新《英文原版 强化学习 Reinforcement Learning: An Introduction》简介、书评、试读、价格、图片等相关信息,尽在DangDang.com,网购《英文原版 强化学习 Reinforcemhttp://product.dangdang.com/1608378750.html
13.mpcmodeltheoretic mpc model-based reinforcement learning基于模型强化学习理论.pdf 16页内容提供方:daluobu 大小:5.1 MB 字数:约9.72万字 发布时间:2024-07-16发布于北京 浏览人气:11 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)https://max.book118.com/html/2024/0707/5031341140011241.shtm
14.适用于Python的Azure机器学习SDKazureml-contrib-reinforcementlearning azureml-contrib-services 下载PDF 使用英语阅读 保存 添加到集合 添加到计划 通过 Facebookx.com 共享LinkedIn电子邮件 打印 项目 2023/05/31 6 个参与者 反馈 本文内容 稳定版功能与试验版功能 工作区 试验 运行 https://docs.microsoft.com/zh-cn/python/api/overview/azure/ml/
15.强化学习基础学习系列之modelfree/planning/model基本概念 强化学习(reinforcementlearning, RL)是近年来机器学习和智能控制领域的主要方法之一。强化学习关注的是智能体如何在环境中采取一系列行为,从而获得最大的累计回报 通过强化学习,一个智能体知道在什么状态下应该采取什么行为。RL是从环境状态到动作的映射学习,我们把这个映射称为策略(Policy) 强化学习和监督学习https://www.pianshen.com/article/58421538199/
16.大数据AND机器学习:大数据是原材料,机器学习是原材料加工厂大数据驱动的机器学习使得机器尽量脱离人类的经验指导,自动在海量数据和工作环境中挖掘知识取得进步。而通用人工智能基于端对端(end-to-end)的深度强化学习(DeepReinforcementLearning),帮助机器能在不同的任务中共享一套学习框架,无需人类进一步调试。 这两个因素同时作用出一个效果,即人需要的干预越来越少,而机器在与https://www.cda.cn/view/17136.html