AWAC:使用离线数据集加速在线强化学习技术博客技术支持京天机器人官网

该方法通过从先前的数据集(专家演示,先前的实验数据或随机探索数据)进行离线训练,然后通过在线交互快速进行微调来学习复杂的行为

经过强化学习(RL)训练的机器人有潜力用于各种挑战性的现实世界中的问题。要将RL应用于新问题,通常需要设置环境,定义奖励功能,并通过允许机器人从头开始探索新环境来训练机器人解决任务。尽管这最终可能行得通,但是这些“在线”RL方法非常耗费数据,并且针对每个新问题重复执行这种数据效率低下的过程,因此很难将在线RL应用于现实世界中的机器人技术问题。如果我们能够在多个问题或实验之间重用数据,而不是每次都从头开始重复数据收集和学习过程。这样,我们可以大大减少遇到的每个新问题的数据收集负担。

图1:使用离线数据集加速在线RL的问题。在(1)中,机器人完全从离线数据集中学习策略。在(2)中,机器人可以与世界互动并收集策略样本,以改进策略,使其超出脱机学习的范围。

我们使用标准基准HalfCheetah移动任务来分析从离线数据学习和后续的微调问题中的挑战。以下实验是使用先前的数据集进行的,该数据集包含来自专家策略的15个演示和从这些演示的行为克隆中采样的100个次优轨迹。

图2:与非策略方法相比,基于策略的方法学习起来较慢,这是因为非策略方法能够“缝合”良好的轨迹,如左图所示右:在实践中,我们看到在线改进缓慢使用策略上的方法。

1.数据效率

利用诸如RL演示之类的先前数据的一种简单方法是,通过模仿学习对策略进行预训练,并通过基于策略的RL算法(例如AWR或DAPG)进行微调。这有两个缺点。首先,先验数据可能不是最佳的,因此模仿学习可能无效。第二,基于策略的微调是数据效率低下的,因为它不会在RL阶段重用先前的数据。对于现实世界的机器人技术而言,数据效率至关重要。考虑右边的机器人,尝试以先前的轨迹达到目标状态T1和T2。策略上的方法不能有效地使用此数据,但是可以有效地“缝合”进行动态编程的策略外算法T1和T2以及使用价值函数或模型。在图2的学习曲线中可以看到这种效果,其中按策略使用的方法要比按策略使用的参与者批评方法慢一个数量级。

图3:使用离线策略RL进行离线培训时,引导错误是一个问题。左:该策略利用了远离数据的错误Q值,从而导致Q函数的更新不佳。中:因此,机器人可能会执行超出分配范围的动作。正确:引导错误在使用SAC及其变体时会导致不良的离线预训练。

原则上,该方法可以通过贝尔曼自估计未来回报的价值估计V(s)或行动价值估计Q(s,a),从非政策性数据中高效学习。但是,当将标准的非策略参与者批评方法应用于我们的问题(我们使用SAC)时,它们的性能较差,如图3所示:尽管重放缓冲区中已有数据集,但这些算法并未从脱机中显着受益训练(通过比较图3中的SAC(从头开始)和SACfD(在先)行可以看出)。此外,即使策略已通过行为克隆进行了预训练(“SACfD(预训练)”),我们仍然会观察到性能最初出现下降。

此挑战可归因于策略外引导错误累积。在训练期间,Q估计值将不会完全准确,尤其是在推断数据中不存在的动作时。策略更新利用了高估的Q值,使估计的Q值更糟。该问题如图所示:错误的Q值导致对目标Q值的错误更新,这可能导致机器人采取较差的措施。

3.非平稳行为模型

诸如BCQ,BEAR和BRAC之类的现有脱机RL算法建议通过防止策略偏离数据太远来解决引导问题。关键思想是通过将策略π限制为接近“行为策略”πβ来防止引导错误,即重播缓冲区中存在的动作。下图说明了这个想法:通过从πβ采样动作,可以避免利用远离数据分布的错误Q值。

但是,πβ通常是未知的,尤其是对于脱机数据,必须从数据本身进行估计。许多离线RL算法(BEAR,BCQ,ABM)明确地将参数模型拟合到来自重播缓冲区的πβ分布的样本。在形成估计值后,现有方法以各种方式实施策略约束,包括对策略更新的惩罚(BEAR,BRAC)或针对策略训练的采样动作的体系结构选择(BCQ,ABM)。

尽管具有约束的离线RL算法在离线状态下表现良好,但仍难以通过微调来改进,如图1中的第三幅图所示。我们看到,纯离线RL性能(图1中为“0K”)要好得多。比SAC。但是,通过在线微调的其他迭代,性能提高非常缓慢(从图1中的BEAR曲线的斜率可以看出)。是什么原因导致这种现象?

问题在于当在微调期间在线收集数据时,要建立一个准确的行为模型。在脱机设置中,行为模型仅需训练一次,但在在线设置中,必须在线更新行为模型以跟踪传入数据。在线(在“流”环境中)训练密度模型是一个具有挑战性的研究问题,在线和离线数据的混合导致了潜在的复杂多模式行为分布,这使难度变得更大。为了解决我们的问题,我们需要一种策略外的RL算法,该算法会约束该策略以防止脱机不稳定和错误累积,但并不过于保守,以至于由于行为建模不完善而无法进行在线微调。我们提议的算法(将在下一部分中讨论)通过采用隐式约束来实现。

图4:AWAC的示意图。高权重的过渡将以高权重回归,而低权重的过渡将以低权重回归。右:算法伪代码。

那么,这在解决我们较早提出的问题方面的实际效果如何?在我们的实验中,我们表明,我们可以从人类示范和非政策性数据中学习困难,高维,稀疏的奖励灵巧操纵问题。然后,我们使用随机控制器生成的次优先验数据评估我们的方法。本文还包括标准MuJoCo基准环境(HalfCheetah,Walker和Ant)的结果。

灵巧的操纵

图5.顶部:在线培训后显示的各种方法的性能(笔:200K步,门:300K步,重新安置:5M步)。下图:显示了具有稀疏奖励的敏捷操作任务的学习曲线。步骤0对应于离线预训练后开始在线训练。

我们的目标是研究代表现实世界机器人学习困难的任务,其中最重要的是离线学习和在线微调。其中一种设置是Rajeswaran等人在2017年提出的一套灵巧操作任务。这些任务涉及使用MuJoCo模拟器中的28自由度五指手进行复杂的操作技能:笔的手旋转,通过解锁手柄打开门,捡起球体并将其重新定位到目标位置。这些环境面临许多挑战:高维动作空间,具有许多间歇性接触的复杂操纵物理以及随机的手和物体位置。这些环境中的奖励功能是任务完成的二进制0-1奖励。Rajeswaran等。为每个任务提供25个人工演示,虽然这些演示不是完全最佳的,但确实可以解决任务。由于此数据集非常小,因此我们通过构造行为克隆策略,然后从该策略中进行采样,又生成了500条交互数据轨迹。

使用脱离策略的RL进行强化学习的优势在于,我们还可以合并次优数据,而不仅仅是演示。在本实验中,我们使用Sawyer机器人在模拟的桌面推动环境中进行评估。

为了研究从次优数据中学习的潜力,我们使用了由随机过程生成的500条轨迹的非政策数据集。任务是将对象推入40cmx20cm目标空间中的目标位置。

结果显示在右图中。我们看到,尽管许多方法以相同的初始性能开始,但是AWAC可以在线上最快地学习,并且实际上能够有效地使用离线数据集,这与某些完全无法学习的方法相反。

能够使用先前的数据并在新问题上快速进行微调,为研究开辟了许多新途径。我们对使用AWAC从RL中的单任务机制到多任务机制以及任务之间的数据共享和通用化感到非常兴奋。深度学习的优势在于其在开放世界环境中进行概括的能力,我们已经看到,它改变了计算机视觉和自然语言处理的领域。为了在机器人技术中实现相同类型的概括,我们将需要利用大量先验数据的RL算法。但是机器人技术的一个主要区别是,为一项任务收集高质量的数据非常困难-通常与解决任务本身一样困难。这与例如计算机视觉相反,在计算机视觉中,人可以标记数据。因此,主动数据收集(在线学习)将成为难题的重要组成部分。

这项工作还提出了许多算法方向。请注意,在这项工作中,我们专注于策略π和行为数据πβ之间的不匹配动作分布。在进行非政策学习时,两者之间的边际状态分布也不匹配。凭直觉,考虑两个解决方案A和B的问题,其中B是更高收益的解决方案,而非政策性数据则说明了提供的解决方案A。即使机器人在在线浏览过程中发现了解决方案B,非策略数据仍主要包含来自路径A的数据。因此,Q函数和策略更新是针对遍历路径A时遇到的状态进行计算的,即使它不会遇到这些状态执行最佳策略时。以前已经研究了这个问题。考虑到两种类型的分布不匹配,可能会导致采用更好的RL算法。

最后,我们已经在使用AWAC作为加快研究速度的工具。当我们着手解决任务时,我们通常不会尝试使用RL从头开始解决它。首先,我们可以遥控机器人以确认任务可以解决;那么我们可能会进行一些硬编码的策略或行为克隆实验,以查看简单的方法是否已经可以解决它。使用AWAC,我们可以保存这些实验中的所有数据,以及其他实验数据(例如超参数扫描RL算法时的数据),并将其用作RL的先前数据。

DonghuRobotLaboratory,2ndFloor,BaoguInnovationandEntrepreneurshipCenter,WuhanCity,HubeiProvince,ChinaTel:027-87522899,027-87522877

THE END
1.强化学习的教育资源:在线课程与学习路径在线课程和教育资源是学习强化学习的一个好方法。在这篇文章中,我们将介绍一些在线课程和学习路径,以帮助您更好地理解强化学习的核心概念、算法和应用。 2.核心概念与联系 强化学习的核心概念包括:状态、动作、奖励、策略、值函数等。这些概念是强化学习中最基本的元素,理解这些概念对于学习强化学习至关重要。 https://blog.csdn.net/universsky2015/article/details/135801299
2.持续学习与在线强化学习.pptx2.通过持续学习和在线强化学习,可以实现更智能、更自主的系统,提高生产效率和服务质量。3.未来,持续学习与强化学习将成为人工智能领域的重要研究方向之一。在线强化学习的基本原理持续学习与在线强化学习在线强化学习的基本原理在线强化学习的定义1.在线强化学习是在线学习和强化学习的结合,通过实时的反馈和数据进行模型优化https://m.renrendoc.com/paper/297429452.html
3.什么是强化学习强化学习简介强化学习的优势以及应用嘲强化学习是一种机器学习的方法,它通过试错的方式学习如何做出最优的决策。强化学习的基本思想是将一个智能体放置在一个环境中,通过与环境的交互来学习如何做出最优的行动。在强化学习中,智能体通过观察环境的反馈来不断调整自己的行为,以获得最大的奖励。 https://cloud.tencent.com/developer/techpedia/1750
4.强化学习的基本概念在线学习和离线学习针对的是在强化学习模型在训练过程中交互数据的使用方式。在线学习的强化学习模型,会在一个交互之后,立即用本次交互得到的经验进行训练。而离线学习的强化学习模型,往往是先将多个交互的经验存储起来,然后在学习的时候,从存储的经验中取出一批交互经验来学习。 https://www.jianshu.com/p/28625d3a60e6
5.干部在线培训学习心得体会(通用21篇)学习能促进思维创新,思维创新促进智力发展。这市委委组织部又推出网上平台学习,对干部队伍强化学习、提高素质起到了极大的促进作用。 一是在线学习解决了工学矛盾的突出问题。它突破了面对面式授课,使整个学习变得灵活便捷,完全可以利用工作的闲暇时间,打开电脑就能进入“干部在线学习系统”。因此,一些零散的时间也就变成https://www.ruiwen.com/xindetihui/3426039.html
6.机器学习中在线学习批量学习迁移学习主动学习的区别电子所谓强化学习就是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,强化学习不同于连接主义学习中的监督学习,主要表现在教师信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于http://eetrend.com/node/100016949
7.个强化”集聚学习“能量”推动干部教育在线学习取得实效今年来,淳化县坚持把干部教育在线学习作为干部教育培训重要阵地,不断创新工作机制,加强日常管理,确保在线学习取得实效。与此同时,要求各单位确定1名管理员,负责协调、管理本单位参训学员在线学习工作,督促本单位学员按时按质完成在线学习任务,提升干部学习的自觉性http://www.sx-dj.gov.cn/gbgz/gbjy/1849627821005467649.html
8.多任务学习概述论文:从定义和方法到应用和原理分析机器之心我们假设所有任务(至少其中一部分任务)是相关的,在此基础上,我们在实验和理论上都发现,联合学习多个任务能比单独学习它们得到更好的性能。根据任务的性质,MTL 可以被分类成多种设置,主要包括多任务监督学习、多任务无监督学习、多任务半监督学习、多任务主动学习、多任务强化学习、多任务在线学习和多任务多视角学习。https://www.jiqizhixin.com/articles/nsr-jan-2018-yu-zhang-qiang-yang
9.关于进一步加强学习强国在线学习的通知各党支部、班级:为进一步有效利用“学习强国”这一重要学习平台,推动全院师生提升理论水平、深化思想认识、加强政治素养,现就加强“学习强国”在线学习提出如下要求:一、强化思想认识“学习强国”平台是党中央确定的权威理论学习平台,是推动习近平新时代中国特色社会主https://slxy.wzu.edu.cn/info/1048/17976.htm
10.强化学习离线模型离线模型和在线模型强化学习离线模型 离线模型和在线模型 在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。 本文尝试列举一些常见的原因,为大家排查问题提供一点思路。 1. 离线、在线特征不一致https://blog.51cto.com/u_14499/11815202
11.线上教学方案(二)认真研究,强化落实 各教学单位要认真研究、精心谋划,严格组织在线教学工作,确保本学期所开课程按照课程表安排能开尽开,确保在线课程需覆盖每个专业、每个班级、每个学生,确保每个学生能够参与在线学习。任课教师要深入挖掘教学资源,要在资源整合上下功夫,积极做好在线授课计划编制。要充分使用各类教学平台资源和国家专https://www.oh100.com/a/202212/5827795.html
12.科学网—[转载]强化学习在资源优化领域的应用根据智能体在与环境交互过程中具体学习的内容,可以把无须对环境进行建模(即model-free)的强化学习算法分为两大类:直接学习动作执行策略的策略优化算法(如REINFORCE)和通过学习一个值函数进而做出动作执行决策的值优化算法(如Q-learning)。 在策略优化这类算法中,主要学习对象是动作执行策略πθ,其中,θ表示当前策略的https://blog.sciencenet.cn/blog-3472670-1312677.html
13.理论学习中心组学习理论宣讲在线学习培训等方式,强化政治国有企业党组织应当坚持()相结合,采取集中轮训、党委(党组)理论学习中心组学习、理论宣讲、在线学习培训等方式,强化政治理论教育、党的宗旨教育、党章党规党纪教育和革命传统教育。 A. 集中培训和个人自学 B. 集中教育和经常性教育 C. 集中交易和个人自学 D. 集中培训和经常性教育 https://easylearn.baidu.com/edu-page/tiangong/questiondetail?id=1818143061180701021&fr=search
14.基于强化学习的仿人智能控制器参数在线学习与优化本文有效地实现了利用连续动作强化学习自动机在线学习具有多模态控制结构和分层递阶结构的仿人智能控制器参数。在文章的最后,选取研究对象,分别实现基于CARLA的仿人智能控制参数在线学习及基于CARLA的PID控制参数在线学习与优化。此外还分别利用遗传算法对系统参数进行寻优与CARLA参数寻优进行对比。结果显示,在不同控制器作用https://cdmd.cnki.com.cn/Article/CDMD-10611-2010217708.htm
15.GitHubWDWSD/easy强化学习中文教程(蘑菇书),在线阅读地址:https://datawhalechina.github.io/easy-rl/ - WDWSD/easy-rlhttps://github.com/WDWSD/easy-rl/
16.爱学习爱思考爱上进第I章地球和地图教育视频免费在线观看简介:爱学习爱思考爱上进上传的教育视频:第I章 地球和地图,粉丝数716,作品数385,免费在线观看,视频简介:七年级是初中学习阶段的开始,也是尽快适应初中学习节奏的关键环节。本课程聚焦七年级地理教材,使用思维导图对教材主要知识点进行梳理和归纳,旨在强化学生们对基础知识的掌握,提高解决实际问题的能力。 https://www.iqiyi.com/a_1fq44oyot11.html
17.张掖市干部在线学习平台张掖市在线学习平台https://www.zygbxxpt.com/Login.aspx
18.党支部工作心得体会(精选7篇)一是理论学习强化思想。根据支部建设情况和党员理论教育要求,按需求、分层次、分阶段,采取集中学习为主、个人自学为辅的灵活方式,保障中心组成员全年集中学习不少于12天,干部职工集中理论学习每月不少于一次。先后学习中央、省、市、区全会及“两大会议”精神,深刻领悟“十二五”规划纲要的决议、20xx版理论面对面等重要文https://mip.wenshubang.com/xindetihui/254988.html