AWAC:使用离线数据集加速在线强化学习技术博客技术支持京天机器人官网

该方法通过从先前的数据集(专家演示,先前的实验数据或随机探索数据)进行离线训练,然后通过在线交互快速进行微调来学习复杂的行为

经过强化学习(RL)训练的机器人有潜力用于各种挑战性的现实世界中的问题。要将RL应用于新问题,通常需要设置环境,定义奖励功能,并通过允许机器人从头开始探索新环境来训练机器人解决任务。尽管这最终可能行得通,但是这些“在线”RL方法非常耗费数据,并且针对每个新问题重复执行这种数据效率低下的过程,因此很难将在线RL应用于现实世界中的机器人技术问题。如果我们能够在多个问题或实验之间重用数据,而不是每次都从头开始重复数据收集和学习过程。这样,我们可以大大减少遇到的每个新问题的数据收集负担。

图1:使用离线数据集加速在线RL的问题。在(1)中,机器人完全从离线数据集中学习策略。在(2)中,机器人可以与世界互动并收集策略样本,以改进策略,使其超出脱机学习的范围。

我们使用标准基准HalfCheetah移动任务来分析从离线数据学习和后续的微调问题中的挑战。以下实验是使用先前的数据集进行的,该数据集包含来自专家策略的15个演示和从这些演示的行为克隆中采样的100个次优轨迹。

图2:与非策略方法相比,基于策略的方法学习起来较慢,这是因为非策略方法能够“缝合”良好的轨迹,如左图所示右:在实践中,我们看到在线改进缓慢使用策略上的方法。

1.数据效率

利用诸如RL演示之类的先前数据的一种简单方法是,通过模仿学习对策略进行预训练,并通过基于策略的RL算法(例如AWR或DAPG)进行微调。这有两个缺点。首先,先验数据可能不是最佳的,因此模仿学习可能无效。第二,基于策略的微调是数据效率低下的,因为它不会在RL阶段重用先前的数据。对于现实世界的机器人技术而言,数据效率至关重要。考虑右边的机器人,尝试以先前的轨迹达到目标状态T1和T2。策略上的方法不能有效地使用此数据,但是可以有效地“缝合”进行动态编程的策略外算法T1和T2以及使用价值函数或模型。在图2的学习曲线中可以看到这种效果,其中按策略使用的方法要比按策略使用的参与者批评方法慢一个数量级。

图3:使用离线策略RL进行离线培训时,引导错误是一个问题。左:该策略利用了远离数据的错误Q值,从而导致Q函数的更新不佳。中:因此,机器人可能会执行超出分配范围的动作。正确:引导错误在使用SAC及其变体时会导致不良的离线预训练。

原则上,该方法可以通过贝尔曼自估计未来回报的价值估计V(s)或行动价值估计Q(s,a),从非政策性数据中高效学习。但是,当将标准的非策略参与者批评方法应用于我们的问题(我们使用SAC)时,它们的性能较差,如图3所示:尽管重放缓冲区中已有数据集,但这些算法并未从脱机中显着受益训练(通过比较图3中的SAC(从头开始)和SACfD(在先)行可以看出)。此外,即使策略已通过行为克隆进行了预训练(“SACfD(预训练)”),我们仍然会观察到性能最初出现下降。

此挑战可归因于策略外引导错误累积。在训练期间,Q估计值将不会完全准确,尤其是在推断数据中不存在的动作时。策略更新利用了高估的Q值,使估计的Q值更糟。该问题如图所示:错误的Q值导致对目标Q值的错误更新,这可能导致机器人采取较差的措施。

3.非平稳行为模型

诸如BCQ,BEAR和BRAC之类的现有脱机RL算法建议通过防止策略偏离数据太远来解决引导问题。关键思想是通过将策略π限制为接近“行为策略”πβ来防止引导错误,即重播缓冲区中存在的动作。下图说明了这个想法:通过从πβ采样动作,可以避免利用远离数据分布的错误Q值。

但是,πβ通常是未知的,尤其是对于脱机数据,必须从数据本身进行估计。许多离线RL算法(BEAR,BCQ,ABM)明确地将参数模型拟合到来自重播缓冲区的πβ分布的样本。在形成估计值后,现有方法以各种方式实施策略约束,包括对策略更新的惩罚(BEAR,BRAC)或针对策略训练的采样动作的体系结构选择(BCQ,ABM)。

尽管具有约束的离线RL算法在离线状态下表现良好,但仍难以通过微调来改进,如图1中的第三幅图所示。我们看到,纯离线RL性能(图1中为“0K”)要好得多。比SAC。但是,通过在线微调的其他迭代,性能提高非常缓慢(从图1中的BEAR曲线的斜率可以看出)。是什么原因导致这种现象?

问题在于当在微调期间在线收集数据时,要建立一个准确的行为模型。在脱机设置中,行为模型仅需训练一次,但在在线设置中,必须在线更新行为模型以跟踪传入数据。在线(在“流”环境中)训练密度模型是一个具有挑战性的研究问题,在线和离线数据的混合导致了潜在的复杂多模式行为分布,这使难度变得更大。为了解决我们的问题,我们需要一种策略外的RL算法,该算法会约束该策略以防止脱机不稳定和错误累积,但并不过于保守,以至于由于行为建模不完善而无法进行在线微调。我们提议的算法(将在下一部分中讨论)通过采用隐式约束来实现。

图4:AWAC的示意图。高权重的过渡将以高权重回归,而低权重的过渡将以低权重回归。右:算法伪代码。

那么,这在解决我们较早提出的问题方面的实际效果如何?在我们的实验中,我们表明,我们可以从人类示范和非政策性数据中学习困难,高维,稀疏的奖励灵巧操纵问题。然后,我们使用随机控制器生成的次优先验数据评估我们的方法。本文还包括标准MuJoCo基准环境(HalfCheetah,Walker和Ant)的结果。

灵巧的操纵

图5.顶部:在线培训后显示的各种方法的性能(笔:200K步,门:300K步,重新安置:5M步)。下图:显示了具有稀疏奖励的敏捷操作任务的学习曲线。步骤0对应于离线预训练后开始在线训练。

我们的目标是研究代表现实世界机器人学习困难的任务,其中最重要的是离线学习和在线微调。其中一种设置是Rajeswaran等人在2017年提出的一套灵巧操作任务。这些任务涉及使用MuJoCo模拟器中的28自由度五指手进行复杂的操作技能:笔的手旋转,通过解锁手柄打开门,捡起球体并将其重新定位到目标位置。这些环境面临许多挑战:高维动作空间,具有许多间歇性接触的复杂操纵物理以及随机的手和物体位置。这些环境中的奖励功能是任务完成的二进制0-1奖励。Rajeswaran等。为每个任务提供25个人工演示,虽然这些演示不是完全最佳的,但确实可以解决任务。由于此数据集非常小,因此我们通过构造行为克隆策略,然后从该策略中进行采样,又生成了500条交互数据轨迹。

使用脱离策略的RL进行强化学习的优势在于,我们还可以合并次优数据,而不仅仅是演示。在本实验中,我们使用Sawyer机器人在模拟的桌面推动环境中进行评估。

为了研究从次优数据中学习的潜力,我们使用了由随机过程生成的500条轨迹的非政策数据集。任务是将对象推入40cmx20cm目标空间中的目标位置。

结果显示在右图中。我们看到,尽管许多方法以相同的初始性能开始,但是AWAC可以在线上最快地学习,并且实际上能够有效地使用离线数据集,这与某些完全无法学习的方法相反。

能够使用先前的数据并在新问题上快速进行微调,为研究开辟了许多新途径。我们对使用AWAC从RL中的单任务机制到多任务机制以及任务之间的数据共享和通用化感到非常兴奋。深度学习的优势在于其在开放世界环境中进行概括的能力,我们已经看到,它改变了计算机视觉和自然语言处理的领域。为了在机器人技术中实现相同类型的概括,我们将需要利用大量先验数据的RL算法。但是机器人技术的一个主要区别是,为一项任务收集高质量的数据非常困难-通常与解决任务本身一样困难。这与例如计算机视觉相反,在计算机视觉中,人可以标记数据。因此,主动数据收集(在线学习)将成为难题的重要组成部分。

这项工作还提出了许多算法方向。请注意,在这项工作中,我们专注于策略π和行为数据πβ之间的不匹配动作分布。在进行非政策学习时,两者之间的边际状态分布也不匹配。凭直觉,考虑两个解决方案A和B的问题,其中B是更高收益的解决方案,而非政策性数据则说明了提供的解决方案A。即使机器人在在线浏览过程中发现了解决方案B,非策略数据仍主要包含来自路径A的数据。因此,Q函数和策略更新是针对遍历路径A时遇到的状态进行计算的,即使它不会遇到这些状态执行最佳策略时。以前已经研究了这个问题。考虑到两种类型的分布不匹配,可能会导致采用更好的RL算法。

最后,我们已经在使用AWAC作为加快研究速度的工具。当我们着手解决任务时,我们通常不会尝试使用RL从头开始解决它。首先,我们可以遥控机器人以确认任务可以解决;那么我们可能会进行一些硬编码的策略或行为克隆实验,以查看简单的方法是否已经可以解决它。使用AWAC,我们可以保存这些实验中的所有数据,以及其他实验数据(例如超参数扫描RL算法时的数据),并将其用作RL的先前数据。

DonghuRobotLaboratory,2ndFloor,BaoguInnovationandEntrepreneurshipCenter,WuhanCity,HubeiProvince,ChinaTel:027-87522899,027-87522877

THE END
1.机器学习中的在线学习与离线学习onlinelearning在线学习算法这种理解方式在国外论文中出现比较多,国外称为online and batch learning.离线就是对应batch learning.这两种方式各有优点,在线学习比较快,但是有比较高的残差,离线(batch)学习能降低残差。 理解方式二: 在离线学习中,所有的训练数据在模型训练期间必须是可用的。只有训练完成了之后,模型才能被拿来用。简而言之,先训练https://blog.csdn.net/a133521741/article/details/79221015
2.强化学习的基本概念在线学习和离线学习针对的是在强化学习模型在训练过程中交互数据的使用方式。在线学习的强化学习模型,会在一个交互之后,立即用本次交互得到的经验进行训练。而离线学习的强化学习模型,往往是先将多个交互的经验存储起来,然后在学习的时候,从存储的经验中取出一批交互经验来学习。 https://www.jianshu.com/p/28625d3a60e6
3.和学在线App排行榜华为手机和学在线app推荐感谢欧粉一直以来的支持与喜爱,你们的陪伴是我们做的更好的无限动力!欧拉数理化致力于为用户提供一个优质的在线学习平台,面市以来即受到小学、初中和高中生的热捧!【产品简介】欧拉数理化主要服务于小学、初中和高中的学生,目前涵盖数学、英语、物理、化学、语文和生物6个学科全国多教材版本的内容,采用AI视频的形式https://www.diandian.com/phb/1392/2-1.html
4.学习公社APP操作手册点击导航栏【个人】,进入个人空间,可以查看个人信息、项目学习档案、离线缓存、帮助中心、系统消息、设置等。 七、学习档案与电子证书 点击导航栏【个人】,选择项目学习档案,可查看学习档案,了解学习进度和具体内容。点击“查看电子证书”,查看证书。 八、离线缓存 https://jgdw.ccit.edu.cn/info/1027/1157.htm
5.强化学习离线模型离线模型和在线模型强化学习离线模型 离线模型和在线模型 在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。 本文尝试列举一些常见的原因,为大家排查问题提供一点思路。 1. 离线、在线特征不一致https://blog.51cto.com/u_14499/11815202
6.在对齐AI时,为什么在线方法总是优于离线方法?根据现有的强化学习研究成果,在线比离线更好似乎是显而易见的结论。在线和离线强化学习算法之间的性能差距也已经被多项研究发现,所以这项研究给出了什么不一样的结论呢? 最重要的是,在线 RLHF 算法依赖于一个学习后的奖励模型,该奖励模型是使用与离线 RLHF 算法一样的成对偏好数据集训练得到的。这与常规强化学习https://i.ifeng.com/c/8Zi94qkPSLp
7.美河学习在线美河学习在线(主站) eimhe.com?论坛 今日:94|昨日:150|帖子:355426|会员:223988|欢迎新会员:sprn1fr 最新回复 下载桌面快捷访问 美河学习在线 www.eimhe.com - IT认证超级社区 更多IT认证热门资源请访问 美河学习在线 - 完美超乎想象 信赖拥有值得! https://eimhe.com/
8.在线学习课程PADI在繁忙的生活中,PADI 在线学习是完成水肺潜水课程的最简单的方式。 您可以使用电脑或移动设备,自行安排在线或离线学习。 准备就绪后,随时开始安排水下训练。PADI 在线学习 FAQ 获得关于 PADI 在线课程最常见问题的答案。我的在线学习课程访问权限的有效期是多久? 我想更改与我的课程关联的 PADI 潜水馆 我可以https://www.padi.com/zh-hans/padi-elearning
9.环球网校在线网络课程辅导服务条款- 在线答疑:“环球网校”学员在学习中出现的疑难问题可以在“环球网校在线”课堂答疑室提出,由辅导专家解答,保证考生及时解决复习中的难点。 - 课件下载:“环球网校在线”自主开发了方便、快捷、实用的离线课件,学员可以将网校的离线课件下载到本机进行播放,播放的过程中不需要上网,达到与在线学习一样的效果。“环球网https://www.hqwx.com/help/article.htm
10.线上线下融合教学的优势不足与发展策略内容首先,在教学方式上:以信息网络的学习平台为载体,以现代信息技术为媒介,依靠手机,平板电脑等个人智能终端设备,实现线上线下学习与线下的交互学习。学习内容:根据时间分为课前准备,课中教学和课后辅导三个阶段;按空间分为在线和离线;按照对知识点的解释,重构,将学习分解为学习,内化和外化三个阶段,全方位传授学习内容;https://tpd.xhedu.sh.cn/cms/app/info/doc/index.php/92024
11.通关一点通下载,高效学习与便捷生活的必备神器财务局通过智能算法,通关一点通能根据用户的学习行为和习惯,为用户推荐合适的学习资源,实现个性化学习。 (三)互动学习与交流 软件支持在线互动学习与交流,用户可与老师、同学进行实时互动,共同探讨问题,提高学习效率。 (四)离线下载与随时随地学习 通关一点通支持离线下载功能,用户可在有网络的情况下,将学习资源下载到移动设备https://www.hnjwwzy.cn/post/157.html
12.争学网官方版争学网最新版下载2.1.271、软件能支持在线学习和离线下载,让用户随时地学习; 2、根据用户的学习记录和兴趣,智能推荐相应的课程; 3、覆盖多个行业领域,提供专业的学习课程,使用便利。 软件亮点 1、是一个可以满足广大用户需要的学习平台。 2、线上包含了超多的课程让大家随时都能学习。 3、提供了丰富的学习资源与培训资料供大家使用。 软https://www.qimu86.com/soft/66139.html
13.4)针对固定周期模式下的,基于Q学习理论对多个路口进行相位差优化a4) 针对固定周期模式下的,基于Q学习理论对多个路口进行相位差优化研究,建立了延误最小为优化目标的离线Q学习模型。以集成VISSIM-Excel VBA-Matlab的仿真平台为技术平台,采用VBA及Matlab编程实现算例,然后将最优解在线应用到VISSIM实时交通控制中,并与MAXBAND方法进行对比。 4) In view of the fixed cyclical patternhttp://riyu.zaixian-fanyi.com/fan_yi_8290601
14.新东方在线官方版新东方在线官方版下载[外语学习]新东方在线官方版是一个十分优秀的网络外语在线学习工具,新东方在线官方版拥有中国最先进的教学内容开发与制作团队。新东方在线主要功能在线观看视频、离线缓存视频、倍速学习,听课进度同步,为大家提供很好的学习帮助,致力于为广大用户提供个性化、互动化、智能化的卓越在线学习体验。 http://downza.cn/soft/264936.html
15.闻思科技离线学习系统使用说明之系列三为了更好的帮助各位学员掌握学习方法,小编呈上终端学习&回传记录、学习终端课程下载相关视频,供各位学员参考! 终端学习&回传记录 学习终端课程下载 以上为使用我们离线学习终端实际操作相关步骤,希望对各位学习有所帮助。也欢迎与我们的售后服务中心联系咨询使用及操作问题,电话18603038374(微信号同步),期待各位小粉的咨询http://www.wthink.com.cn/h-nd-56.html
16.强化学习(一)入门介绍腾讯云开发者社区4、在线学习 和 离线学习在线学习就是必须本人在场,并且一定是本人一边行动一边学习。离线学习是可以选择自己行动,也可以选择看着别人行动,通过看别人行动来学习别人的行为准则,离线学习 同样是从过往的经验中学习,但是这些过往的经历没必要是自己的经历,任何人的经历都能被学习。https://cloud.tencent.com/developer/article/1707034
17.线上学习方案学校成立线上教育教学工作领导小组,由校长任组长,教务处、科年组长为小组成员,负责学校线上教育教学工作的组织协调、方案制定、教学指导、技术支持等。科学制定措施,加强对各班级、各学科在线教学的过程监控、教师教学质量评价和学生学习效果评价,注重痕迹管理,做到每周评价一次,发现问题及时处理。 https://www.unjs.com/fanwenku/419088.html
18.东师在线dansl’AppStore1. 灵活的学习体验移动端课程教学,在线观看与离线下载双管齐下,让碎片时间系统学习成为可能;在线作业手机做,有空就能顺手做,让作业不再是负担;在线文档随时看,让你的学习不掉队。 2. 及时的信息传达重要信息第一时间推送,不错过任何学习动态;考试信息手机查询,https://apps.apple.com/ci/app/%E4%B8%9C%E5%B8%88%E5%9C%A8%E7%BA%BF/id1446385736
19.蚂蚁金服新计算实践:基于Ray的融合计算引擎架构蔡芳芳随着计算和 AI 体系逐步成熟,我们希望机器学习应用能更多地在动态环境下运行、实时响应环境中的变化,这推动了机器学习从传统离线学习逐渐向在线学习演进。相比于传统的离线机器学习,在线学习可以带来更快的模型迭代速度,让模型预测效果更贴真实情况,对于线上的波动更加敏锐。https://www.infoq.cn/article/ualTzk5OwDb1crVHg7c1
20.中欧在线学习下载app手机版2024最新免费安装中欧在线学习介绍 介绍(2024-09-21) 中欧移动商学院 “中欧在线学习”是由中欧商业在线推出的手机2.0学习客户端本应用需要购买课程(详情请查询中欧商业在线官网),获得用户名和密码后,才能登录学习,获得学习资源。主要特性:1. 支持学习课件(视频,测验)、离线学习2. 支持在线考试,评价3. 手机端学习数据与PC端数据https://m.pianwan.com/app/109752
21.推荐27个在线学习WordPress资源网站您可以在所有设备上学习吗?它支持所有设备,以及离线学习的无互联网观看。 学习WordPress 的总体价值:高。 3. WP101 WP101具有专业的外观和感觉,并且具有只专注于WordPress的好处。它几乎没有涵盖那么多的WordPress主题(与Lynda和Udemy 相比),但它对初学者来说是一个干净而热情的环境。 https://www.wbolt.com/learn-wordpress.html
22.线上培训方案(精选14篇)按照教育部20xx年春季学期延期开学的要求,为满足幼儿园教师假期自我提升、自主学习的需求,特制定本方案。 一、指导思想 以现代化教育理念为指导,深入贯彻落实《幼儿园教育指导纲要》和《3-6岁儿童学习与发展指南》精神,不断提高幼儿园园长、教师的'专业素养和教育教学能力,推动我市学前教育质量全面发展。 https://www.ruiwen.com/fangan/6607293.html
23.首页业内名师,系统讲解大纲知识点突 出重点、难点,紧跟命题方向透彻 解析教材! 海量全真模拟试题全面覆盖各类考 点记录每次模考过程并汇总错题供 反复演练。 科学教学规划采用多班次的渐进式 教学体系让学习层层递进,稳步锁 分! 支持移动设备在线或离线学习,清 晰展示同步板书,课件可下载,学 习更灵活!http://sls.360xkw.com/