AWAC:使用离线数据集加速在线强化学习技术博客技术支持京天机器人官网

该方法通过从先前的数据集(专家演示,先前的实验数据或随机探索数据)进行离线训练,然后通过在线交互快速进行微调来学习复杂的行为

经过强化学习(RL)训练的机器人有潜力用于各种挑战性的现实世界中的问题。要将RL应用于新问题,通常需要设置环境,定义奖励功能,并通过允许机器人从头开始探索新环境来训练机器人解决任务。尽管这最终可能行得通,但是这些“在线”RL方法非常耗费数据,并且针对每个新问题重复执行这种数据效率低下的过程,因此很难将在线RL应用于现实世界中的机器人技术问题。如果我们能够在多个问题或实验之间重用数据,而不是每次都从头开始重复数据收集和学习过程。这样,我们可以大大减少遇到的每个新问题的数据收集负担。

图1:使用离线数据集加速在线RL的问题。在(1)中,机器人完全从离线数据集中学习策略。在(2)中,机器人可以与世界互动并收集策略样本,以改进策略,使其超出脱机学习的范围。

我们使用标准基准HalfCheetah移动任务来分析从离线数据学习和后续的微调问题中的挑战。以下实验是使用先前的数据集进行的,该数据集包含来自专家策略的15个演示和从这些演示的行为克隆中采样的100个次优轨迹。

图2:与非策略方法相比,基于策略的方法学习起来较慢,这是因为非策略方法能够“缝合”良好的轨迹,如左图所示右:在实践中,我们看到在线改进缓慢使用策略上的方法。

1.数据效率

利用诸如RL演示之类的先前数据的一种简单方法是,通过模仿学习对策略进行预训练,并通过基于策略的RL算法(例如AWR或DAPG)进行微调。这有两个缺点。首先,先验数据可能不是最佳的,因此模仿学习可能无效。第二,基于策略的微调是数据效率低下的,因为它不会在RL阶段重用先前的数据。对于现实世界的机器人技术而言,数据效率至关重要。考虑右边的机器人,尝试以先前的轨迹达到目标状态T1和T2。策略上的方法不能有效地使用此数据,但是可以有效地“缝合”进行动态编程的策略外算法T1和T2以及使用价值函数或模型。在图2的学习曲线中可以看到这种效果,其中按策略使用的方法要比按策略使用的参与者批评方法慢一个数量级。

图3:使用离线策略RL进行离线培训时,引导错误是一个问题。左:该策略利用了远离数据的错误Q值,从而导致Q函数的更新不佳。中:因此,机器人可能会执行超出分配范围的动作。正确:引导错误在使用SAC及其变体时会导致不良的离线预训练。

原则上,该方法可以通过贝尔曼自估计未来回报的价值估计V(s)或行动价值估计Q(s,a),从非政策性数据中高效学习。但是,当将标准的非策略参与者批评方法应用于我们的问题(我们使用SAC)时,它们的性能较差,如图3所示:尽管重放缓冲区中已有数据集,但这些算法并未从脱机中显着受益训练(通过比较图3中的SAC(从头开始)和SACfD(在先)行可以看出)。此外,即使策略已通过行为克隆进行了预训练(“SACfD(预训练)”),我们仍然会观察到性能最初出现下降。

此挑战可归因于策略外引导错误累积。在训练期间,Q估计值将不会完全准确,尤其是在推断数据中不存在的动作时。策略更新利用了高估的Q值,使估计的Q值更糟。该问题如图所示:错误的Q值导致对目标Q值的错误更新,这可能导致机器人采取较差的措施。

3.非平稳行为模型

诸如BCQ,BEAR和BRAC之类的现有脱机RL算法建议通过防止策略偏离数据太远来解决引导问题。关键思想是通过将策略π限制为接近“行为策略”πβ来防止引导错误,即重播缓冲区中存在的动作。下图说明了这个想法:通过从πβ采样动作,可以避免利用远离数据分布的错误Q值。

但是,πβ通常是未知的,尤其是对于脱机数据,必须从数据本身进行估计。许多离线RL算法(BEAR,BCQ,ABM)明确地将参数模型拟合到来自重播缓冲区的πβ分布的样本。在形成估计值后,现有方法以各种方式实施策略约束,包括对策略更新的惩罚(BEAR,BRAC)或针对策略训练的采样动作的体系结构选择(BCQ,ABM)。

尽管具有约束的离线RL算法在离线状态下表现良好,但仍难以通过微调来改进,如图1中的第三幅图所示。我们看到,纯离线RL性能(图1中为“0K”)要好得多。比SAC。但是,通过在线微调的其他迭代,性能提高非常缓慢(从图1中的BEAR曲线的斜率可以看出)。是什么原因导致这种现象?

问题在于当在微调期间在线收集数据时,要建立一个准确的行为模型。在脱机设置中,行为模型仅需训练一次,但在在线设置中,必须在线更新行为模型以跟踪传入数据。在线(在“流”环境中)训练密度模型是一个具有挑战性的研究问题,在线和离线数据的混合导致了潜在的复杂多模式行为分布,这使难度变得更大。为了解决我们的问题,我们需要一种策略外的RL算法,该算法会约束该策略以防止脱机不稳定和错误累积,但并不过于保守,以至于由于行为建模不完善而无法进行在线微调。我们提议的算法(将在下一部分中讨论)通过采用隐式约束来实现。

图4:AWAC的示意图。高权重的过渡将以高权重回归,而低权重的过渡将以低权重回归。右:算法伪代码。

那么,这在解决我们较早提出的问题方面的实际效果如何?在我们的实验中,我们表明,我们可以从人类示范和非政策性数据中学习困难,高维,稀疏的奖励灵巧操纵问题。然后,我们使用随机控制器生成的次优先验数据评估我们的方法。本文还包括标准MuJoCo基准环境(HalfCheetah,Walker和Ant)的结果。

灵巧的操纵

图5.顶部:在线培训后显示的各种方法的性能(笔:200K步,门:300K步,重新安置:5M步)。下图:显示了具有稀疏奖励的敏捷操作任务的学习曲线。步骤0对应于离线预训练后开始在线训练。

我们的目标是研究代表现实世界机器人学习困难的任务,其中最重要的是离线学习和在线微调。其中一种设置是Rajeswaran等人在2017年提出的一套灵巧操作任务。这些任务涉及使用MuJoCo模拟器中的28自由度五指手进行复杂的操作技能:笔的手旋转,通过解锁手柄打开门,捡起球体并将其重新定位到目标位置。这些环境面临许多挑战:高维动作空间,具有许多间歇性接触的复杂操纵物理以及随机的手和物体位置。这些环境中的奖励功能是任务完成的二进制0-1奖励。Rajeswaran等。为每个任务提供25个人工演示,虽然这些演示不是完全最佳的,但确实可以解决任务。由于此数据集非常小,因此我们通过构造行为克隆策略,然后从该策略中进行采样,又生成了500条交互数据轨迹。

使用脱离策略的RL进行强化学习的优势在于,我们还可以合并次优数据,而不仅仅是演示。在本实验中,我们使用Sawyer机器人在模拟的桌面推动环境中进行评估。

为了研究从次优数据中学习的潜力,我们使用了由随机过程生成的500条轨迹的非政策数据集。任务是将对象推入40cmx20cm目标空间中的目标位置。

结果显示在右图中。我们看到,尽管许多方法以相同的初始性能开始,但是AWAC可以在线上最快地学习,并且实际上能够有效地使用离线数据集,这与某些完全无法学习的方法相反。

能够使用先前的数据并在新问题上快速进行微调,为研究开辟了许多新途径。我们对使用AWAC从RL中的单任务机制到多任务机制以及任务之间的数据共享和通用化感到非常兴奋。深度学习的优势在于其在开放世界环境中进行概括的能力,我们已经看到,它改变了计算机视觉和自然语言处理的领域。为了在机器人技术中实现相同类型的概括,我们将需要利用大量先验数据的RL算法。但是机器人技术的一个主要区别是,为一项任务收集高质量的数据非常困难-通常与解决任务本身一样困难。这与例如计算机视觉相反,在计算机视觉中,人可以标记数据。因此,主动数据收集(在线学习)将成为难题的重要组成部分。

这项工作还提出了许多算法方向。请注意,在这项工作中,我们专注于策略π和行为数据πβ之间的不匹配动作分布。在进行非政策学习时,两者之间的边际状态分布也不匹配。凭直觉,考虑两个解决方案A和B的问题,其中B是更高收益的解决方案,而非政策性数据则说明了提供的解决方案A。即使机器人在在线浏览过程中发现了解决方案B,非策略数据仍主要包含来自路径A的数据。因此,Q函数和策略更新是针对遍历路径A时遇到的状态进行计算的,即使它不会遇到这些状态执行最佳策略时。以前已经研究了这个问题。考虑到两种类型的分布不匹配,可能会导致采用更好的RL算法。

最后,我们已经在使用AWAC作为加快研究速度的工具。当我们着手解决任务时,我们通常不会尝试使用RL从头开始解决它。首先,我们可以遥控机器人以确认任务可以解决;那么我们可能会进行一些硬编码的策略或行为克隆实验,以查看简单的方法是否已经可以解决它。使用AWAC,我们可以保存这些实验中的所有数据,以及其他实验数据(例如超参数扫描RL算法时的数据),并将其用作RL的先前数据。

DonghuRobotLaboratory,2ndFloor,BaoguInnovationandEntrepreneurshipCenter,WuhanCity,HubeiProvince,ChinaTel:027-87522899,027-87522877

THE END
1.离线学习在线学习在离线学习算法中,我们会有一个训练集,这个训练集包含多个训练实例。每个训练实例都认为是以某个概率分布从实例空间中独立同分布地抽取。我们的目标是根据这个训练样本构造一个分类器,使得其真正训练错误最小。‘ 在在线学习算法中,我们不假设训练数据来自于某个概率分布或者随机过程。当有个训练实例x过来时,我们利用https://blog.csdn.net/weixin_44245188/article/details/136901891
2.离线学习离线学习 编辑 在机器学习中,采用离线学习的系统在初始训练阶段完成后不改变其对目标函数的逼近。这些系统也是典型的急切学习的例子。在在线学习中,只有可能的元素集合是已知的,而在离线学习中,学习者知道元素的身份以及它们被呈现的顺序。机器人控制的应用机器人的学习能力等于创建一个表(信息),该表充满了价值。这样https://vibaike.com/175865/
3.专业的奥鹏在线离线作业答案辅导网2.网上学习常用的浏览器有哪些?() A.Chrome 浏览器 B.IE 浏览器 C.搜狗高速浏览器 D.以上均正确 3.以下软件中,( )属于常用的压缩软件。 A.Flash B.FlashGet C.WinRAR D.Outlook 4.常用的输入法有( )? A.搜狗输入法 B.百度输入法 C.QQ输入法 D.以上均正确 5.可以从哪些途径进入或者找到国家开放大http://www.youxue100f.com/qita/2023-05-06-12103.html
4.游玩和学习法国语相似应用下载游玩和学习法国语 6次下载 相似应用,小编亲测可用 学习通 213.67MB 查看 学习强国 159.84MB 查看 学习乐 33.52MB 查看 学习帮 66.71MB 查看 此游戏是极有趣的又对个人有发展游戏,也就是学初级的外语发音及词汇量自学者的一种“电子家教”。 词汇列表专为在不同场合各种日常用语而组成。本自修教材,由https://m.wandoujia.com/apps/7458987
5.在线积极化与无标签学习尽管这些现有方法在各种数据集或任务上取得了令人鼓舞的成绩(性能上),但它们都是在批量学习或离线学习的模式下工作的,不能处理具有序列化数据的在线学习场景。不幸的是,在大量的实际应用中,数据往往是按顺序呈现的,因此传统的批量化的学习算法要求同时观察所有的训练数据,因而无法https://mp.weixin.qq.com/s?__biz=MzAxMzE5MjE3Ng==&mid=2247491558&idx=1&sn=5c7f44c2163e07d0d6cb51bafd29e760&chksm=9ba70179acd0886fb9f1355c94e458c9c18a459e27cb9f377a09a9f250e2ba1c168d1f476a76&scene=27
6.离线在线强化学习方法研究学位摘要:强化学习作为人工智能的重要分支,在智能决策与智能控制领域具有广阔的应用前景。强化学习可以分为在线强化学习和离线强化学习,其中,在线强化学习通过边交互边学习的方式,不断优化智能体的策略,但是这种方法需要耗费昂贵的交互成本和承担交互风险。离线强化学习则是使用固定的经验数据集进行训练。因此,离线强化学习可以https://d.wanfangdata.com.cn/thesis/D03195458
7.英语读音法的内容是什么?英语自然拼音法是怎样的?英语世界—自然拼音法独创最先进的“右脑学习法”激发右脑思维空间,单词形状配合发音一次记住,单词轻松记,考试不发愁! 激发兴趣 学习英语就像玩游戏,动画结合、拼读结合,即简单又有趣,调动孩子的好奇心,从而迷恋英语爱上英语。 简单易懂 “英语世界—自然拼音法”预置全套标准美式发音,让孩子足不出户就能够交到发音纯https://m.tingclass.net/show-242-465070-1.html?gfh
8.人才培养经验总结(通用10篇)二、多法并举,积极探索人才培养模式 根据工作的实际需要,为加快推进工会事业的蓬勃发展,今年,公开招聘1名工会专职工作人员,并从公安队伍调入1名职工,为工会队伍注入新鲜血液。此外,还一如既往组织干部职工参加全国、省、市各级各类培训,参训干部职工回来后都举行了学习汇报会,将先进的工作和管理理念通过生动的形式向全体https://www.ruiwen.com/zongjie/3186084.html
9.2023年深圳医顺教育大苗老师临床执业/助理医师考试课程班培训班创五步学习法 保障学习效果 渐进式提升课程体系,让您的成绩逐步提升 第一步 听 规划:每月有详细课表为同学们制定好每天学习计划。 目标:只需按时听课,做好笔记,掌握好基本考点,夯实基础。 第二步 串 规划:每个分值高的保命系统课均安排有定期串讲。 目标:每个系统学习结束后,对该系统每个考点能融会贯通的掌握,https://www.yishunjiaoyu.com/partner/lc.html?mrvi
10.信息技术教学反思(精选13篇)在教学实践中,情境教学法是我常用的手段之一。通过创设与学生生活实际相关的情境,如设计校园文化节的宣传海报、制作校园导览小程序等,能够让学生感受到信息技术在生活中的广泛应用,提高他们的`学习积极性。然而,在情境创设过程中,有时会过于注重情境的趣味性,而忽略了教学目标的达成。比如在一次制作宣传海报的情境教学https://www.oh100.com/kaoshi/fansi/312544.html
11.我是怎么做个人知识管理的,从备忘录,经历了Markdown兴起,Notion本文会从我所遇到知识管理的困境以及如何构建自己的知识管理流程说起,然后详细聊些知识管理各流程中的笔记工具和一些笔记记录的方法理论,比如卡片盒笔记法、P.A.R.A.、费曼学习法和 CODE 等。 在信息爆炸的时代,个人信息管理已经成为不可忽视的挑战。为了高效收集、整理、消化海量信息,也出现了很多工具。从史前的系https://www.jianshu.com/p/ca1426b76691
12.年度工作总结模板(通用25篇)我根据自己的兴趣和专业特长,选择参加了四个专业委员会,分别是:刑法、劳动法、婚姻家庭、国际投资与贸易专业委员会,特别是劳动法和婚姻家庭专业委员会,我积极参加委员会组织的活动,包括参加会议讨论,执行电台值班安排,参加普法活动、新法律法规学习及资料收集等工作,专业委员会作为一个组织,是我们律师平时学习和交流的https://www.yjbys.com/gongzuozongjie/niandu/2957004.html
13.高中政治说课稿范文(精选10篇)以多媒体为辅助教学手段,采用情景探究法。第一步,创设情景,提出问题;第二步,小组讨论,自主探究;第三步,师生互动,建构知识。 (2) 接下来再说说我对学生学法的指导 本着以学生为本的理念,着眼于学生的终身发展,在传授知识的同时,更加注重学习的过程,更加注重能力的培养,因而我采用了新课程提倡的自主学习、合作学习https://www.fwsir.com/ziliao/html/ziliao_20151126142000_321293.html
14.机器学习从业者面临的8大挑战8.离线学习和部署模型 机器学习工程在构建应用程序时遵循以下步骤:1)数据收集2)数据清理3)功能工程4)分析模式5)训练模型和优化6)部署。 糟糕! 我说部署了吗? 是的,许多机器学习从业者可以执行所有步骤,但缺乏部署技能,由于缺乏实践和依赖关系问题,对业务基础模型的了解不足,将其出色的应用程序投入生产已成为最大https://www.51cto.com/article/621009.html
15.墨墨背单词99999破解版安卓2022下载用户可以在线背单词,并且可以每隔一段时间自动检查学习结果。快来下载吧! 该版本的单词量最大是9999,背完了可以继续添加,无限使用。 墨墨背单词99999破解版详情 更新时间:2024-05-18 版权问题:破解版软件通常指未经授权的软件版本,这可能侵犯了软件开发者的版权。使用破解版软件不仅违反了版权法,还可能带来安全风险https://www.37uu.cn/soft/662666.html
16.科学网—一种基于Off东北大学流程工业综合自动化国家重点实验室硕士研究生.主要研究方向为工业过程运行控制,强化学习. E-mail: alilili0131@gmail.com 范家璐 东北大学流程工业综合自动化国家重点实验室副教授. 2011年获得浙江大学博士学位(与美国宾夕法尼亚州立大学联合培养).主要研究方向为工业过程运行控制,工业无线传感器网络与移动社会网https://blog.sciencenet.cn/blog-3291369-1348607.html