AWAC:使用离线数据集加速在线强化学习技术博客技术支持京天机器人官网

该方法通过从先前的数据集(专家演示,先前的实验数据或随机探索数据)进行离线训练,然后通过在线交互快速进行微调来学习复杂的行为

经过强化学习(RL)训练的机器人有潜力用于各种挑战性的现实世界中的问题。要将RL应用于新问题,通常需要设置环境,定义奖励功能,并通过允许机器人从头开始探索新环境来训练机器人解决任务。尽管这最终可能行得通,但是这些“在线”RL方法非常耗费数据,并且针对每个新问题重复执行这种数据效率低下的过程,因此很难将在线RL应用于现实世界中的机器人技术问题。如果我们能够在多个问题或实验之间重用数据,而不是每次都从头开始重复数据收集和学习过程。这样,我们可以大大减少遇到的每个新问题的数据收集负担。

图1:使用离线数据集加速在线RL的问题。在(1)中,机器人完全从离线数据集中学习策略。在(2)中,机器人可以与世界互动并收集策略样本,以改进策略,使其超出脱机学习的范围。

我们使用标准基准HalfCheetah移动任务来分析从离线数据学习和后续的微调问题中的挑战。以下实验是使用先前的数据集进行的,该数据集包含来自专家策略的15个演示和从这些演示的行为克隆中采样的100个次优轨迹。

图2:与非策略方法相比,基于策略的方法学习起来较慢,这是因为非策略方法能够“缝合”良好的轨迹,如左图所示右:在实践中,我们看到在线改进缓慢使用策略上的方法。

1.数据效率

利用诸如RL演示之类的先前数据的一种简单方法是,通过模仿学习对策略进行预训练,并通过基于策略的RL算法(例如AWR或DAPG)进行微调。这有两个缺点。首先,先验数据可能不是最佳的,因此模仿学习可能无效。第二,基于策略的微调是数据效率低下的,因为它不会在RL阶段重用先前的数据。对于现实世界的机器人技术而言,数据效率至关重要。考虑右边的机器人,尝试以先前的轨迹达到目标状态T1和T2。策略上的方法不能有效地使用此数据,但是可以有效地“缝合”进行动态编程的策略外算法T1和T2以及使用价值函数或模型。在图2的学习曲线中可以看到这种效果,其中按策略使用的方法要比按策略使用的参与者批评方法慢一个数量级。

图3:使用离线策略RL进行离线培训时,引导错误是一个问题。左:该策略利用了远离数据的错误Q值,从而导致Q函数的更新不佳。中:因此,机器人可能会执行超出分配范围的动作。正确:引导错误在使用SAC及其变体时会导致不良的离线预训练。

原则上,该方法可以通过贝尔曼自估计未来回报的价值估计V(s)或行动价值估计Q(s,a),从非政策性数据中高效学习。但是,当将标准的非策略参与者批评方法应用于我们的问题(我们使用SAC)时,它们的性能较差,如图3所示:尽管重放缓冲区中已有数据集,但这些算法并未从脱机中显着受益训练(通过比较图3中的SAC(从头开始)和SACfD(在先)行可以看出)。此外,即使策略已通过行为克隆进行了预训练(“SACfD(预训练)”),我们仍然会观察到性能最初出现下降。

此挑战可归因于策略外引导错误累积。在训练期间,Q估计值将不会完全准确,尤其是在推断数据中不存在的动作时。策略更新利用了高估的Q值,使估计的Q值更糟。该问题如图所示:错误的Q值导致对目标Q值的错误更新,这可能导致机器人采取较差的措施。

3.非平稳行为模型

诸如BCQ,BEAR和BRAC之类的现有脱机RL算法建议通过防止策略偏离数据太远来解决引导问题。关键思想是通过将策略π限制为接近“行为策略”πβ来防止引导错误,即重播缓冲区中存在的动作。下图说明了这个想法:通过从πβ采样动作,可以避免利用远离数据分布的错误Q值。

但是,πβ通常是未知的,尤其是对于脱机数据,必须从数据本身进行估计。许多离线RL算法(BEAR,BCQ,ABM)明确地将参数模型拟合到来自重播缓冲区的πβ分布的样本。在形成估计值后,现有方法以各种方式实施策略约束,包括对策略更新的惩罚(BEAR,BRAC)或针对策略训练的采样动作的体系结构选择(BCQ,ABM)。

尽管具有约束的离线RL算法在离线状态下表现良好,但仍难以通过微调来改进,如图1中的第三幅图所示。我们看到,纯离线RL性能(图1中为“0K”)要好得多。比SAC。但是,通过在线微调的其他迭代,性能提高非常缓慢(从图1中的BEAR曲线的斜率可以看出)。是什么原因导致这种现象?

问题在于当在微调期间在线收集数据时,要建立一个准确的行为模型。在脱机设置中,行为模型仅需训练一次,但在在线设置中,必须在线更新行为模型以跟踪传入数据。在线(在“流”环境中)训练密度模型是一个具有挑战性的研究问题,在线和离线数据的混合导致了潜在的复杂多模式行为分布,这使难度变得更大。为了解决我们的问题,我们需要一种策略外的RL算法,该算法会约束该策略以防止脱机不稳定和错误累积,但并不过于保守,以至于由于行为建模不完善而无法进行在线微调。我们提议的算法(将在下一部分中讨论)通过采用隐式约束来实现。

图4:AWAC的示意图。高权重的过渡将以高权重回归,而低权重的过渡将以低权重回归。右:算法伪代码。

那么,这在解决我们较早提出的问题方面的实际效果如何?在我们的实验中,我们表明,我们可以从人类示范和非政策性数据中学习困难,高维,稀疏的奖励灵巧操纵问题。然后,我们使用随机控制器生成的次优先验数据评估我们的方法。本文还包括标准MuJoCo基准环境(HalfCheetah,Walker和Ant)的结果。

灵巧的操纵

图5.顶部:在线培训后显示的各种方法的性能(笔:200K步,门:300K步,重新安置:5M步)。下图:显示了具有稀疏奖励的敏捷操作任务的学习曲线。步骤0对应于离线预训练后开始在线训练。

我们的目标是研究代表现实世界机器人学习困难的任务,其中最重要的是离线学习和在线微调。其中一种设置是Rajeswaran等人在2017年提出的一套灵巧操作任务。这些任务涉及使用MuJoCo模拟器中的28自由度五指手进行复杂的操作技能:笔的手旋转,通过解锁手柄打开门,捡起球体并将其重新定位到目标位置。这些环境面临许多挑战:高维动作空间,具有许多间歇性接触的复杂操纵物理以及随机的手和物体位置。这些环境中的奖励功能是任务完成的二进制0-1奖励。Rajeswaran等。为每个任务提供25个人工演示,虽然这些演示不是完全最佳的,但确实可以解决任务。由于此数据集非常小,因此我们通过构造行为克隆策略,然后从该策略中进行采样,又生成了500条交互数据轨迹。

使用脱离策略的RL进行强化学习的优势在于,我们还可以合并次优数据,而不仅仅是演示。在本实验中,我们使用Sawyer机器人在模拟的桌面推动环境中进行评估。

为了研究从次优数据中学习的潜力,我们使用了由随机过程生成的500条轨迹的非政策数据集。任务是将对象推入40cmx20cm目标空间中的目标位置。

结果显示在右图中。我们看到,尽管许多方法以相同的初始性能开始,但是AWAC可以在线上最快地学习,并且实际上能够有效地使用离线数据集,这与某些完全无法学习的方法相反。

能够使用先前的数据并在新问题上快速进行微调,为研究开辟了许多新途径。我们对使用AWAC从RL中的单任务机制到多任务机制以及任务之间的数据共享和通用化感到非常兴奋。深度学习的优势在于其在开放世界环境中进行概括的能力,我们已经看到,它改变了计算机视觉和自然语言处理的领域。为了在机器人技术中实现相同类型的概括,我们将需要利用大量先验数据的RL算法。但是机器人技术的一个主要区别是,为一项任务收集高质量的数据非常困难-通常与解决任务本身一样困难。这与例如计算机视觉相反,在计算机视觉中,人可以标记数据。因此,主动数据收集(在线学习)将成为难题的重要组成部分。

这项工作还提出了许多算法方向。请注意,在这项工作中,我们专注于策略π和行为数据πβ之间的不匹配动作分布。在进行非政策学习时,两者之间的边际状态分布也不匹配。凭直觉,考虑两个解决方案A和B的问题,其中B是更高收益的解决方案,而非政策性数据则说明了提供的解决方案A。即使机器人在在线浏览过程中发现了解决方案B,非策略数据仍主要包含来自路径A的数据。因此,Q函数和策略更新是针对遍历路径A时遇到的状态进行计算的,即使它不会遇到这些状态执行最佳策略时。以前已经研究了这个问题。考虑到两种类型的分布不匹配,可能会导致采用更好的RL算法。

最后,我们已经在使用AWAC作为加快研究速度的工具。当我们着手解决任务时,我们通常不会尝试使用RL从头开始解决它。首先,我们可以遥控机器人以确认任务可以解决;那么我们可能会进行一些硬编码的策略或行为克隆实验,以查看简单的方法是否已经可以解决它。使用AWAC,我们可以保存这些实验中的所有数据,以及其他实验数据(例如超参数扫描RL算法时的数据),并将其用作RL的先前数据。

DonghuRobotLaboratory,2ndFloor,BaoguInnovationandEntrepreneurshipCenter,WuhanCity,HubeiProvince,ChinaTel:027-87522899,027-87522877

THE END
1.在线实验系统一、什么是在线实验? 在线实验系统,成为互联网企业策略验证、产品迭代、算法优化等有效的实验工具。AB实验是指生物学上的随机对照实验,互联网在线实验与传统AB实验不同之处在于: (1)样本数量:互联网流量有着充足的实验样本; (2)实验成本:获取实验样本的成本可以忽略; https://zhuanlan.zhihu.com/p/443696048
2.在线水分仪和离线(实验室)水分仪的区别但是为了得到更好的一致性,必须在仪器调试阶段尽使用尽可能多的样品点数据来发现实验室和在线仪器所得到数据的相关性,通过各种技术手段 来是二者的趋势比较吻合,比较接近客户的使用惯性和判断惯性。而多点取样可以弥补 实验室和在线仪器之间的差距。http://www.gaoz17.com/pddetailthree/news/detail-1557917.html
3.ALICE实验在线和离线数据系统的软件质量和安全的研究ALICE实验中产生的大量的数据不仅来之于被各类探测器在粒子碰撞过程中捕获的原始数据,也包含分析原始数据和蒙特卡洛数据产生的分析结果。本文围绕ALICE实验处理大量数据的在线和离线数据系统中存在的问题和挑战展开研究。ALICE实验中,在线数据系统叫DAQ,用于处理从各类探测器到永久存储设备的数据流的归档:离线数据系统叫AliEnhttps://cdmd.cnki.com.cn/Article/CDMD-10511-1013278207.htm
4.智能实验室可以实现实验室操作流程的自动化智能实验室的原理基于以上关键技术的融合和应用,通过将人工智能、物联网、大数据和云计算等先进技术与实验室设备和仪器结合,实现实验室的自动化、智能化和数据驱动。通过提高实验效率和准确性,优化实验过程和结果,并实现实验数据的存储、管理和分析,能够为科学研究和工程实践提供更加便捷、精确的支持。 https://www.chem17.com/tech_news/detail/3571523.html
5.推荐算法简介推荐系统中,主要有3种评测推荐效果的实验方法,即离线实验(offline experiment)、用户调查(user study)和在线实验(online experiment)。 2.1 离线实验 离线实验的方法一般由如下几个步骤构成: (1) 通过日志系统获得用户行为数据,并按照一定格式生成一个标准的数据集; (2) 将数据集按照一定的规则分成训练集和测试集;https://www.jianshu.com/p/dcbb1095d376
6.大工23春《电力系统继电保护实验》实验报告及要求[答案][答案本课程的考核形式为离线作业(实验报告),无在线作业和考试。“离线作业及要求”在该课程的“离线作业”模块中下载。 二、离线作业要求 学生需要在平台离线作业中下载“大工23春《电力系统继电保护实验》实验报告”,观看实验课件,根据课件中的操作及实验结果来读取实验数据、认真填写“大工23春《电力系统继电保护实验》https://www.zy158.cn/m/view-51471.html
7.国内研究团队提出基于120个刺激编码视觉诱发电位的脑机接口实验过程中,利用滤波器组对脑电信号进行预处理,采用TRCA算法对刺激目标进行检测。此外,还考虑了渐进式扫描的影响,以提高脑电模板的时间精度。根据离线实验结果选择最佳的金氏码组合,通过在线实验对BCI系统性能进行评估。验证了该系统同时具有指令集大(120个刺激目标)、效率高(平均ITR为265.74 bits/min)和训练时间短(https://blog.csdn.net/zyb228107/article/details/124811837
8.首次用于大规模在线系统AI&大模型ChanghuaPei5.5 离线实验 在本节中,我们首先对 Yahoo Letor 数据集和电子商务重新排名数据集进行离线评估。然后给出了在线 A/B 测试的结果。我们还进行了消融研究,以帮助发现 PRM 模型的哪一部分对性能贡献最大。 5.5.1 雅虎 Letor 数据集离线评估 在本节中,我们将对 Yahoo Letor 数据集进行评估,以讨论以下问题: https://www.infoq.cn/article/a1tj74y7V2EKFikKYcwv/
9.这种新技术,在临床检验中有哪些应用?文章刊载于《临床实验室》杂志2024年第4期“临床实验室智能化与数字化构建”专题-「新技术与新方法」版块 页码p47-p53https://mp.weixin.qq.com/s?__biz=MzA5MDE4NzAxNw==&mid=2653139514&idx=2&sn=d498a99cf0aa369a0d49c685ba2c6399&chksm=8a2ba909e3569a9f4556db82df09bb4debb1cdbab117e0778b2e93ebd88d0197ceebf9494d2f&scene=27
10.在线气相色谱仪软件中的在线和脱机模式的功能比较在线模式和脱机模式是在线气相色谱仪软件中常见的工作模式。在线模式适用于实时监测、反应优化和参数调整等场景,具有实时性和自动化控制的优势;脱机模式适用于大规模数据采集和后续分析,具有数据保护和离线处理的优势。用户可以根据实验需求和数据处理要求选择合适的模式,以充分发挥色谱仪的功能和优势。http://m.jinghe17.com/huaijun-News-1510187/
11.首次用于大规模在线系统mb5fdb0a1b25659的技术博客5.5 离线实验 在本节中,我们首先对 Yahoo Letor 数据集和电子商务重新排名数据集进行离线评估。然后给出了在线 A/B 测试的结果。我们还进行了消融研究,以帮助发现 PRM 模型的哪一部分对性能贡献最大。 5.5.1 雅虎 Letor 数据集离线评估 在本节中,我们将对 Yahoo Letor 数据集进行评估,以讨论以下问题: https://blog.51cto.com/u_15060462/2677083
12.图解机器学习模型评估方法与准则腾讯云开发者社区进行评估的实验方法可以分为「离线」和「在线」两种。 1)离线实验方法 模型评估通常指离线试验。原型设计(Prototyping)阶段及离线试验方法,包含以下几个过程: 使用历史数据训练一个适合解决目标任务的一个或多个机器学习模型。 对模型进行验证(Validation)与离线评估(Offline Evaluation)。 https://cloud.tencent.com/developer/article/1953727
13.学习报告:基于脸颊范式的新型触觉P300脑机接口同时脸颊刺激范式在离线测试中也获得了更高的平均分类准确率以及单次实验准确率。通过对时间窗贡献的分析可以看出,两种范式的延迟并没有显著差异。两种范式的单目标准确率也显示出刺激的左右位置并不会对准确率有显著性影响。 通过对比在线实验数据可以看出,脸颊刺激范式在分类准确率和信息传输率方面都显著高于传统的https://www.scholat.com/teamwork/teamwork/showPostMessage.html?id=12632
14.浙大专硕考研337Arduino仿真模拟器如果你不想购入Arduino硬件,但又想在入门学习时查看代码运行后实验原型的效果;亦或是你已经购入了一套Arduino硬件套件但因为缺少部分元器件而不能完成更多的原型实验。别担心,琢木设计技术团队为大家找到了性价比极高的解决方案:选择Arduino仿真模拟器来进行在线or离线的模拟仿真实验。 https://www.douban.com/note/774336049/
15.在线气相色谱仪软件中的在线和脱机模式的功能比较在线模式和脱机模式是在线气相色谱仪软件中常见的工作模式。在线模式适用于实时监测、反应优化和参数调整等场景,具有实时性和自动化控制的优势;脱机模式适用于大规模数据采集和后续分析,具有数据保护和离线处理的优势。用户可以根据实验需求和数据处理要求选择合适的模式,以充分发挥色谱仪的功能和优势。https://china.guidechem.com/jhVIP/shownews559304.html
16.C#GMap.net百度地图的在线地图和离线地图的的用法C# GMap.net百度地图的在线地图和离线地图的的用法。 经严格反复的实验,可行可用。 GMap 百度地图 BaiduMapProv2018-06-02 上传大小:2.00MB 所需:49积分/C币 C# GMap.net高德地图的用法 C# GMap.net高德地图的用法,经实验可行。 同时包含在线地图和离线地图的用法。 https://www.iteye.com/resource/qreqwrerwerew-10455118
17.2020届计算机科学方向毕业设计(论文)阶段性汇报加速器的最终硬件架构、重要细节及实验结果。 蒋泽天 多图的离线协同式匹配和在线增量式匹配 介绍多图的离线协同式匹配和在线增量式匹配,MGM-FLoyd,MGM-SPFA和FastSPFA。 叶昊然 带有预算限制的拍卖机制 本次汇报介绍了单人拍卖中有条件的和无条件的预算限制,证明了无条件的预算限制下最优拍卖机制的形式,给出了无条https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3709
18.14度小满风控实验平台的架构与实践.pdf风控实验平台架构设计实践 风控实验过程贯穿风控完整决策过程 业务单元 告 贷前系统 贷中系统 贷后系统 风控系统整体架构 报 究 风控系统分为三层结构 研 ? 业务层 变量中心 选 决策中台 精 ? 平台层 / 案 ? 数据层 服务能力 实验平台 在线实验 离线实验 方 践 业务层 实 ? 业务整体流程的执行https://max.book118.com/html/2022/0417/7065120001004113.shtm
19.高压考试2试验A 非破坏性实验 B 破坏性试验 C 在线 D 离线 *2.关于检查性试验和耐压试验,以下说法不正确的是() A检查性试验在较低电压下或用其它不会损伤绝缘的方法测量绝缘的各种情况,判断绝缘内部的缺陷。 B 耐压试验以等价或高于设备的正常运行电压来考核设备的电压耐受能力和绝缘水平。 https://www.wjx.cn/vj/esPwE21.aspx
20.SIGIR2022流行度偏差如何利用?探索解耦域适应无偏召回模型离线实验 指标说明:我们定义了一个模型召回结果的集中度衡量指标 来衡量召回结果中热门商品的占比: 其中, 表示召回的商品集合, 表示热门商品集合。下表是离线指标对比,可以看出在长尾商品的指标和集中度都有所改善。 线上实验 将原有的Base双塔替换为 https://tech.taobao.org/news/kn24sk
21.实验空间—国家虚拟仿真实验教学项目共享服务平台专业在线实验室土木类在线实验室分子计算在线实验室 2500万+人次 应用评价 人气指数共享指数互动指数吸引指数 热门实验 推荐课程电力系统自动化、电力系统分析、电力系统继电保护物理虚拟仿真实验大学物理实验近代物理实验普通物理实验中国近现代史纲要毛泽东思想和中国特色社会主义理论体系概论思想道德修养与法律基础 国一流 电https://www.ilab-x.com/
22.SwanLab:yourMLexperimentnotebook.你的AI实验 支持在线使用: 通过 SwanLab 可以方便地将训练实验在云端在线同步与保存,便于远程查看训练进展、管理历史项目、分享实验链接、发送实时消息通知、多端看实验等。而 Tensorboard 是一个离线的实验跟踪工具。 多人协作: 在进行多人、跨团队的机器学习协作时,通过 SwanLab 可以轻松管理多人的训练项目、分享https://github.com/SwanHubX/SwanLab