AWAC:使用离线数据集加速在线强化学习技术博客技术支持京天机器人官网

该方法通过从先前的数据集(专家演示,先前的实验数据或随机探索数据)进行离线训练,然后通过在线交互快速进行微调来学习复杂的行为

经过强化学习(RL)训练的机器人有潜力用于各种挑战性的现实世界中的问题。要将RL应用于新问题,通常需要设置环境,定义奖励功能,并通过允许机器人从头开始探索新环境来训练机器人解决任务。尽管这最终可能行得通,但是这些“在线”RL方法非常耗费数据,并且针对每个新问题重复执行这种数据效率低下的过程,因此很难将在线RL应用于现实世界中的机器人技术问题。如果我们能够在多个问题或实验之间重用数据,而不是每次都从头开始重复数据收集和学习过程。这样,我们可以大大减少遇到的每个新问题的数据收集负担。

图1:使用离线数据集加速在线RL的问题。在(1)中,机器人完全从离线数据集中学习策略。在(2)中,机器人可以与世界互动并收集策略样本,以改进策略,使其超出脱机学习的范围。

我们使用标准基准HalfCheetah移动任务来分析从离线数据学习和后续的微调问题中的挑战。以下实验是使用先前的数据集进行的,该数据集包含来自专家策略的15个演示和从这些演示的行为克隆中采样的100个次优轨迹。

图2:与非策略方法相比,基于策略的方法学习起来较慢,这是因为非策略方法能够“缝合”良好的轨迹,如左图所示右:在实践中,我们看到在线改进缓慢使用策略上的方法。

1.数据效率

利用诸如RL演示之类的先前数据的一种简单方法是,通过模仿学习对策略进行预训练,并通过基于策略的RL算法(例如AWR或DAPG)进行微调。这有两个缺点。首先,先验数据可能不是最佳的,因此模仿学习可能无效。第二,基于策略的微调是数据效率低下的,因为它不会在RL阶段重用先前的数据。对于现实世界的机器人技术而言,数据效率至关重要。考虑右边的机器人,尝试以先前的轨迹达到目标状态T1和T2。策略上的方法不能有效地使用此数据,但是可以有效地“缝合”进行动态编程的策略外算法T1和T2以及使用价值函数或模型。在图2的学习曲线中可以看到这种效果,其中按策略使用的方法要比按策略使用的参与者批评方法慢一个数量级。

图3:使用离线策略RL进行离线培训时,引导错误是一个问题。左:该策略利用了远离数据的错误Q值,从而导致Q函数的更新不佳。中:因此,机器人可能会执行超出分配范围的动作。正确:引导错误在使用SAC及其变体时会导致不良的离线预训练。

原则上,该方法可以通过贝尔曼自估计未来回报的价值估计V(s)或行动价值估计Q(s,a),从非政策性数据中高效学习。但是,当将标准的非策略参与者批评方法应用于我们的问题(我们使用SAC)时,它们的性能较差,如图3所示:尽管重放缓冲区中已有数据集,但这些算法并未从脱机中显着受益训练(通过比较图3中的SAC(从头开始)和SACfD(在先)行可以看出)。此外,即使策略已通过行为克隆进行了预训练(“SACfD(预训练)”),我们仍然会观察到性能最初出现下降。

此挑战可归因于策略外引导错误累积。在训练期间,Q估计值将不会完全准确,尤其是在推断数据中不存在的动作时。策略更新利用了高估的Q值,使估计的Q值更糟。该问题如图所示:错误的Q值导致对目标Q值的错误更新,这可能导致机器人采取较差的措施。

3.非平稳行为模型

诸如BCQ,BEAR和BRAC之类的现有脱机RL算法建议通过防止策略偏离数据太远来解决引导问题。关键思想是通过将策略π限制为接近“行为策略”πβ来防止引导错误,即重播缓冲区中存在的动作。下图说明了这个想法:通过从πβ采样动作,可以避免利用远离数据分布的错误Q值。

但是,πβ通常是未知的,尤其是对于脱机数据,必须从数据本身进行估计。许多离线RL算法(BEAR,BCQ,ABM)明确地将参数模型拟合到来自重播缓冲区的πβ分布的样本。在形成估计值后,现有方法以各种方式实施策略约束,包括对策略更新的惩罚(BEAR,BRAC)或针对策略训练的采样动作的体系结构选择(BCQ,ABM)。

尽管具有约束的离线RL算法在离线状态下表现良好,但仍难以通过微调来改进,如图1中的第三幅图所示。我们看到,纯离线RL性能(图1中为“0K”)要好得多。比SAC。但是,通过在线微调的其他迭代,性能提高非常缓慢(从图1中的BEAR曲线的斜率可以看出)。是什么原因导致这种现象?

问题在于当在微调期间在线收集数据时,要建立一个准确的行为模型。在脱机设置中,行为模型仅需训练一次,但在在线设置中,必须在线更新行为模型以跟踪传入数据。在线(在“流”环境中)训练密度模型是一个具有挑战性的研究问题,在线和离线数据的混合导致了潜在的复杂多模式行为分布,这使难度变得更大。为了解决我们的问题,我们需要一种策略外的RL算法,该算法会约束该策略以防止脱机不稳定和错误累积,但并不过于保守,以至于由于行为建模不完善而无法进行在线微调。我们提议的算法(将在下一部分中讨论)通过采用隐式约束来实现。

图4:AWAC的示意图。高权重的过渡将以高权重回归,而低权重的过渡将以低权重回归。右:算法伪代码。

那么,这在解决我们较早提出的问题方面的实际效果如何?在我们的实验中,我们表明,我们可以从人类示范和非政策性数据中学习困难,高维,稀疏的奖励灵巧操纵问题。然后,我们使用随机控制器生成的次优先验数据评估我们的方法。本文还包括标准MuJoCo基准环境(HalfCheetah,Walker和Ant)的结果。

灵巧的操纵

图5.顶部:在线培训后显示的各种方法的性能(笔:200K步,门:300K步,重新安置:5M步)。下图:显示了具有稀疏奖励的敏捷操作任务的学习曲线。步骤0对应于离线预训练后开始在线训练。

我们的目标是研究代表现实世界机器人学习困难的任务,其中最重要的是离线学习和在线微调。其中一种设置是Rajeswaran等人在2017年提出的一套灵巧操作任务。这些任务涉及使用MuJoCo模拟器中的28自由度五指手进行复杂的操作技能:笔的手旋转,通过解锁手柄打开门,捡起球体并将其重新定位到目标位置。这些环境面临许多挑战:高维动作空间,具有许多间歇性接触的复杂操纵物理以及随机的手和物体位置。这些环境中的奖励功能是任务完成的二进制0-1奖励。Rajeswaran等。为每个任务提供25个人工演示,虽然这些演示不是完全最佳的,但确实可以解决任务。由于此数据集非常小,因此我们通过构造行为克隆策略,然后从该策略中进行采样,又生成了500条交互数据轨迹。

使用脱离策略的RL进行强化学习的优势在于,我们还可以合并次优数据,而不仅仅是演示。在本实验中,我们使用Sawyer机器人在模拟的桌面推动环境中进行评估。

为了研究从次优数据中学习的潜力,我们使用了由随机过程生成的500条轨迹的非政策数据集。任务是将对象推入40cmx20cm目标空间中的目标位置。

结果显示在右图中。我们看到,尽管许多方法以相同的初始性能开始,但是AWAC可以在线上最快地学习,并且实际上能够有效地使用离线数据集,这与某些完全无法学习的方法相反。

能够使用先前的数据并在新问题上快速进行微调,为研究开辟了许多新途径。我们对使用AWAC从RL中的单任务机制到多任务机制以及任务之间的数据共享和通用化感到非常兴奋。深度学习的优势在于其在开放世界环境中进行概括的能力,我们已经看到,它改变了计算机视觉和自然语言处理的领域。为了在机器人技术中实现相同类型的概括,我们将需要利用大量先验数据的RL算法。但是机器人技术的一个主要区别是,为一项任务收集高质量的数据非常困难-通常与解决任务本身一样困难。这与例如计算机视觉相反,在计算机视觉中,人可以标记数据。因此,主动数据收集(在线学习)将成为难题的重要组成部分。

这项工作还提出了许多算法方向。请注意,在这项工作中,我们专注于策略π和行为数据πβ之间的不匹配动作分布。在进行非政策学习时,两者之间的边际状态分布也不匹配。凭直觉,考虑两个解决方案A和B的问题,其中B是更高收益的解决方案,而非政策性数据则说明了提供的解决方案A。即使机器人在在线浏览过程中发现了解决方案B,非策略数据仍主要包含来自路径A的数据。因此,Q函数和策略更新是针对遍历路径A时遇到的状态进行计算的,即使它不会遇到这些状态执行最佳策略时。以前已经研究了这个问题。考虑到两种类型的分布不匹配,可能会导致采用更好的RL算法。

最后,我们已经在使用AWAC作为加快研究速度的工具。当我们着手解决任务时,我们通常不会尝试使用RL从头开始解决它。首先,我们可以遥控机器人以确认任务可以解决;那么我们可能会进行一些硬编码的策略或行为克隆实验,以查看简单的方法是否已经可以解决它。使用AWAC,我们可以保存这些实验中的所有数据,以及其他实验数据(例如超参数扫描RL算法时的数据),并将其用作RL的先前数据。

DonghuRobotLaboratory,2ndFloor,BaoguInnovationandEntrepreneurshipCenter,WuhanCity,HubeiProvince,ChinaTel:027-87522899,027-87522877

THE END
1.强化学习强化学习中,离线策略和在线策略的区别是什么?请从原理和例在强化学习(RL)中,离线策略和在线策略是两种不同的学习和决策方法,它们各有优势和适用场景。 了解这两者的区别有助于选择适合的算法和策略进行有效的学习和决策。 接下来,我们将从原理和例子两个方面对离线策略和在线策略进行详细解释。 原理 1. 离线策略(Off-policy) https://blog.csdn.net/wq6qeg88/article/details/140999201
2.强化学习蒙特卡罗之离线策略在线策略和离线策略,也是观测到 greedy 产生的策略有一定的随机性,不适合做最优策略。策略评估和策略改进能否用两种策略呢?根据答案从而产生了 on-policy 和off-policy 两种方案。 On-policy (在线策略)是指两个过程中使用的是同一个策略。 离线策略 off policy https://www.jianshu.com/p/20feefe77239
3.基于离线策略的电力系统安全稳定在线附加紧急控制方法影响“在线预决策,实时匹配”紧急控制技术推广应用的关键因素之一在于难以对在线策略的适应性进行量化评估,通常还是凭经验预先设定在线策略的适用条件,其可靠性难以保证。[0004]综上所述,基于离线策略的紧急控制在电网大多数运行工况下能够保证电网的安全稳定,但控制策略的精度不高,通常过于保守,控制量过大;基于在线预https://www.xjishu.com/zhuanli/05/CN104779608.html
4.在线帮助信息离线策略,离线操作,生成策略,导入策略,离线过期,离线管理http://www.amoisoft.com/onlinehelp_ld/328.htm
5.一种基于海量策略智能处理平台的全市场多品种金融资管系统.pdf一种基于海量策略智能处理平台的全市场多品种金融资管系统.pdf,本发明公开了一种基于海量策略智能处理平台的全市场多品种金融资管系统,包括:交易平台,数据平台和策略平台。负责策略包括离线策略生产管理子系统和在线策略运行管理子系统,策略平台采用机器学习算法来计算https://max.book118.com/html/2023/1209/5001301144011022.shtm
6.本地谷歌SEO现状:专家们权衡行业特定策略—AdWeb全球站第三个最重要的营销策略是了解你的客户是谁,他们住在哪里,你如何与他们建立联系,以及他们关心什么。从战略的角度来看,您对目标客户的了解越多,您就越能参与到他们所属的当地社区中。对于本地搜索,我认为谷歌希望在在线世界中突出来自离线世界的流行公司。开始专注于建立一个更好的本地品牌。 https://www.adwebcloud.com/www.adwebcloud.com/bdggsxzzjmqhhyt/
7.机器学习:在线学习和离线学习的区别机器学习中的在线学习和离线学习 区别 Online Learning And Offline Learning 第一种理解 在线学习,通常是一次输入一条数据(而不是一个batch),训练完了直接更新权重。一个一个地按照顺序处理数据,但是每一个数据训练完后都会直接更新权重,但不知道是对是错,如果某一次权重更新错误,在这之后的权重更新可能一直都是错https://zhuanlan.zhihu.com/p/269454065
8.墨墨背单词99999破解版安卓2022下载3.量身定制的抗遗忘策略 墨墨背单词对每一个独立的单词依据单词难度和学员个体的记忆差别量身定制专属于每一个学员的记忆规划。在每个单词即将到达遗忘临界点的时候,恰到好处的安排你的下一次复习。 4.自由的词汇添加 墨墨背单词允许你随时添加新的单词到学习列表,甚至一篇自定义文章的单词提取,很好的结合了你平时生https://www.37uu.cn/soft/662666.html
9.智能控制技术范文12篇(全文)由于采集的数据仅覆盖装置所在地附近的区域,无法推算整个系统的运行状态,故如何将电力系统暂态稳定紧急控制模式由现有的“离线计算策略表,实时故障匹配”模式向“在线预决策、实时匹配”的新控制模式发展以及原系统中出现的一些问题与其在新系统中相应的解决方案必须进行深入的研究。https://www.99xueshu.com/w/ikeyve5gy2gl.html
10.电力系统黑启动恢复问题的研究评述文献[54]引入带精英策略的快速非支配排序遗传算法求解多目标输电网架重构模型,较好地避免了求解过程的目标偏好性。文献[55]考虑特级负荷的停电损失,建立了重构过程中的源网荷协同优化模型。文献[26]开发了目标网架与恢复序列统一决策的应急恢复在线决策支持系统。文献[56]提出一种离线训练在线搜索的网架重构实时优化决策https://dgjsxb.ces-transaction.com/fileup/HTML/2022-13-3183.htm
11.读懂数字人民币,这一篇就足够产品笔记DC/EP凭借双离线支付、账户松耦合等技术设计提高我国金融稳定性,增强经济体应对突发状况能力。 助力货币体系降本增效,推动普惠金融 DC/EP可降低货币运营成本,便利货币政策传导,畅通信息数据链条,降低金融服务门槛;提升反洗钱、反恐怖融资、反逃税监管效率,以及满足公众匿名需求。 https://www.shangyexinzhi.com/article/4579724.html
12.我对SLG游戏制作的一些思考随着则服务器到达一定进程后,留存玩家数量会降低。在这个前提下,主旋律是一个人员扩编和整合的过程,以此来保持组织的结构稳定及大地图策略的实施。 当服务器导量人数多时,各个社会阶层的人更容易被吸纳接近现实社会的比例,从而实现小型社会的模拟,达成平衡并维持长期的稳定。最理想的情况是:多个头部的组织,互相形成制https://weibo.com/ttarticle/p/show?id=2309404740343227876427
13.得物AppH5秒开优化实战OSCHINA从点击到路由这部分耗时在线下进行了性能测试,几乎可以忽略不计。 3.2.3 最终线上收益效果 在上述问题解决后,将缓存时间修改为 1 天,发现预请求 HTML 开启状态下可提升 8% 左右的秒开,已经和预加载的效果相差不大了。 3.3 离线包 通过提前将 H5 页面内所需的 css、js 等资源聚合在一个压缩包内,由客户端https://my.oschina.net/u/5783135/blog/5527553
14.科学网—[转载]群视角下的多智能体强化学习方法综述基于学习(深度学习、强化学习)设计的迭代式问题求解方法是离线策略学习的基础范式。由于环境及对手的非平稳性,离线训练的蓝图策略通常很难直接运用于在线对抗。在线博弈对抗过程与离线利用模拟多次对抗学习博弈过程不同,博弈各方处于策略解耦合状态,与离线批(batch)式策略学习方法不同,在线博弈对抗策略的求解本质是一个流https://blog.sciencenet.cn/home.php?mod=space&uid=3472670&do=blog&id=1422698
15.人工智能团队研究成果在TKDE发表:样本高效的离线转在线强化学习该研究提出了一种样本高效的离线转在线强化学习算法,旨在解决两个重要挑战:(1)探索局限性。离线强化学习通常对离线策略评估算法施加严格的限制,以避免采样分布外状态-动作对。由于探索行为策略通常由目标策略派生,这种受限制的预训练策略往往执行保守的动作,使得探索行为策略无法寻找可能产生高奖励并导致长期收益的新颖状态http://icfs.jlu.edu.cn/info/1007/3101.htm
16.线上线下融合教学的优势不足与发展策略内容努力为学生提供高质量,科学的教学服务,以有效满足学生个性发展和全面素质教育的要求。教师应注意,并不是所有的课程都可以使用线上线下混合教学方式进行教学。教师应深入学习教科书,明确学习目标,并为在线和离线学习选择适当的主题。逐步提高自身的信息素养和教学理念,在提高教学质量的同时,确保学生在学习中的核心地位。https://tpd.xhedu.sh.cn/cms/app/info/doc/index.php/92024
17.在对齐AI时,为什么在线方法总是优于离线方法?他们通过消融研究发现,提升离线优化的一种有效方法是生成分布上接近起始 RLHF 策略(这里就刚好是 SFT 策略)的数据,这本质上就模仿了在线算法的起始阶段。 优化性质 该团队发现判别能力和生成能力之间存在一种有趣的相互作用:尽管离线策略的分类能力胜过在线策略,但离线策略生成的响应却更差(见图 6、7、8)。 https://m.thepaper.cn/newsDetail_forward_27434433
18.安秉网盾加密软件让数据安全如影随形离线用户管理(短期):若员工临时出差在外,可以通过离线策略对其进行管理。设置员工离线的时间,比如72小时,当计算机离线大于72小时后,所有加密文件将不能打开。 加解密网关 安全网关对访问服务器的计算机进行严格的身份验证,防止未授权的用户和进程访问服务器获取机密数据。 通过上传解密、下载加密及通讯加密,实现对加密文档https://www.anbingsoft.cn/news/gscyjm/2023/0914/957.html
19.基于优化算法的插电混动PHEV能量管理策略概览目前应用较多的EA 包括粒子群算法(Particle swarm optimization, PSO),遗传算法(Genetic algorithm,GA),拟退火算法(Simulated annealing,SA),蚁群算法(Ant colony optimization, ACO),差分进化算法(Differential evolution, DE)等,针对于PHEV 能量管理问题,该算法现阶段均采用离线运算出最优结果,再与在线策略相结合的机制https://www.yoojia.com/article/9615930982477810013.html
20.河北加密软件透明加密策略 透明加密:在文件创建或编辑过程中自动强制加密,对用户操 作习惯没有任何影响,不需手动输入密码。当文件通过非正常 渠道流至外部,打开时会出现乱码或无法打开,并且始终处于 加密状态。加密过程在操作系统内核完成,保证了加密的高效 性。 半透明加密:用户可以打开加密文件,新建的文件不加密。 解密在线审批https://www.anbingsoft.com/zhuanti/hebei/shijiazhuang/
21.政府采购用户需求书(精选6篇)1)要求提供企业电子档案一体化迁出和迁入功能。适用于企业管辖单位发生变更后,对相应的企业电子档案进行一体化的迁出与迁入管理,具备在线迁移、离线迁移、迁移日志管理等功能。 2)在线迁移提供基于标准FTP网络传输方式的电子档案迁出和迁入功能。3)离线迁移提供基于本地移动存储介质的海量电子档案迁出和迁入功能,专门解决大https://www.360wenmi.com/f/filegkpq2k8e.html
22.悄悄学习Doris,偷偷惊艳所有人ApacheDoris四万字小总结DorisDB 重新定义了 MPP 分布式架构,集群可扩展至数百节点,支持 PB 级数据规模,是当前唯一可以在大数据规模下进行在线弹性扩展的企业级分析型数据库。 DorisDB 还打造了全新的向量化执行引擎,单节点每秒可处理多达 100 亿行数据,查询速度比其他产品快 10-100 倍! https://xie.infoq.cn/article/b2250c2d887f69d8519a3f50b
23.详解经典强化学习算法,搞定“阿尔法狗”下围棋在线策略方法试图评估并提升和环境交互生成数据的策略,而离线策略方法评估和提升的策略与生成数据的策略是不同的。 这表明在线策略方法要求智能体与环境交互的策略和要提升的策略必须是相同的。 而离线策略方法不需要遵循这个约束,它可以利用其他智能体与环境交互得到的数据来提升自己的策略。 https://cloud.tencent.com/developer/article/2280864