基于集成网络的离线到在线强化学习

强化学习(ReinforcementLearning,RL)有两种基础的训练范式:在线强化学习(OnlineRL)和离线强化学习(OfflineRL)。在线强化学习需要让智能体和环境进行交互,利用收集到的数据同步进行训练,但在环境中进行探索的开销很大;离线强化学习不需要和环境交互,直接利用已有的离线数据进行训练,但这种范式训练的智能体会受限于离线数据的质量和覆盖范围。

基于此,研究者提出了离线到在线强化学习(Offline-to-onlineRL)训练范式,先利用已有的离线数量训练得到离线策略,然后将其应用到在线环境进行少量步数的微调。这种范式相比于前两者,一方面通过收集少量的在线数据,能够突破离线数据的限制,更贴近实际场景;另一方面在线阶段的微调是以离线策略为起点,相比于从零开始的在线强化学习,只需要非常少量的交互就能快速收敛。这一研究领域主要研究两个问题,一个是分布偏移引起的性能下降,就是如果直接将离线策略应用到在线环境进行微调,会在微调初期出现性能的急剧下降;另一个是在线优化效率,由于在线交互的开销很大,需要用尽可能少的交互次数实现尽可能大的性能提升,这两者可以归结于稳定性和高效性。

在IJCAI2024上,哔哩哔哩人工智能平台部联合天津大学将集成Q网络(Q-ensembles)引入到离线到在线强化学习训练范式中,提出了基于集成网络的离线到在线强化学习训练框架(ENsemble-basedOffline-To-OnlineRL,ENOTO)。ENOTO以集成Q网络为基础,充分利用其衡量的不确定性来稳定两个阶段的过渡和鼓励在线探索,可以结合多种强化学习算法作为基线算法,在离线到在线强化学习设定下提升稳定性和学习效率,具有较好的泛用性。团队在强化学习的经典环境MuJoCo、AntMaze任务和多种质量的数据集上对ENOTO进行了广泛的实验验证,和以往的离线到在线强化学习算法相比,很大程度地提升了稳定性和学习效率,在大部分数据集上的累积收益提升约有10%-25%。

02动机

对于早期的离线强化学习算法,如ConservativeQ-Learning(CQL)[1],会显式惩罚分布外样本的Q值,鼓励策略选择数据集内的动作,而这种思想在DoubleDQN中就有提到。因此我们可以将这里的Q网络从2个增加到N个,这就是集成Q网络。令人惊讶的是,这种简单的改变对于离线到在线强化学习的提升却是非常明显的。我们首先进行了一项验证性实验,使用CQL这个被广泛认可的代表性离线强化学习算法作为基线算法,在经典的强化学习环境MuJoCo上进行实验,实验结果如图1所示。离线到在线强化学习训练有两种很简单的方法,一个是在线阶段继续复用离线强化学习算法,也就是这里的CQL→CQL,但由于离线强化学习算法的保守性,在线优化效率会很低,即图1(a)中的红线;另一个是切换到在线强化学习算法,也就是CQL→SAC[2],但是这种目标函数的切换会导致性能波动,即图1(a)中的橙线。而引入集成Q网络后,CQL-N→SAC-N算法可以在确保稳定性的同时,提升一定的学习效率,即图1(a)中的黑线。

图1集成Q网络在离线到在线强化学习训练框架中的验证性实验

我们还可以通过可视化的方式来分析集成Q网络的优势。首先我们将CQL→SAC和CQL-N→SAC-N在在线微调阶段的Q值变化过程进行可视化,如图1(b)所示,CQL→SAC这样直接切换优化目标的方式确实会导致Q值的高估并且非常不稳定,而引入集成Q网络之后,由于SAC-N仍然具有保守低估Q值的能力,其相比于SAC算法的Q值也就会偏小并且保持相对稳定的变化。

值得注意的是,CQL-N→SAC-N不仅能够相比于CQL→SAC提升稳定性,实现稳定的离线到在线强化学习训练,而且相比于CQL→CQL还能提升一定的学习效率。针对这一现象,我们通过分析SAC-N和CQL在在线微调阶段的动作选择区间来进行解释说明。具体来说,我们比较了SAC-N、CQL和随机策略在在线微调过程中采取的动作相比于离线数据集内动作的距离。结果如图1(c)所示,SAC-N能够比CQL选择更广范围的动作,这意味着CQL-N→SAC-N能够在在线微调过程中进行更充分的探索,也就有着更高的学习效率。

03方法

ENOTO框架可以细化为三步渐进式的优化,仍然在经典的强化学习环境MuJoCo上进行实验,但这里展示的是在所有任务和数据集上的综合结果,如图2所示。

图2ENOTO的三步渐进式优化

第一步,在已有离线强化学习算法的基础上,我们使用集成Q网络连接离线训练阶段和在线微调阶段,将离线阶段算法和在线阶段算法中使用的Q网络拓展为N个,然后选择所有Q网络中的最小值作为最终的目标Q值进行更新。这一步的主要目的是利用集成Q网络提升过渡阶段的稳定性,当然也提升了一定的学习效率。

第二步,在确保稳定性的基础上,我们考虑提升在线优化效率。第一步的目标Q值计算方法使用的MinQ,也就是N个Q网络选最小值作为目标Q值,但是这种方法对于在线强化学习来说还是太过保守,因此我们又研究了另外几种目标值计算方法,经过实验比较最终选择WeightedMinPair作为ENOTO的目标Q值计算方式。

第三步,我们还可以利用集成Q网络的不确定性来鼓励在线阶段的探索,进一步提升学习效率。具体来说,我们使用集成Q网络的标准差来衡量不确定性,在选择动作时不仅会考虑Q值的大小,还会考虑不确定性的大小,通过超参数调整权重来选择出最终的动作。因为见得少的动作的Q值估计不准,不确定性也会更大,这就是ENOTO中基于不确定性的在线探索方法。

图3ENOTO框架

如图3所示,ENOTO框架和经典离线到在线强化学习训练范式的框架相同,也分为离线训练和在线微调两个阶段。首先在离线训练阶段,以离线强化学习算法为基础,通过引入集成Q网络,利用已有的离线数据集训练得到1个策略网络和N个Q网络;然后在线阶段迁移离线阶段的策略网络和Q网络作为在线微调的起始状态,在确保稳定性的同时,仍然基于集成Q网络进行设计,通过使用新的目标Q值计算方法和基于不确定性的在线探索方法来提升在线微调阶段的学习效率。整个ENOTO框架以集成Q网络贯穿始终,通过多种训练机制的设计实现了稳定高效的离线到在线强化学习训练。

04实验

我们首先选择强化学习领域广泛使用的MuJoCo(Multi-JointdynamicswithContact)[3]作为验证算法的实验环境,在其中的三种运动控制任务HalfCheetah、Walker2d、Hopper进行实验验证。作为离线到在线强化学习训练范式的第一阶段,离线训练需要有离线数据,我们使用离线强化学习领域广泛使用的D4RL(DatasetsforDeepData-DrivenReinforcementLearning)[4]数据集用于离线训练,并且为了证明方法的泛用性,我们选择了不同质量的离线数据集进行实验验证,包括medium、medium-replay、medium-expert这三类离线数据集。对于baseline,我们选择了离线到在线强化学习研究领域中的经典算法、性能优异算法以及一些在线强化学习算法进行比较。

图4MuJoCo实验结果

然后,我们在难度更高的导航任务AntMaze上进行实验验证。具体来说,我们使用AntMaze任务中三种不同难度的迷宫进行实验,包括umaze、medium、large,三种迷宫从易到难,能够从不同层面检验算法的各项指标。而作为用于离线训练的离线数据集,我们同样使用D4RL数据集。在D4RL数据集中收集了两类的AntMaze数据:play和diverse。因此,我们在AntMaze任务的large-diverse、large-play、medium-diverse、medium-play、umaze-diverse和umaze这6个数据集上进行实验验证。同时,为了验证ENOTO对于多种基线算法的适配性,我们在这里使用ENOTO-LAPO(ENOTO在LAPO[10]上的实例化)进行实验。由于Antmaze是一个更具挑战性的任务,大多数离线强化学习方法在离线阶段难以取得令人满意的结果,因此我们仅将我们的ENOTO-LAPO方法与三个有效的基线方法(IQL、PEX和Cal-QL)在此任务上进行比较。

图5AntMaze实验结果

图5展示了ENOTO-LAPO和基线方法在在线微调阶段的性能表现。首先,LAPO在离线阶段表现优于IQL,为在线阶段提供了更高的起点,特别是在umaze和mediummaze环境中,它几乎达到了性能上限。而在线微调阶段由于离线策略的约束,IQL表现出较慢的渐近性能。基于IQL,PEX通过引入从头训练的新策略增强了探索程度,但这些策略在早期在线阶段的强随机性导致了性能下降。需要注意的是,尽管IQL和PEX具有相同的起点,PEX在大多数任务中表现出更严重的性能下降。关于Cal-QL算法,类似于原始论文中描述的结果,它在Antmaze环境中表现出强劲的性能,显著优于其在MuJoCo环境中的表现。值得注意的是,与基线方法IQL和PEX相比,Cal-QL展示了更好的稳定性和学习效率。对于我们提出的ENOTO框架,我们证明了ENOTO-LAPO不仅可以提升离线性能,还能在保持离线性能不下降的情况下,实现稳定且快速的性能提升。

05总结

本项工作在离线到在线强化学习中引入了集成Q网络作为训练机制,通过构建多个Q值估计网络来捕捉不同数据分布偏移情况下的多样性,提出了ENOTO训练框架。在离线训练阶段,ENOTO让集成Q网络从离线数据中学习多个Q值估计,以适应不同数据分布偏移情况,然后在在线微调阶段整合多个Q值估计,生成稳健的在线策略。在确保稳定性的基础上,我们重新设计了目标Q值计算方法,以在保持稳定性的同时提升学习效率。此外,我们利用Q值的不确定性信息,鼓励智能体探索不确定性较高的动作,从而更快地发现高性能策略。实验结果表明,ENOTO在强化学习经典环境MuJoCo和AntMaze上不仅可以提升离线性能,还能在保持离线性能不下降的情况下,实现稳定且快速的性能提升。这种方法使得离线智能体能够快速适应现实环境,提供高效且有效的在线微调。

THE END
1.国网岚皋县供电公司:VR+不停电作业让培训更“智慧”实操作业班“起斗、验电、遮蔽、扣动手柄扳机、点击确定、作业……”4月30日上午,国网岚皋县供电公司不停电作业班开展10千伏配网不停电实操VR(虚拟现实)平台,模拟体验了一把现场作业的感受。 带电作业危险系数高、难度大,如何灵活地开展实操培训是个难题。国网岚皋县供电公司结合配网带电作业现场特点,建立了VR模拟不停电作业体https://www.163.com/dy/article/J1GCIA4T0550A3NK.html
2.2020年国家培训计划公布,疫情期间不组织离线集中培训。原标题:2020年国家培训计划发布,疫情期间不组织离线集中培训 < p >北京新闻快报(记者冯琪)3月17日,记者获悉,教育部和财政部已经发布了《2020年全国中小学幼儿园教师培训计划实施方案》(以下简称《国家培训计划》)在防疫和控制期间,两个部门要求各地不要为离线教师组织集中面对面的培训。 http://www.xinwenlianbo.tv/xinwen/76369.html
3.核心技能PSCADA离线处理培训为提高培训质量,同时对培训课程及老师进行客观评价,特制定此问卷,请您根据实际情况进行问卷填写。谢谢! 姓名:工号:所在部门: * 问题1:是否能积极传播正能量来激励人 非常满意 非常不满意 5 4 3 2 1 * 问题2:是否有得体的仪容仪表和精神面貌 非常满意 非常不满意 5 4 3 2 1 * 问题3:是否具备良好的亲和力https://www.wjx.cn/vm/m5CX8QR.aspx
4.学习用于视觉跟踪的深度紧凑图像表示腾讯云开发者社区具体来说,通过使用辅助自然图像,我们离线训练堆叠去噪自动编码器,以学习对变化更加鲁棒的通用图像特征。然后是从离线培训到在线跟踪过程的知识转移。在线跟踪涉及分类神经网络,该分类神经网络由训练的自动编码器的编码器部分构成,作为特征提取器和附加分类层。可以进一步调整特征提取器和分类器以适应移动物体的外观变化。与https://cloud.tencent.com/developer/article/2080065
5.SMT培训机构SMT培训SMT离线编程AOI培训深圳市顺为工匠人才科技有限公司是一家正规的SMT培训机构,专注于SMT离线编程,AOI培训,雅马哈,松下,三星,富士贴片机JUKI培训培训等;我司拥有雄厚的师资力量,团队阵容强大,教学经验丰富,费用合理透明,考核合格发放毕业证.咨询热线:18138859326.http://smt-edu.com/
6.离线报表工具怎么用的快帆软数字化转型知识库通过熟悉工具功能、优化数据处理流程、使用模板和自动化功能、定期维护和更新、提高团队协作效率、培训和学习、用户反馈和改进等方式,可以大幅提高离线报表工具的使用效率。FineReport和FineVis作为帆软旗下的两款优秀的报表和数据可视化工具,提供了丰富的功能和操作,用户可以根据自己的需求,选择合适的工具进行使用,提高工作https://www.fanruan.com/blog/article/104871/
7.YAMAHAsmt贴片机离线编程培训教程课羽化SMT编程软件资源YAMAHAUser Hand Book of培训概要及考试题目 雅马哈贴片机操作手册 浏览:47 雅马哈YV188操作手册,图文并茂,简单易懂 smt贴片机教程全集 浏览:8 smt贴片机教程全集 juki离线编程软件 浏览:53 4星 · 用户满意度95% 一款好用的离线编程原件,专门适用于SMTjuki机器离线编程 https://download.csdn.net/download/dhyuan_88/33235996
8.淘课网淘课网联合全国数万优秀培训师和培训机构,给企业提供有针对性的、互动的、积聚人脉的管理培训服务.包括提供培训需求诊断、培训课程采购、培训资料下载等服务.https://www.taoke.com/
9.AOI光学检测机操作培训20231010172919.docxSMTAOI光学检测机操作培训离线培训培训师参照《SAKI FRONTIER光学检测机操作指导书》(WI-MF-466-01 )、《SAKI VOYAGER光学检测机操作指导书》(WI-MF-464-01 )、《AOI检测标准》 (WI-MF-468-01)的内容及流程对员工进行设备操作、切换产品和了解参数的 培训。培训师参照IPC610中贴片质量要求部分的内容对员工进行https://max.book118.com/html/2023/1010/7062054131005165.shtm
10.office365管理培训office365教程注意:SourcePath即离线Office365安装包所要保存的位置,上文中是首先保存至D盘的office文件夹中,此位置可以是一个共享目录。 OfficeClientEdition里的内容为Office的32位版本还是64位版本。,建议32位版本,即使电脑系统是64位也使用32位,32位兼容性、稳定性更好。 https://blog.51cto.com/u_16099276/7993233
11.SPS协议范文6篇(全文)它是基于simulator模块基础上的模块, 它拥有simulator的所有功能, 包括水力模拟、计算、分析等功能, 并且可以对特定管道进行有针对性的培训; 该功能可用于对操作人员进行培训, 并可利用它模拟的管道实际工况, 考核操作人员是否掌握了操作和处理问题的技能。模拟培训是一个按实际管道模型和设备模型组成的离线系统。对管道https://www.99xueshu.com/w/ikeyfz7j6nix.html
12.工业4.0柔性自动化生产线实训平台智能制造实训设备LG-ISFTP06型 工业4.0智能制造柔性生产线实训系统由六个站组成,分别为:供料单元,加工单元,搬运单元,装配单元,机器人搬运单元,仓储单元,运输轴单元,触摸屏监控单元,工件检测单元等,控制系统可以选用品牌的PLC进行控制,具有较好的柔性,即每站各有一套PLC控制系统独立控制,在单个培训完成以后,又可以将相邻的两站、三站https://www.bjlg.com/news/hydt/4723.html
13.工业机器人离线仿真线下实战项目书籍工业机器人培训教材铭当当铭悦图书专营店在线销售正版《手把手教你做工业机器人应用项目 ABB机器人项目实战寻迹搬运码垛焊接 工业机器人离线仿真 线下实战项目书籍 工业机器人培训教材【铭悦好书】》。最新《手把手教你做工业机器人应用项目 ABB机器人项目实战寻迹搬运码垛焊接 工业机器人离线仿http://product.dangdang.com/11850165292.html
14.库卡其它软件(离线编程及系统软件库卡机器人配件库卡机器人备件库卡其它软件(离线编程及系统软件库卡机器人配件|库卡机器人备件|培训|示教器|维修|售后技术服务 库卡其它软件(离线编程及系统软件)介绍 库卡机器人KR 3 R540,库卡机器人KR 4 AGILUS,库卡机器人KR 4 R600,库卡机器人KR 6 R900-2,库卡机器人KR 10 R1100,库卡机器人KR 10 R1420,库卡机器人KR 16 Rhttp://kukapj-mall.gongboshi.com/news/index.php?itemid=125567
15.Tron钱包开发详细教程丨区块链技术培训课程#19登链社区离线地址生成 exportfunctioncreateTrxAddress(seedHex:string, addressIndex:string):string{ const node = bip32.fromSeed(Buffer.from(seedHex,'hex')); const child = node.derivePath("m/44'/195'/0'/0/"+ addressIndex +''); const privateKey = child.privateKey.toString('hex'); https://learnblockchain.cn/article/8536
16.职校家园1.1.2版本下载中职学校重点公办职业学校但是,对于未来,我想从事未来IT对于软件开发工作的人来说,有很多方法可以学习,所以价格也有很大的差异,上面的小边只说线下面对面的课程。假如要真正理解IT培训机构收取的学费取决于你是想参加在线培训还是离线培训IT培训,一般线下培训基本在2万左右,如果是线上的话IT培训也将在1万左右。 https://www.bbxtd.com/post/62778.html
17.学员APP操作手册图3-2 离线缓存 3.咨询答疑 学员在首页的页面中上部和个人中心页面均可找到“咨询答疑”按键。点击后即可向客服人员进行咨询。图3-3 咨询答疑 4.广场 广场也叫“研修说说”,是为参加大学生网络党校培训学习的学员提供的公开交流平台。学员可以在此浏览他人发布的学习心得,或发布自己的学习体会,发布内容限制在200字https://www.qzfzfz.com/newsinfo/443141.html
18.浙卫培训学习平台下载浙卫培训学习app下载v1.32.0安卓版1、培训学习应用程序实现了培训注册、休假、报到、考试、统计等相关功能,实现了网上无纸化学习、培训和考试。 2、通过培训和学习应用,员工可以实现远程培训、实时学习,解决了员工不能按时参加离线培训的问题。 3、有利于加强员工的专业知识、理论知识学习,提高员工学习态度和工作效率。 https://www.itmop.com/downinfo/424303.html