IJCAI2024:基于集成网络的离线到在线强化学习

IJCAI2024:基于集成网络的离线到在线强化学习

01前言

强化学习(ReinforcementLearning,RL)有两种基础的训练范式:在线强化学习(OnlineRL)和离线强化学习(OfflineRL)。在线强化学习需要让智能体和环境进行交互,利用收集到的数据同步进行训练,但在环境中进行探索的开销很大;离线强化学习不需要和环境交互,直接利用已有的离线数据进行训练,但这种范式训练的智能体会受限于离线数据的质量和覆盖范围。

基于此,研究者提出了离线到在线强化学习(Offline-to-onlineRL)训练范式,先利用已有的离线数量训练得到离线策略,然后将其应用到在线环境进行少量步数的微调。这种范式相比于前两者,一方面通过收集少量的在线数据,能够突破离线数据的限制,更贴近实际场景;另一方面在线阶段的微调是以离线策略为起点,相比于从零开始的在线强化学习,只需要非常少量的交互就能快速收敛。这一研究领域主要研究两个问题,一个是分布偏移引起的性能下降,就是如果直接将离线策略应用到在线环境进行微调,会在微调初期出现性能的急剧下降;另一个是在线优化效率,由于在线交互的开销很大,需要用尽可能少的交互次数实现尽可能大的性能提升,这两者可以归结于稳定性和高效性。

在IJCAI2024上,哔哩哔哩人工智能平台部联合天津大学将集成Q网络(Q-ensembles)引入到离线到在线强化学习训练范式中,提出了基于集成网络的离线到在线强化学习训练框架(ENsemble-basedOffline-To-OnlineRL,ENOTO)。ENOTO以集成Q网络为基础,充分利用其衡量的不确定性来稳定两个阶段的过渡和鼓励在线探索,可以结合多种强化学习算法作为基线算法,在离线到在线强化学习设定下提升稳定性和学习效率,具有较好的泛用性。团队在强化学习的经典环境MuJoCo、AntMaze任务和多种质量的数据集上对ENOTO进行了广泛的实验验证,和以往的离线到在线强化学习算法相比,很大程度地提升了稳定性和学习效率,在大部分数据集上的累积收益提升约有10%-25%。

02动机

对于早期的离线强化学习算法,如ConservativeQ-Learning(CQL)[1],会显式惩罚分布外样本的Q值,鼓励策略选择数据集内的动作,而这种思想在DoubleDQN中就有提到。因此我们可以将这里的Q网络从2个增加到N个,这就是集成Q网络。令人惊讶的是,这种简单的改变对于离线到在线强化学习的提升却是非常明显的。我们首先进行了一项验证性实验,使用CQL这个被广泛认可的代表性离线强化学习算法作为基线算法,在经典的强化学习环境MuJoCo上进行实验,实验结果如图1所示。离线到在线强化学习训练有两种很简单的方法,一个是在线阶段继续复用离线强化学习算法,也就是这里的CQL→CQL,但由于离线强化学习算法的保守性,在线优化效率会很低,即图1(a)中的红线;另一个是切换到在线强化学习算法,也就是CQL→SAC[2],但是这种目标函数的切换会导致性能波动,即图1(a)中的橙线。而引入集成Q网络后,CQL-N→SAC-N算法可以在确保稳定性的同时,提升一定的学习效率,即图1(a)中的黑线。

我们还可以通过可视化的方式来分析集成Q网络的优势。首先我们将CQL→SAC和CQL-N→SAC-N在在线微调阶段的Q值变化过程进行可视化,如图1(b)所示,CQL→SAC这样直接切换优化目标的方式确实会导致Q值的高估并且非常不稳定,而引入集成Q网络之后,由于SAC-N仍然具有保守低估Q值的能力,其相比于SAC算法的Q值也就会偏小并且保持相对稳定的变化。

值得注意的是,CQL-N→SAC-N不仅能够相比于CQL→SAC提升稳定性,实现稳定的离线到在线强化学习训练,而且相比于CQL→CQL还能提升一定的学习效率。针对这一现象,我们通过分析SAC-N和CQL在在线微调阶段的动作选择区间来进行解释说明。具体来说,我们比较了SAC-N、CQL和随机策略在在线微调过程中采取的动作相比于离线数据集内动作的距离。结果如图1(c)所示,SAC-N能够比CQL选择更广范围的动作,这意味着CQL-N→SAC-N能够在在线微调过程中进行更充分的探索,也就有着更高的学习效率。

03方法

ENOTO框架可以细化为三步渐进式的优化,仍然在经典的强化学习环境MuJoCo上进行实验,但这里展示的是在所有任务和数据集上的综合结果,如图2所示。

第一步,在已有离线强化学习算法的基础上,我们使用集成Q网络连接离线训练阶段和在线微调阶段,将离线阶段算法和在线阶段算法中使用的Q网络拓展为N个,然后选择所有Q网络中的最小值作为最终的目标Q值进行更新。这一步的主要目的是利用集成Q网络提升过渡阶段的稳定性,当然也提升了一定的学习效率。

第二步,在确保稳定性的基础上,我们考虑提升在线优化效率。第一步的目标Q值计算方法使用的MinQ,也就是N个Q网络选最小值作为目标Q值,但是这种方法对于在线强化学习来说还是太过保守,因此我们又研究了另外几种目标值计算方法,经过实验比较最终选择WeightedMinPair作为ENOTO的目标Q值计算方式。

第三步,我们还可以利用集成Q网络的不确定性来鼓励在线阶段的探索,进一步提升学习效率。具体来说,我们使用集成Q网络的标准差来衡量不确定性,在选择动作时不仅会考虑Q值的大小,还会考虑不确定性的大小,通过超参数调整权重来选择出最终的动作。因为见得少的动作的Q值估计不准,不确定性也会更大,这就是ENOTO中基于不确定性的在线探索方法。

如图3所示,ENOTO框架和经典离线到在线强化学习训练范式的框架相同,也分为离线训练和在线微调两个阶段。首先在离线训练阶段,以离线强化学习算法为基础,通过引入集成Q网络,利用已有的离线数据集训练得到1个策略网络和N个Q网络;然后在线阶段迁移离线阶段的策略网络和Q网络作为在线微调的起始状态,在确保稳定性的同时,仍然基于集成Q网络进行设计,通过使用新的目标Q值计算方法和基于不确定性的在线探索方法来提升在线微调阶段的学习效率。整个ENOTO框架以集成Q网络贯穿始终,通过多种训练机制的设计实现了稳定高效的离线到在线强化学习训练。

04实验

我们首先选择强化学习领域广泛使用的MuJoCo(Multi-JointdynamicswithContact)[3]作为验证算法的实验环境,在其中的三种运动控制任务HalfCheetah、Walker2d、Hopper进行实验验证。作为离线到在线强化学习训练范式的第一阶段,离线训练需要有离线数据,我们使用离线强化学习领域广泛使用的D4RL(DatasetsforDeepData-DrivenReinforcementLearning)[4]数据集用于离线训练,并且为了证明方法的泛用性,我们选择了不同质量的离线数据集进行实验验证,包括medium、medium-replay、medium-expert这三类离线数据集。对于baseline,我们选择了离线到在线强化学习研究领域中的经典算法、性能优异算法以及一些在线强化学习算法进行比较。

然后,我们在难度更高的导航任务AntMaze上进行实验验证。具体来说,我们使用AntMaze任务中三种不同难度的迷宫进行实验,包括umaze、medium、large,三种迷宫从易到难,能够从不同层面检验算法的各项指标。而作为用于离线训练的离线数据集,我们同样使用D4RL数据集。在D4RL数据集中收集了两类的AntMaze数据:play和diverse。因此,我们在AntMaze任务的large-diverse、large-play、medium-diverse、medium-play、umaze-diverse和umaze这6个数据集上进行实验验证。同时,为了验证ENOTO对于多种基线算法的适配性,我们在这里使用ENOTO-LAPO(ENOTO在LAPO[10]上的实例化)进行实验。由于Antmaze是一个更具挑战性的任务,大多数离线强化学习方法在离线阶段难以取得令人满意的结果,因此我们仅将我们的ENOTO-LAPO方法与三个有效的基线方法(IQL、PEX和Cal-QL)在此任务上进行比较。

图5展示了ENOTO-LAPO和基线方法在在线微调阶段的性能表现。首先,LAPO在离线阶段表现优于IQL,为在线阶段提供了更高的起点,特别是在umaze和mediummaze环境中,它几乎达到了性能上限。而在线微调阶段由于离线策略的约束,IQL表现出较慢的渐近性能。基于IQL,PEX通过引入从头训练的新策略增强了探索程度,但这些策略在早期在线阶段的强随机性导致了性能下降。需要注意的是,尽管IQL和PEX具有相同的起点,PEX在大多数任务中表现出更严重的性能下降。关于Cal-QL算法,类似于原始论文中描述的结果,它在Antmaze环境中表现出强劲的性能,显著优于其在MuJoCo环境中的表现。值得注意的是,与基线方法IQL和PEX相比,Cal-QL展示了更好的稳定性和学习效率。对于我们提出的ENOTO框架,我们证明了ENOTO-LAPO不仅可以提升离线性能,还能在保持离线性能不下降的情况下,实现稳定且快速的性能提升。

05总结

本项工作在离线到在线强化学习中引入了集成Q网络作为训练机制,通过构建多个Q值估计网络来捕捉不同数据分布偏移情况下的多样性,提出了ENOTO训练框架。在离线训练阶段,ENOTO让集成Q网络从离线数据中学习多个Q值估计,以适应不同数据分布偏移情况,然后在在线微调阶段整合多个Q值估计,生成稳健的在线策略。在确保稳定性的基础上,我们重新设计了目标Q值计算方法,以在保持稳定性的同时提升学习效率。此外,我们利用Q值的不确定性信息,鼓励智能体探索不确定性较高的动作,从而更快地发现高性能策略。实验结果表明,ENOTO在强化学习经典环境MuJoCo和AntMaze上不仅可以提升离线性能,还能在保持离线性能不下降的情况下,实现稳定且快速的性能提升。这种方法使得离线智能体能够快速适应现实环境,提供高效且有效的在线微调。

参考文献

[1]KumarA,ZhouA,TuckerG,etal.Conservativeq-learningforofflinereinforcementlearning[J].AdvancesinNeuralInformationProcessingSystems,2020,33:1179-1191.

[2]HaarnojaT,ZhouA,HartikainenK,etal.Softactor-criticalgorithmsandapplications[J].arXivpreprintarXiv:1812.05905,2018.

[3]TodorovE,ErezT,TassaY.Mujoco:Aphysicsengineformodel-basedcontrol[C]//2012IEEE/RSJinternationalconferenceonintelligentrobotsandsystems.IEEE,2012:5026-5033.

[4]FuJ,KumarA,NachumO,etal.D4rl:Datasetsfordeepdata-drivenreinforcementlearning[J].arXivpreprintarXiv:2004.07219,2020.

[5]KostrikovI,NairA,LevineS.Offlinereinforcementlearningwithimplicitq-learning[J].arXivpreprintarXiv:2110.06169,2021.

[6]NairA,GuptaA,DalalM,etal.Awac:Acceleratingonlinereinforcementlearningwithofflinedatasets[J].arXivpreprintarXiv:2006.09359,2020.

[7]LeeS,SeoY,LeeK,etal.Offline-to-onlinereinforcementlearningviabalancedreplayandpessimisticq-ensemble[C]//ConferenceonRobotLearning.PMLR,2022:1702-1712.

[8]ZhangH,XuW,YuH.Policyexpansionforbridgingoffline-to-onlinereinforcementlearning[J].arXivpreprintarXiv:2302.00935,2023.

[9]NakamotoM,ZhaiS,SinghA,etal.Cal-ql:Calibratedofflinerlpre-trainingforefficientonlinefine-tuning[J].AdvancesinNeuralInformationProcessingSystems,2024,36.

[10]ChenX,GhadirzadehA,YuT,etal.Lapo:Latent-variableadvantage-weightedpolicyoptimizationforofflinereinforcementlearning[J].AdvancesinNeuralInformationProcessingSystems,2022,35:36902-36913.

THE END
1.chatgpt在线和本地部署区别4、本地部署离线chatgpt 5、chatgpt本地部署区别 chatgpt在线和本地部署区别 ChatGPT是OpenAI开发的一种自然语言处理模型,它可以创建一个对话式AI助手,能够实现与用户进行交互的功能。ChatGPT可以在线部署,也可以进行本地部署。本文将重点讨论ChatGPT在线部署和本地部署之间的区别。 http://chatgpt.cmpy.cn/article/1757675.html
2.QQ在线状态与网络状态显示背后的机制解析食用农产品2、网络延迟和不稳定:网络环境的复杂性和不稳定性可能导致服务器接收到的用户信息存在延迟或丢失,用户在断网或网络波动时,虽然客户端可能仍显示在线,但服务器可能已经收到了离线信号。 3、用户设置与隐私保护:QQ允许用户根据自己的需求设置在线状态,为了保护用户隐私,QQ也会对一些在线状态的显示进行限制,如隐身或其他https://bbs.wxqylk.com/post/78.html
3.实时在线状态:基于心跳机制的状态检测什么是实时在线状态? 实时在线状态是指能够及时准确地反映用户当前的在线信息。在一个复杂的网络环境中,确保在线状态的实时准确需要一种可靠的机制进行检测,这就是心跳机制。 二、 心跳机制是什么? 什么是心跳? 心跳是一种周期性的信号,常用于监测和确定设备或应用程序是否处于活动状态。类似于人体心脏的跳动,心跳信号https://www.jianshu.com/p/29e0e613ac94
4.探究4G在线与2G在线的区别与差异玩具销售“在线”标识也将随着网络技术的发展而不断升级和变化,我们可以期待在不远的将来看到更多的在线状态标识,如5G在线、WIFI在线等,这些新的在线状态标识将为我们带来更快的数据传输速度、更低的延迟和更稳定的网络连接体验,这将使我们能够更好地享受移动互联网带来的便利和乐趣。http://www.torytoys.com/post/4407.html
5.无网通信原理分析/应用到底什么是 “无网通信”? 原创 小枣君 鲜枣课堂 2024 年 10 月 30 日 18:18 江苏 最近智能手机市场迎来了一波发布热潮,在发布会现场,厂商们展示了令人眼花缭乱的各种参数和概念。其中,有一个名词,成功吸引了小枣君的注意,那就是 ——无网通信。 https://blog.csdn.net/u013669912/article/details/144280435
6.www.zhilitong.net/moken12848.html将所有水果切块放入一个大盆中,倒入红酒和糖,搅匀后在冰箱里放置两个小时,等酒完全浸入水果,就可以了。酒中有水果的甜味,餐前喝非常开胃;水果中渗透着酒香,当作餐后甜品营养丰富,热量又不高,是女性的最爱。当然,水果和酒的选择可以多种多样,多摸索几次,就会发现最适合的搭配。https://www.zhilitong.net/moken12848.html
7.www.jjcjhq.com/aplhtml70513.htmpr社在线看 迈开腿让我的坤坤桶你的小?莓漫画 198.60MB 693好评 654好评 太久无码人妻 开鲍在线看 315.91MB 999好评 美国一级毛片子 国产A级又硬又长视频 无码比比 201.62MB 747好评 恩~啊~要~jj欧美性爱 在线母乳潮吹 62102.соm查询 九九九熟女中东网 http://www.jjcjhq.com/aplhtml70513.htm
8.什么叫在线测量?什么叫离线测量?什么叫在线测量?什么叫离线测量?风枫 测量员考试 精选回答 离线测试=本地测试。测试结果一般和在线测试有些区别。主要测试功能是否完善,是否有明显的Bug,属于“内测”吧。在线测试、属于“公测”形式。可以找更多的人来测试。发现的问题会更多。然后服务器的因素可能在你本地测试没有问题的,但是在服务器却出现了https://m.edu.iask.sina.com.cn/jy/2VJkVlaFZxd.html
9.它来了!机动车检验合格标志电子凭证!检验标志电子凭证分为3个出示方式,以便利于机动车所有人和驾驶人在不同场景的使用。 1.在线出示 手机直接登录“交管12123”APP,在线实时生成检验标志电子凭证。 2.离线出示 提前将检验电子凭证截图或者下载保存在手机上,使用时直接出示,简单便捷快速。 3.打印出示 http://www.360che.com/law/200623/149500.html
10.www.psm99.com/aplhtml76553.htm五,众筹高价艾栗栗5P在线,御姐性爱网 六,扣逼狂草大奶啪啪啪捆绑调教玩弄,美式忌讳4集 七,媚黑插穴 【联系我们】 客服热线:133-2881-646 加载更多 版本更新 V7.20.12 美女隐私认男人捅爽个够 江苏老熟女露脸 动漫鸡巴 大肉插穴 小舞被调教成奴仆舞小黄书 http://www.psm99.com/aplhtml76553.htm
11.什么叫离线开票限额离线开票限额是指在没有连接互联网或税局系统的情况下,税务部门允许纳税人开具发票的最高金额限制。这一限制是为了规范发票管理、防止税收流失而设定的。 一、离线开票限额的设定原因 税务部门根据企业的纳税情况https://lvlin.baidu.com/question/756916106619912332.html
12.qq离线是什么意思?手机资讯手机功能手机知识qq离线是什么意思?2024-12-06 16:10:18 科技小磊 陕西 举报 0 分享至 0:00 / 0:00 速度 洗脑循环 Error: Hls is not supported. 视频加载失败 科技小磊 4粉丝 专注各类软件、APP操作,硬件数码实用技巧分享!(坚持日更10年) 02:28 360壁纸屏保怎么彻底关闭? 00:46 如何查看电脑ip地址? 01:19 https://www.163.com/v/video/VGHQB0S2L.html
13.www.liweihb.com/aplpage99398.html小瓦格纳本赛季打出了全明星甚至最佳阵容的水平,他场均33.2分钟得到24.4分、5.6个篮板、5.7次助攻、1.7次抢断,投篮命中率46.5%。魔术另一位核心保罗-班凯罗因为同样的伤病(右斜方肌撕裂)自从10月30日缺席至今。但小瓦格纳单核带队撑起了魔术,在班凯罗缺席的20场比赛,小瓦格纳场均得到26.1分、6个篮板、6.3次助攻,https://www.liweihb.com/aplpage99398.html
14.公共服务平台(纸质发票篇)热点问答,都在这!除按照有关规定不使用网络办税或不具备网络条件的特定纳税人外,纳税人应在互联网连接状态下在线使用增值税发票开票软件(税务UKey版)。因网络故障等原因无法在线开票的,在税务机关设定的离线开票时限和离线开具发票总金额范围内仍可开票,超限将无法开具发票。 https://hainan.chinatax.gov.cn/ssxc_3_36_1/20119988.html
15.quinovare.com/xxxr84821217<!DOCTYPE/764635.html国产毛片在线看国产 18性禁区离线免费观看网站 91九色官方 45.73MB 6575好评 孟超雷电将军的小穴 原神神里绫华开襟乳液狂飙 非洲一级性爱手机观看 19.25MB 68好评 东北老妓女啪啪嗷嗷叫HD yes4444视频在线观看 亚洲三级片电影 618.80MB 16好评 jizzjizz女人水多护士 农村人操逼视频播放小说 新城http://quinovare.com/xxxr84821217%3C!DOCTYPE/764635.html
16.blog.ainimemeda.com/soun/817517.html国产原创av剧情在线观看 女尸pkf尸交 videos?强行rape www.youj?zzcom 越南女烈刑讯 黑人黄色网站 艹逼动态图 校花被扒开腿用震蛋器视频 久久久毛片无码免费收看 我想看九幺A级毛片免费的 洪晓芸写真视频二c 帅哥无遮挡 老年一级BBB片离线播放 中国丰满熟妇熟女俱乐部操逼视频 欧洲成年人网站在http://blog.ainimemeda.com/soun/817517.html
17.什么叫离线文件离线下载的文件!https://wenwen.soso.com/z/q405216472.htm
18.老师,什么叫离线发票呢,是什么意思呢税务财税问提问,UKey可以离线开专用发票和普票吗?有限定金额吗?以后需要手动上传离线发票吗?https://www.chinaacc.com/wenda/detail/xt/1784563
19.暗黑2steam叫什么暗黑破坏神2重制版离线版白嫖经验总结导读暗黑破坏神2重制版离线版白嫖经验总结是一篇关于暗黑2Steam叫什么以及离线版的心得总结,随着暗黑破坏神系列的经典重制,玩家们对于这款游戏的期待也逐渐升温。而对于那些希望能够免费畅玩游戏的玩家来说,离 暗黑破坏神2重制版离线版白嫖经验总结是一篇关于暗黑2Steam叫什么以及离线版的心得总结,随着暗黑破坏神系https://www.9game.cn/news/9582032.html
20.python的ubuntu离线安装包叫什么ubuntu离线安装软件deb文件1.1 离线安装(deb文件格式安装) deb文件格式是 Ubuntu 的安装包格式,可以使用dpkg命令进行软件的安装和卸载。 dpkg命令选项: dpkg命令效果图: 1.2 在线安装(apt-get方式安装) 是在线安装deb软件包的命令,主要用于在线从互联网的软件仓库中搜索、安装、升级、卸载软件。 https://blog.51cto.com/u_19261/8967384
21.日产精品一线二线三线芒果Windows野外MGDRCC:投入探险的激情与虽然《Windows野外mgdrcc》主要依赖联网功能进行游戏,但玩家在离线状态下也可以进行一些基础的建设和活动。例如,玩家可以提前收集资源、建造庇护所或制作一些基本的工具和药品。然而,要想真正体验游戏的全部内容和功能,还是需要在线上进行游戏。因为许多元素都是在线动态更新的,离线游玩可能会错过一些重要的更新和活动。 http://app.zzj1234.cc/yxzx/21895.html
22.szyjxcl.com/soun/097971.html风间由美大战黑人的原名叫什么 hs网站原创在线观看 中文那片一级片中国的片一级片中文一遍一级片怎么能变一变 成人免费毛片?东京热 在线免费观看日韩三级片 老年一级BBB片离线播放 43417大但人文艺术 91熟女视频 看免费黄片瓶子干 国产看黄网站又黄又爽又色 欧美同性恋猛男大鸡巴又长又粗,喷射http://szyjxcl.com/soun/097971.html