基于集成网络的离线到在线强化学习

强化学习(ReinforcementLearning,RL)有两种基础的训练范式:在线强化学习(OnlineRL)和离线强化学习(OfflineRL)。在线强化学习需要让智能体和环境进行交互,利用收集到的数据同步进行训练,但在环境中进行探索的开销很大;离线强化学习不需要和环境交互,直接利用已有的离线数据进行训练,但这种范式训练的智能体会受限于离线数据的质量和覆盖范围。

基于此,研究者提出了离线到在线强化学习(Offline-to-onlineRL)训练范式,先利用已有的离线数量训练得到离线策略,然后将其应用到在线环境进行少量步数的微调。这种范式相比于前两者,一方面通过收集少量的在线数据,能够突破离线数据的限制,更贴近实际场景;另一方面在线阶段的微调是以离线策略为起点,相比于从零开始的在线强化学习,只需要非常少量的交互就能快速收敛。这一研究领域主要研究两个问题,一个是分布偏移引起的性能下降,就是如果直接将离线策略应用到在线环境进行微调,会在微调初期出现性能的急剧下降;另一个是在线优化效率,由于在线交互的开销很大,需要用尽可能少的交互次数实现尽可能大的性能提升,这两者可以归结于稳定性和高效性。

在IJCAI2024上,哔哩哔哩人工智能平台部联合天津大学将集成Q网络(Q-ensembles)引入到离线到在线强化学习训练范式中,提出了基于集成网络的离线到在线强化学习训练框架(ENsemble-basedOffline-To-OnlineRL,ENOTO)。ENOTO以集成Q网络为基础,充分利用其衡量的不确定性来稳定两个阶段的过渡和鼓励在线探索,可以结合多种强化学习算法作为基线算法,在离线到在线强化学习设定下提升稳定性和学习效率,具有较好的泛用性。团队在强化学习的经典环境MuJoCo、AntMaze任务和多种质量的数据集上对ENOTO进行了广泛的实验验证,和以往的离线到在线强化学习算法相比,很大程度地提升了稳定性和学习效率,在大部分数据集上的累积收益提升约有10%-25%。

02动机

对于早期的离线强化学习算法,如ConservativeQ-Learning(CQL)[1],会显式惩罚分布外样本的Q值,鼓励策略选择数据集内的动作,而这种思想在DoubleDQN中就有提到。因此我们可以将这里的Q网络从2个增加到N个,这就是集成Q网络。令人惊讶的是,这种简单的改变对于离线到在线强化学习的提升却是非常明显的。我们首先进行了一项验证性实验,使用CQL这个被广泛认可的代表性离线强化学习算法作为基线算法,在经典的强化学习环境MuJoCo上进行实验,实验结果如图1所示。离线到在线强化学习训练有两种很简单的方法,一个是在线阶段继续复用离线强化学习算法,也就是这里的CQL→CQL,但由于离线强化学习算法的保守性,在线优化效率会很低,即图1(a)中的红线;另一个是切换到在线强化学习算法,也就是CQL→SAC[2],但是这种目标函数的切换会导致性能波动,即图1(a)中的橙线。而引入集成Q网络后,CQL-N→SAC-N算法可以在确保稳定性的同时,提升一定的学习效率,即图1(a)中的黑线。

图1集成Q网络在离线到在线强化学习训练框架中的验证性实验

我们还可以通过可视化的方式来分析集成Q网络的优势。首先我们将CQL→SAC和CQL-N→SAC-N在在线微调阶段的Q值变化过程进行可视化,如图1(b)所示,CQL→SAC这样直接切换优化目标的方式确实会导致Q值的高估并且非常不稳定,而引入集成Q网络之后,由于SAC-N仍然具有保守低估Q值的能力,其相比于SAC算法的Q值也就会偏小并且保持相对稳定的变化。

值得注意的是,CQL-N→SAC-N不仅能够相比于CQL→SAC提升稳定性,实现稳定的离线到在线强化学习训练,而且相比于CQL→CQL还能提升一定的学习效率。针对这一现象,我们通过分析SAC-N和CQL在在线微调阶段的动作选择区间来进行解释说明。具体来说,我们比较了SAC-N、CQL和随机策略在在线微调过程中采取的动作相比于离线数据集内动作的距离。结果如图1(c)所示,SAC-N能够比CQL选择更广范围的动作,这意味着CQL-N→SAC-N能够在在线微调过程中进行更充分的探索,也就有着更高的学习效率。

03方法

ENOTO框架可以细化为三步渐进式的优化,仍然在经典的强化学习环境MuJoCo上进行实验,但这里展示的是在所有任务和数据集上的综合结果,如图2所示。

图2ENOTO的三步渐进式优化

第一步,在已有离线强化学习算法的基础上,我们使用集成Q网络连接离线训练阶段和在线微调阶段,将离线阶段算法和在线阶段算法中使用的Q网络拓展为N个,然后选择所有Q网络中的最小值作为最终的目标Q值进行更新。这一步的主要目的是利用集成Q网络提升过渡阶段的稳定性,当然也提升了一定的学习效率。

第二步,在确保稳定性的基础上,我们考虑提升在线优化效率。第一步的目标Q值计算方法使用的MinQ,也就是N个Q网络选最小值作为目标Q值,但是这种方法对于在线强化学习来说还是太过保守,因此我们又研究了另外几种目标值计算方法,经过实验比较最终选择WeightedMinPair作为ENOTO的目标Q值计算方式。

第三步,我们还可以利用集成Q网络的不确定性来鼓励在线阶段的探索,进一步提升学习效率。具体来说,我们使用集成Q网络的标准差来衡量不确定性,在选择动作时不仅会考虑Q值的大小,还会考虑不确定性的大小,通过超参数调整权重来选择出最终的动作。因为见得少的动作的Q值估计不准,不确定性也会更大,这就是ENOTO中基于不确定性的在线探索方法。

图3ENOTO框架

如图3所示,ENOTO框架和经典离线到在线强化学习训练范式的框架相同,也分为离线训练和在线微调两个阶段。首先在离线训练阶段,以离线强化学习算法为基础,通过引入集成Q网络,利用已有的离线数据集训练得到1个策略网络和N个Q网络;然后在线阶段迁移离线阶段的策略网络和Q网络作为在线微调的起始状态,在确保稳定性的同时,仍然基于集成Q网络进行设计,通过使用新的目标Q值计算方法和基于不确定性的在线探索方法来提升在线微调阶段的学习效率。整个ENOTO框架以集成Q网络贯穿始终,通过多种训练机制的设计实现了稳定高效的离线到在线强化学习训练。

04实验

我们首先选择强化学习领域广泛使用的MuJoCo(Multi-JointdynamicswithContact)[3]作为验证算法的实验环境,在其中的三种运动控制任务HalfCheetah、Walker2d、Hopper进行实验验证。作为离线到在线强化学习训练范式的第一阶段,离线训练需要有离线数据,我们使用离线强化学习领域广泛使用的D4RL(DatasetsforDeepData-DrivenReinforcementLearning)[4]数据集用于离线训练,并且为了证明方法的泛用性,我们选择了不同质量的离线数据集进行实验验证,包括medium、medium-replay、medium-expert这三类离线数据集。对于baseline,我们选择了离线到在线强化学习研究领域中的经典算法、性能优异算法以及一些在线强化学习算法进行比较。

图4MuJoCo实验结果

然后,我们在难度更高的导航任务AntMaze上进行实验验证。具体来说,我们使用AntMaze任务中三种不同难度的迷宫进行实验,包括umaze、medium、large,三种迷宫从易到难,能够从不同层面检验算法的各项指标。而作为用于离线训练的离线数据集,我们同样使用D4RL数据集。在D4RL数据集中收集了两类的AntMaze数据:play和diverse。因此,我们在AntMaze任务的large-diverse、large-play、medium-diverse、medium-play、umaze-diverse和umaze这6个数据集上进行实验验证。同时,为了验证ENOTO对于多种基线算法的适配性,我们在这里使用ENOTO-LAPO(ENOTO在LAPO[10]上的实例化)进行实验。由于Antmaze是一个更具挑战性的任务,大多数离线强化学习方法在离线阶段难以取得令人满意的结果,因此我们仅将我们的ENOTO-LAPO方法与三个有效的基线方法(IQL、PEX和Cal-QL)在此任务上进行比较。

图5AntMaze实验结果

图5展示了ENOTO-LAPO和基线方法在在线微调阶段的性能表现。首先,LAPO在离线阶段表现优于IQL,为在线阶段提供了更高的起点,特别是在umaze和mediummaze环境中,它几乎达到了性能上限。而在线微调阶段由于离线策略的约束,IQL表现出较慢的渐近性能。基于IQL,PEX通过引入从头训练的新策略增强了探索程度,但这些策略在早期在线阶段的强随机性导致了性能下降。需要注意的是,尽管IQL和PEX具有相同的起点,PEX在大多数任务中表现出更严重的性能下降。关于Cal-QL算法,类似于原始论文中描述的结果,它在Antmaze环境中表现出强劲的性能,显著优于其在MuJoCo环境中的表现。值得注意的是,与基线方法IQL和PEX相比,Cal-QL展示了更好的稳定性和学习效率。对于我们提出的ENOTO框架,我们证明了ENOTO-LAPO不仅可以提升离线性能,还能在保持离线性能不下降的情况下,实现稳定且快速的性能提升。

05总结

本项工作在离线到在线强化学习中引入了集成Q网络作为训练机制,通过构建多个Q值估计网络来捕捉不同数据分布偏移情况下的多样性,提出了ENOTO训练框架。在离线训练阶段,ENOTO让集成Q网络从离线数据中学习多个Q值估计,以适应不同数据分布偏移情况,然后在在线微调阶段整合多个Q值估计,生成稳健的在线策略。在确保稳定性的基础上,我们重新设计了目标Q值计算方法,以在保持稳定性的同时提升学习效率。此外,我们利用Q值的不确定性信息,鼓励智能体探索不确定性较高的动作,从而更快地发现高性能策略。实验结果表明,ENOTO在强化学习经典环境MuJoCo和AntMaze上不仅可以提升离线性能,还能在保持离线性能不下降的情况下,实现稳定且快速的性能提升。这种方法使得离线智能体能够快速适应现实环境,提供高效且有效的在线微调。

THE END
1.推荐算法中的在线学习和离线学习有何区别,各自的优缺点是什么在实际应用中,可以根据具体的场景需求来选择在线学习或离线学习,也可以结合两者的优势进行混合使用。例如,在推荐系统中可以使用离线学习来训练初始模型,在线学习来实时更新模型参数,以实现更好的推荐效果和用户体验。 综上所述,在线学习和离线学习各有优缺点,具体选择取决于应用场景和需求。0https://www.mbalib.com/ask/question-ec5c1bbee149c6534d0a725ffdb15235.html
2.在线学习与离线学习离线和在线学习方法机器学习算法可以分成两类。离线学习和在线学习。 在离线学习算法中,我们会有一个训练集,这个训练集包含多个训练实例。每个训练实例都认为是以某个概率分布从实例空间中独立同分布地抽取。我们的目标是根据这个训练样本构造一个分类器,使得其真正训练错误最小。‘ https://blog.csdn.net/hedan2013/article/details/78011600
3.强化学习的基本概念在线学习和离线学习针对的是在强化学习模型在训练过程中交互数据的使用方式。在线学习的强化学习模型,会在一个交互之后,立即用本次交互得到的经验进行训练。而离线学习的强化学习模型,往往是先将多个交互的经验存储起来,然后在学习的时候,从存储的经验中取出一批交互经验来学习。 https://www.jianshu.com/p/28625d3a60e6
4.行为强化对儿童和成人的在线和离线动作学习的影响这些结果可能与年龄相关的大脑成熟有关,儿童大脑的可塑性比成人更高,有更大的潜力提高自身的行为表现。另外,平均6小时的离线学习或平均12小时的离线学习都可能帮助儿童大脑进行动作记忆的整理、动作巩固和动作技能的迁移。本文将围绕行为强化在动作在线学习和离线学习的意义上进行讨论。https://cdmd.cnki.com.cn/Article/CDMD-10590-1017812152.htm
5.在线学习课程PADIPADI 在线水肺培训 无论何时何地,只要您都可根据自己的安排开始您的数字化潜水培训。 在繁忙的生活中,PADI 在线学习是完成水肺潜水课程的最简单的方式。 您可以使用电脑或移动设备,自行安排在线或离线学习。 准备就绪后,随时开始安排水下训练。查看在线课程 https://www.padi.com/zh-hans/padi-elearning
6.和学在线App排行榜华为手机和学在线app推荐学堂云移动端为学生们提供学习支持,覆盖学生线上学习的每个环节。在这里,你可以观看教学视频、完成作业,同时还能查看公告、讨论答疑。云端同步记录学习进度,帮助你掌握学习动态,反馈学习疑惑。【公告同步】教师可发布并置顶公告,公告显示在课程页上方,不用担心错过重要公告,随时掌握课程动态。【视频离线】支持学生将视频https://www.diandian.com/phb/1392/2-1.html
7.学习公社APP操作手册在无网络时学员可点击导航栏【个人】,选择离线缓存,找到此视频,进行观看。进入有网络的环境中,再次打开学习公社app,观看的学时会自动上传更新。 九、帮助中心 点击导航栏【个人】,选择帮助中心,可以选择留言咨询、在线客服或者服务电话。 十、设置 点击导航栏【个人】,选择设置,可对app设置进行浏览和修改。https://jgdw.ccit.edu.cn/info/1027/1157.htm
8.推荐系统遇上深度学习(十四)1)提出了一种强化学习的框架用于在线新闻的个性化推荐 2)使用用户活跃度作为一种新的反馈,来提高推荐的准确性 3)使用了一种更加高效的探索算法:Dueling Bandit Gra- dient Descent 4)模型可以进行在线学习和更新,在离线和在线实验上的表现都超过了传统的算法。 https://cloud.tencent.com/developer/article/1164769
9.学习中心离线版v2.0.2下载学习中心离线版2022最新版下载学习中心离线版是一款学习软件,它包含了许多我们生活中需要用到的功能。这款软件拥有简洁的界面,但是它的功能很强大。我们无论是在日常生活中还是在办公的过程当中,都可以使用这款软件作为我们的工具。 软件简介 学习中心离线版官方版是一款十分专业且内容丰富实用的在线学习软件,学习中心离线版官方版支持离线学习功能,https://soft.3dmgame.com/down/230487.html
10.美河学习在线美河学习在线(主站) eimhe.com?论坛 今日:177|昨日:128|帖子:355193|会员:223943|欢迎新会员:hxy1664 最新回复 下载桌面快捷访问 美河学习在线 www.eimhe.com - IT认证超级社区 更多IT认证热门资源请访问 美河学习在线 - 完美超乎想象 信赖拥有值得! https://eimhe.com/
11.离线强化学习在线强化学习分类离线训练平台离线强化学习 在线强化学习 分类 离线训练平台,Apollo无人驾驶平台的离线搭建与使用1.准备工作2.安装相关依赖环境2.1安装ubuntu16.042.2安装ROS环境2.3安装docker2.4加载docker的镜像3.使用Apollo仿真平台3.1启动并进入docker3.2编译与运行对于学习无人驾驶的人来说,apollhttps://blog.51cto.com/u_12195/10796191
12.争学网官方版争学网最新版下载2.1.27无论是想提升职业技能、学习兴趣爱好,还是备考各类考试,争学网都能为用户提供丰富的学习资源。 软件特色 1、提供在线测试的综合服务,是能评估用户学习效果的; 2、记录用户学习历史,方便用户复习和追溯的一个程序; 3、每个课程都是由专业人员设计,具有很高的质量。 软件功能 1、软件能支持在线学习和离线下载,让用户https://www.qimu86.com/soft/66139.html
13.线上线下融合教学的优势不足与发展策略内容首先,在教学方式上:以信息网络的学习平台为载体,以现代信息技术为媒介,依靠手机,平板电脑等个人智能终端设备,实现线上线下学习与线下的交互学习。学习内容:根据时间分为课前准备,课中教学和课后辅导三个阶段;按空间分为在线和离线;按照对知识点的解释,重构,将学习分解为学习,内化和外化三个阶段,全方位传授学习内容;https://tpd.xhedu.sh.cn/cms/app/info/doc/index.php/92024
14.全国碳交易能力建设培训中心在线学习平台全国碳交易能力建设培训中心在线学习平台共提供5大类、100余个碳市场能力建设相关教学视频,支持PC和移动端的高稳定性在线、离线访问,提供高互动、高分享性的学习体验,并配合能力建http://www.tanpaifang.com/tanguwen/2019/0730/64899.html
15.高校学习系统在线学习平台自考乐是一个高校在线学习平台,以大数据和智能化应用为发展路径,综合运用先进成熟的互联网技术,实现广大学生与学习内容、专业课程和知识结构上的精准匹配,能够为各高校定制性能优越、操作便捷、师生欢迎的学习培训平台。 电话:18580070692https://www.zsbxx.cn/