基于集成网络的离线到在线强化学习

强化学习(ReinforcementLearning,RL)有两种基础的训练范式:在线强化学习(OnlineRL)和离线强化学习(OfflineRL)。在线强化学习需要让智能体和环境进行交互,利用收集到的数据同步进行训练,但在环境中进行探索的开销很大;离线强化学习不需要和环境交互,直接利用已有的离线数据进行训练,但这种范式训练的智能体会受限于离线数据的质量和覆盖范围。

基于此,研究者提出了离线到在线强化学习(Offline-to-onlineRL)训练范式,先利用已有的离线数量训练得到离线策略,然后将其应用到在线环境进行少量步数的微调。这种范式相比于前两者,一方面通过收集少量的在线数据,能够突破离线数据的限制,更贴近实际场景;另一方面在线阶段的微调是以离线策略为起点,相比于从零开始的在线强化学习,只需要非常少量的交互就能快速收敛。这一研究领域主要研究两个问题,一个是分布偏移引起的性能下降,就是如果直接将离线策略应用到在线环境进行微调,会在微调初期出现性能的急剧下降;另一个是在线优化效率,由于在线交互的开销很大,需要用尽可能少的交互次数实现尽可能大的性能提升,这两者可以归结于稳定性和高效性。

在IJCAI2024上,哔哩哔哩人工智能平台部联合天津大学将集成Q网络(Q-ensembles)引入到离线到在线强化学习训练范式中,提出了基于集成网络的离线到在线强化学习训练框架(ENsemble-basedOffline-To-OnlineRL,ENOTO)。ENOTO以集成Q网络为基础,充分利用其衡量的不确定性来稳定两个阶段的过渡和鼓励在线探索,可以结合多种强化学习算法作为基线算法,在离线到在线强化学习设定下提升稳定性和学习效率,具有较好的泛用性。团队在强化学习的经典环境MuJoCo、AntMaze任务和多种质量的数据集上对ENOTO进行了广泛的实验验证,和以往的离线到在线强化学习算法相比,很大程度地提升了稳定性和学习效率,在大部分数据集上的累积收益提升约有10%-25%。

02动机

对于早期的离线强化学习算法,如ConservativeQ-Learning(CQL)[1],会显式惩罚分布外样本的Q值,鼓励策略选择数据集内的动作,而这种思想在DoubleDQN中就有提到。因此我们可以将这里的Q网络从2个增加到N个,这就是集成Q网络。令人惊讶的是,这种简单的改变对于离线到在线强化学习的提升却是非常明显的。我们首先进行了一项验证性实验,使用CQL这个被广泛认可的代表性离线强化学习算法作为基线算法,在经典的强化学习环境MuJoCo上进行实验,实验结果如图1所示。离线到在线强化学习训练有两种很简单的方法,一个是在线阶段继续复用离线强化学习算法,也就是这里的CQL→CQL,但由于离线强化学习算法的保守性,在线优化效率会很低,即图1(a)中的红线;另一个是切换到在线强化学习算法,也就是CQL→SAC[2],但是这种目标函数的切换会导致性能波动,即图1(a)中的橙线。而引入集成Q网络后,CQL-N→SAC-N算法可以在确保稳定性的同时,提升一定的学习效率,即图1(a)中的黑线。

图1集成Q网络在离线到在线强化学习训练框架中的验证性实验

我们还可以通过可视化的方式来分析集成Q网络的优势。首先我们将CQL→SAC和CQL-N→SAC-N在在线微调阶段的Q值变化过程进行可视化,如图1(b)所示,CQL→SAC这样直接切换优化目标的方式确实会导致Q值的高估并且非常不稳定,而引入集成Q网络之后,由于SAC-N仍然具有保守低估Q值的能力,其相比于SAC算法的Q值也就会偏小并且保持相对稳定的变化。

值得注意的是,CQL-N→SAC-N不仅能够相比于CQL→SAC提升稳定性,实现稳定的离线到在线强化学习训练,而且相比于CQL→CQL还能提升一定的学习效率。针对这一现象,我们通过分析SAC-N和CQL在在线微调阶段的动作选择区间来进行解释说明。具体来说,我们比较了SAC-N、CQL和随机策略在在线微调过程中采取的动作相比于离线数据集内动作的距离。结果如图1(c)所示,SAC-N能够比CQL选择更广范围的动作,这意味着CQL-N→SAC-N能够在在线微调过程中进行更充分的探索,也就有着更高的学习效率。

03方法

ENOTO框架可以细化为三步渐进式的优化,仍然在经典的强化学习环境MuJoCo上进行实验,但这里展示的是在所有任务和数据集上的综合结果,如图2所示。

图2ENOTO的三步渐进式优化

第一步,在已有离线强化学习算法的基础上,我们使用集成Q网络连接离线训练阶段和在线微调阶段,将离线阶段算法和在线阶段算法中使用的Q网络拓展为N个,然后选择所有Q网络中的最小值作为最终的目标Q值进行更新。这一步的主要目的是利用集成Q网络提升过渡阶段的稳定性,当然也提升了一定的学习效率。

第二步,在确保稳定性的基础上,我们考虑提升在线优化效率。第一步的目标Q值计算方法使用的MinQ,也就是N个Q网络选最小值作为目标Q值,但是这种方法对于在线强化学习来说还是太过保守,因此我们又研究了另外几种目标值计算方法,经过实验比较最终选择WeightedMinPair作为ENOTO的目标Q值计算方式。

第三步,我们还可以利用集成Q网络的不确定性来鼓励在线阶段的探索,进一步提升学习效率。具体来说,我们使用集成Q网络的标准差来衡量不确定性,在选择动作时不仅会考虑Q值的大小,还会考虑不确定性的大小,通过超参数调整权重来选择出最终的动作。因为见得少的动作的Q值估计不准,不确定性也会更大,这就是ENOTO中基于不确定性的在线探索方法。

图3ENOTO框架

如图3所示,ENOTO框架和经典离线到在线强化学习训练范式的框架相同,也分为离线训练和在线微调两个阶段。首先在离线训练阶段,以离线强化学习算法为基础,通过引入集成Q网络,利用已有的离线数据集训练得到1个策略网络和N个Q网络;然后在线阶段迁移离线阶段的策略网络和Q网络作为在线微调的起始状态,在确保稳定性的同时,仍然基于集成Q网络进行设计,通过使用新的目标Q值计算方法和基于不确定性的在线探索方法来提升在线微调阶段的学习效率。整个ENOTO框架以集成Q网络贯穿始终,通过多种训练机制的设计实现了稳定高效的离线到在线强化学习训练。

04实验

我们首先选择强化学习领域广泛使用的MuJoCo(Multi-JointdynamicswithContact)[3]作为验证算法的实验环境,在其中的三种运动控制任务HalfCheetah、Walker2d、Hopper进行实验验证。作为离线到在线强化学习训练范式的第一阶段,离线训练需要有离线数据,我们使用离线强化学习领域广泛使用的D4RL(DatasetsforDeepData-DrivenReinforcementLearning)[4]数据集用于离线训练,并且为了证明方法的泛用性,我们选择了不同质量的离线数据集进行实验验证,包括medium、medium-replay、medium-expert这三类离线数据集。对于baseline,我们选择了离线到在线强化学习研究领域中的经典算法、性能优异算法以及一些在线强化学习算法进行比较。

图4MuJoCo实验结果

然后,我们在难度更高的导航任务AntMaze上进行实验验证。具体来说,我们使用AntMaze任务中三种不同难度的迷宫进行实验,包括umaze、medium、large,三种迷宫从易到难,能够从不同层面检验算法的各项指标。而作为用于离线训练的离线数据集,我们同样使用D4RL数据集。在D4RL数据集中收集了两类的AntMaze数据:play和diverse。因此,我们在AntMaze任务的large-diverse、large-play、medium-diverse、medium-play、umaze-diverse和umaze这6个数据集上进行实验验证。同时,为了验证ENOTO对于多种基线算法的适配性,我们在这里使用ENOTO-LAPO(ENOTO在LAPO[10]上的实例化)进行实验。由于Antmaze是一个更具挑战性的任务,大多数离线强化学习方法在离线阶段难以取得令人满意的结果,因此我们仅将我们的ENOTO-LAPO方法与三个有效的基线方法(IQL、PEX和Cal-QL)在此任务上进行比较。

图5AntMaze实验结果

图5展示了ENOTO-LAPO和基线方法在在线微调阶段的性能表现。首先,LAPO在离线阶段表现优于IQL,为在线阶段提供了更高的起点,特别是在umaze和mediummaze环境中,它几乎达到了性能上限。而在线微调阶段由于离线策略的约束,IQL表现出较慢的渐近性能。基于IQL,PEX通过引入从头训练的新策略增强了探索程度,但这些策略在早期在线阶段的强随机性导致了性能下降。需要注意的是,尽管IQL和PEX具有相同的起点,PEX在大多数任务中表现出更严重的性能下降。关于Cal-QL算法,类似于原始论文中描述的结果,它在Antmaze环境中表现出强劲的性能,显著优于其在MuJoCo环境中的表现。值得注意的是,与基线方法IQL和PEX相比,Cal-QL展示了更好的稳定性和学习效率。对于我们提出的ENOTO框架,我们证明了ENOTO-LAPO不仅可以提升离线性能,还能在保持离线性能不下降的情况下,实现稳定且快速的性能提升。

05总结

本项工作在离线到在线强化学习中引入了集成Q网络作为训练机制,通过构建多个Q值估计网络来捕捉不同数据分布偏移情况下的多样性,提出了ENOTO训练框架。在离线训练阶段,ENOTO让集成Q网络从离线数据中学习多个Q值估计,以适应不同数据分布偏移情况,然后在在线微调阶段整合多个Q值估计,生成稳健的在线策略。在确保稳定性的基础上,我们重新设计了目标Q值计算方法,以在保持稳定性的同时提升学习效率。此外,我们利用Q值的不确定性信息,鼓励智能体探索不确定性较高的动作,从而更快地发现高性能策略。实验结果表明,ENOTO在强化学习经典环境MuJoCo和AntMaze上不仅可以提升离线性能,还能在保持离线性能不下降的情况下,实现稳定且快速的性能提升。这种方法使得离线智能体能够快速适应现实环境,提供高效且有效的在线微调。

THE END
1.离线学习在线学习在离线学习算法中,我们会有一个训练集,这个训练集包含多个训练实例。每个训练实例都认为是以某个概率分布从实例空间中独立同分布地抽取。我们的目标是根据这个训练样本构造一个分类器,使得其真正训练错误最小。‘ 在在线学习算法中,我们不假设训练数据来自于某个概率分布或者随机过程。当有个训练实例x过来时,我们利用https://blog.csdn.net/weixin_44245188/article/details/136901891
2.离线学习离线学习 编辑 在机器学习中,采用离线学习的系统在初始训练阶段完成后不改变其对目标函数的逼近。这些系统也是典型的急切学习的例子。在在线学习中,只有可能的元素集合是已知的,而在离线学习中,学习者知道元素的身份以及它们被呈现的顺序。机器人控制的应用机器人的学习能力等于创建一个表(信息),该表充满了价值。这样https://vibaike.com/175865/
3.专业的奥鹏在线离线作业答案辅导网2.网上学习常用的浏览器有哪些?() A.Chrome 浏览器 B.IE 浏览器 C.搜狗高速浏览器 D.以上均正确 3.以下软件中,( )属于常用的压缩软件。 A.Flash B.FlashGet C.WinRAR D.Outlook 4.常用的输入法有( )? A.搜狗输入法 B.百度输入法 C.QQ输入法 D.以上均正确 5.可以从哪些途径进入或者找到国家开放大http://www.youxue100f.com/qita/2023-05-06-12103.html
4.游玩和学习法国语相似应用下载游玩和学习法国语 6次下载 相似应用,小编亲测可用 学习通 213.67MB 查看 学习强国 159.84MB 查看 学习乐 33.52MB 查看 学习帮 66.71MB 查看 此游戏是极有趣的又对个人有发展游戏,也就是学初级的外语发音及词汇量自学者的一种“电子家教”。 词汇列表专为在不同场合各种日常用语而组成。本自修教材,由https://m.wandoujia.com/apps/7458987
5.在线积极化与无标签学习尽管这些现有方法在各种数据集或任务上取得了令人鼓舞的成绩(性能上),但它们都是在批量学习或离线学习的模式下工作的,不能处理具有序列化数据的在线学习场景。不幸的是,在大量的实际应用中,数据往往是按顺序呈现的,因此传统的批量化的学习算法要求同时观察所有的训练数据,因而无法https://mp.weixin.qq.com/s?__biz=MzAxMzE5MjE3Ng==&mid=2247491558&idx=1&sn=5c7f44c2163e07d0d6cb51bafd29e760&chksm=9ba70179acd0886fb9f1355c94e458c9c18a459e27cb9f377a09a9f250e2ba1c168d1f476a76&scene=27
6.离线在线强化学习方法研究学位摘要:强化学习作为人工智能的重要分支,在智能决策与智能控制领域具有广阔的应用前景。强化学习可以分为在线强化学习和离线强化学习,其中,在线强化学习通过边交互边学习的方式,不断优化智能体的策略,但是这种方法需要耗费昂贵的交互成本和承担交互风险。离线强化学习则是使用固定的经验数据集进行训练。因此,离线强化学习可以https://d.wanfangdata.com.cn/thesis/D03195458
7.英语读音法的内容是什么?英语自然拼音法是怎样的?英语世界—自然拼音法独创最先进的“右脑学习法”激发右脑思维空间,单词形状配合发音一次记住,单词轻松记,考试不发愁! 激发兴趣 学习英语就像玩游戏,动画结合、拼读结合,即简单又有趣,调动孩子的好奇心,从而迷恋英语爱上英语。 简单易懂 “英语世界—自然拼音法”预置全套标准美式发音,让孩子足不出户就能够交到发音纯https://m.tingclass.net/show-242-465070-1.html?gfh
8.人才培养经验总结(通用10篇)二、多法并举,积极探索人才培养模式 根据工作的实际需要,为加快推进工会事业的蓬勃发展,今年,公开招聘1名工会专职工作人员,并从公安队伍调入1名职工,为工会队伍注入新鲜血液。此外,还一如既往组织干部职工参加全国、省、市各级各类培训,参训干部职工回来后都举行了学习汇报会,将先进的工作和管理理念通过生动的形式向全体https://www.ruiwen.com/zongjie/3186084.html
9.2023年深圳医顺教育大苗老师临床执业/助理医师考试课程班培训班创五步学习法 保障学习效果 渐进式提升课程体系,让您的成绩逐步提升 第一步 听 规划:每月有详细课表为同学们制定好每天学习计划。 目标:只需按时听课,做好笔记,掌握好基本考点,夯实基础。 第二步 串 规划:每个分值高的保命系统课均安排有定期串讲。 目标:每个系统学习结束后,对该系统每个考点能融会贯通的掌握,https://www.yishunjiaoyu.com/partner/lc.html?mrvi
10.信息技术教学反思(精选13篇)在教学实践中,情境教学法是我常用的手段之一。通过创设与学生生活实际相关的情境,如设计校园文化节的宣传海报、制作校园导览小程序等,能够让学生感受到信息技术在生活中的广泛应用,提高他们的`学习积极性。然而,在情境创设过程中,有时会过于注重情境的趣味性,而忽略了教学目标的达成。比如在一次制作宣传海报的情境教学https://www.oh100.com/kaoshi/fansi/312544.html
11.我是怎么做个人知识管理的,从备忘录,经历了Markdown兴起,Notion本文会从我所遇到知识管理的困境以及如何构建自己的知识管理流程说起,然后详细聊些知识管理各流程中的笔记工具和一些笔记记录的方法理论,比如卡片盒笔记法、P.A.R.A.、费曼学习法和 CODE 等。 在信息爆炸的时代,个人信息管理已经成为不可忽视的挑战。为了高效收集、整理、消化海量信息,也出现了很多工具。从史前的系https://www.jianshu.com/p/ca1426b76691
12.年度工作总结模板(通用25篇)我根据自己的兴趣和专业特长,选择参加了四个专业委员会,分别是:刑法、劳动法、婚姻家庭、国际投资与贸易专业委员会,特别是劳动法和婚姻家庭专业委员会,我积极参加委员会组织的活动,包括参加会议讨论,执行电台值班安排,参加普法活动、新法律法规学习及资料收集等工作,专业委员会作为一个组织,是我们律师平时学习和交流的https://www.yjbys.com/gongzuozongjie/niandu/2957004.html
13.高中政治说课稿范文(精选10篇)以多媒体为辅助教学手段,采用情景探究法。第一步,创设情景,提出问题;第二步,小组讨论,自主探究;第三步,师生互动,建构知识。 (2) 接下来再说说我对学生学法的指导 本着以学生为本的理念,着眼于学生的终身发展,在传授知识的同时,更加注重学习的过程,更加注重能力的培养,因而我采用了新课程提倡的自主学习、合作学习https://www.fwsir.com/ziliao/html/ziliao_20151126142000_321293.html
14.机器学习从业者面临的8大挑战8.离线学习和部署模型 机器学习工程在构建应用程序时遵循以下步骤:1)数据收集2)数据清理3)功能工程4)分析模式5)训练模型和优化6)部署。 糟糕! 我说部署了吗? 是的,许多机器学习从业者可以执行所有步骤,但缺乏部署技能,由于缺乏实践和依赖关系问题,对业务基础模型的了解不足,将其出色的应用程序投入生产已成为最大https://www.51cto.com/article/621009.html
15.墨墨背单词99999破解版安卓2022下载用户可以在线背单词,并且可以每隔一段时间自动检查学习结果。快来下载吧! 该版本的单词量最大是9999,背完了可以继续添加,无限使用。 墨墨背单词99999破解版详情 更新时间:2024-05-18 版权问题:破解版软件通常指未经授权的软件版本,这可能侵犯了软件开发者的版权。使用破解版软件不仅违反了版权法,还可能带来安全风险https://www.37uu.cn/soft/662666.html
16.科学网—一种基于Off东北大学流程工业综合自动化国家重点实验室硕士研究生.主要研究方向为工业过程运行控制,强化学习. E-mail: alilili0131@gmail.com 范家璐 东北大学流程工业综合自动化国家重点实验室副教授. 2011年获得浙江大学博士学位(与美国宾夕法尼亚州立大学联合培养).主要研究方向为工业过程运行控制,工业无线传感器网络与移动社会网https://blog.sciencenet.cn/blog-3291369-1348607.html