基于集成网络的离线到在线强化学习

强化学习(ReinforcementLearning,RL)有两种基础的训练范式:在线强化学习(OnlineRL)和离线强化学习(OfflineRL)。在线强化学习需要让智能体和环境进行交互,利用收集到的数据同步进行训练,但在环境中进行探索的开销很大;离线强化学习不需要和环境交互,直接利用已有的离线数据进行训练,但这种范式训练的智能体会受限于离线数据的质量和覆盖范围。

基于此,研究者提出了离线到在线强化学习(Offline-to-onlineRL)训练范式,先利用已有的离线数量训练得到离线策略,然后将其应用到在线环境进行少量步数的微调。这种范式相比于前两者,一方面通过收集少量的在线数据,能够突破离线数据的限制,更贴近实际场景;另一方面在线阶段的微调是以离线策略为起点,相比于从零开始的在线强化学习,只需要非常少量的交互就能快速收敛。这一研究领域主要研究两个问题,一个是分布偏移引起的性能下降,就是如果直接将离线策略应用到在线环境进行微调,会在微调初期出现性能的急剧下降;另一个是在线优化效率,由于在线交互的开销很大,需要用尽可能少的交互次数实现尽可能大的性能提升,这两者可以归结于稳定性和高效性。

在IJCAI2024上,哔哩哔哩人工智能平台部联合天津大学将集成Q网络(Q-ensembles)引入到离线到在线强化学习训练范式中,提出了基于集成网络的离线到在线强化学习训练框架(ENsemble-basedOffline-To-OnlineRL,ENOTO)。ENOTO以集成Q网络为基础,充分利用其衡量的不确定性来稳定两个阶段的过渡和鼓励在线探索,可以结合多种强化学习算法作为基线算法,在离线到在线强化学习设定下提升稳定性和学习效率,具有较好的泛用性。团队在强化学习的经典环境MuJoCo、AntMaze任务和多种质量的数据集上对ENOTO进行了广泛的实验验证,和以往的离线到在线强化学习算法相比,很大程度地提升了稳定性和学习效率,在大部分数据集上的累积收益提升约有10%-25%。

02动机

对于早期的离线强化学习算法,如ConservativeQ-Learning(CQL)[1],会显式惩罚分布外样本的Q值,鼓励策略选择数据集内的动作,而这种思想在DoubleDQN中就有提到。因此我们可以将这里的Q网络从2个增加到N个,这就是集成Q网络。令人惊讶的是,这种简单的改变对于离线到在线强化学习的提升却是非常明显的。我们首先进行了一项验证性实验,使用CQL这个被广泛认可的代表性离线强化学习算法作为基线算法,在经典的强化学习环境MuJoCo上进行实验,实验结果如图1所示。离线到在线强化学习训练有两种很简单的方法,一个是在线阶段继续复用离线强化学习算法,也就是这里的CQL→CQL,但由于离线强化学习算法的保守性,在线优化效率会很低,即图1(a)中的红线;另一个是切换到在线强化学习算法,也就是CQL→SAC[2],但是这种目标函数的切换会导致性能波动,即图1(a)中的橙线。而引入集成Q网络后,CQL-N→SAC-N算法可以在确保稳定性的同时,提升一定的学习效率,即图1(a)中的黑线。

图1集成Q网络在离线到在线强化学习训练框架中的验证性实验

我们还可以通过可视化的方式来分析集成Q网络的优势。首先我们将CQL→SAC和CQL-N→SAC-N在在线微调阶段的Q值变化过程进行可视化,如图1(b)所示,CQL→SAC这样直接切换优化目标的方式确实会导致Q值的高估并且非常不稳定,而引入集成Q网络之后,由于SAC-N仍然具有保守低估Q值的能力,其相比于SAC算法的Q值也就会偏小并且保持相对稳定的变化。

值得注意的是,CQL-N→SAC-N不仅能够相比于CQL→SAC提升稳定性,实现稳定的离线到在线强化学习训练,而且相比于CQL→CQL还能提升一定的学习效率。针对这一现象,我们通过分析SAC-N和CQL在在线微调阶段的动作选择区间来进行解释说明。具体来说,我们比较了SAC-N、CQL和随机策略在在线微调过程中采取的动作相比于离线数据集内动作的距离。结果如图1(c)所示,SAC-N能够比CQL选择更广范围的动作,这意味着CQL-N→SAC-N能够在在线微调过程中进行更充分的探索,也就有着更高的学习效率。

03方法

ENOTO框架可以细化为三步渐进式的优化,仍然在经典的强化学习环境MuJoCo上进行实验,但这里展示的是在所有任务和数据集上的综合结果,如图2所示。

图2ENOTO的三步渐进式优化

第一步,在已有离线强化学习算法的基础上,我们使用集成Q网络连接离线训练阶段和在线微调阶段,将离线阶段算法和在线阶段算法中使用的Q网络拓展为N个,然后选择所有Q网络中的最小值作为最终的目标Q值进行更新。这一步的主要目的是利用集成Q网络提升过渡阶段的稳定性,当然也提升了一定的学习效率。

第二步,在确保稳定性的基础上,我们考虑提升在线优化效率。第一步的目标Q值计算方法使用的MinQ,也就是N个Q网络选最小值作为目标Q值,但是这种方法对于在线强化学习来说还是太过保守,因此我们又研究了另外几种目标值计算方法,经过实验比较最终选择WeightedMinPair作为ENOTO的目标Q值计算方式。

第三步,我们还可以利用集成Q网络的不确定性来鼓励在线阶段的探索,进一步提升学习效率。具体来说,我们使用集成Q网络的标准差来衡量不确定性,在选择动作时不仅会考虑Q值的大小,还会考虑不确定性的大小,通过超参数调整权重来选择出最终的动作。因为见得少的动作的Q值估计不准,不确定性也会更大,这就是ENOTO中基于不确定性的在线探索方法。

图3ENOTO框架

如图3所示,ENOTO框架和经典离线到在线强化学习训练范式的框架相同,也分为离线训练和在线微调两个阶段。首先在离线训练阶段,以离线强化学习算法为基础,通过引入集成Q网络,利用已有的离线数据集训练得到1个策略网络和N个Q网络;然后在线阶段迁移离线阶段的策略网络和Q网络作为在线微调的起始状态,在确保稳定性的同时,仍然基于集成Q网络进行设计,通过使用新的目标Q值计算方法和基于不确定性的在线探索方法来提升在线微调阶段的学习效率。整个ENOTO框架以集成Q网络贯穿始终,通过多种训练机制的设计实现了稳定高效的离线到在线强化学习训练。

04实验

我们首先选择强化学习领域广泛使用的MuJoCo(Multi-JointdynamicswithContact)[3]作为验证算法的实验环境,在其中的三种运动控制任务HalfCheetah、Walker2d、Hopper进行实验验证。作为离线到在线强化学习训练范式的第一阶段,离线训练需要有离线数据,我们使用离线强化学习领域广泛使用的D4RL(DatasetsforDeepData-DrivenReinforcementLearning)[4]数据集用于离线训练,并且为了证明方法的泛用性,我们选择了不同质量的离线数据集进行实验验证,包括medium、medium-replay、medium-expert这三类离线数据集。对于baseline,我们选择了离线到在线强化学习研究领域中的经典算法、性能优异算法以及一些在线强化学习算法进行比较。

图4MuJoCo实验结果

然后,我们在难度更高的导航任务AntMaze上进行实验验证。具体来说,我们使用AntMaze任务中三种不同难度的迷宫进行实验,包括umaze、medium、large,三种迷宫从易到难,能够从不同层面检验算法的各项指标。而作为用于离线训练的离线数据集,我们同样使用D4RL数据集。在D4RL数据集中收集了两类的AntMaze数据:play和diverse。因此,我们在AntMaze任务的large-diverse、large-play、medium-diverse、medium-play、umaze-diverse和umaze这6个数据集上进行实验验证。同时,为了验证ENOTO对于多种基线算法的适配性,我们在这里使用ENOTO-LAPO(ENOTO在LAPO[10]上的实例化)进行实验。由于Antmaze是一个更具挑战性的任务,大多数离线强化学习方法在离线阶段难以取得令人满意的结果,因此我们仅将我们的ENOTO-LAPO方法与三个有效的基线方法(IQL、PEX和Cal-QL)在此任务上进行比较。

图5AntMaze实验结果

图5展示了ENOTO-LAPO和基线方法在在线微调阶段的性能表现。首先,LAPO在离线阶段表现优于IQL,为在线阶段提供了更高的起点,特别是在umaze和mediummaze环境中,它几乎达到了性能上限。而在线微调阶段由于离线策略的约束,IQL表现出较慢的渐近性能。基于IQL,PEX通过引入从头训练的新策略增强了探索程度,但这些策略在早期在线阶段的强随机性导致了性能下降。需要注意的是,尽管IQL和PEX具有相同的起点,PEX在大多数任务中表现出更严重的性能下降。关于Cal-QL算法,类似于原始论文中描述的结果,它在Antmaze环境中表现出强劲的性能,显著优于其在MuJoCo环境中的表现。值得注意的是,与基线方法IQL和PEX相比,Cal-QL展示了更好的稳定性和学习效率。对于我们提出的ENOTO框架,我们证明了ENOTO-LAPO不仅可以提升离线性能,还能在保持离线性能不下降的情况下,实现稳定且快速的性能提升。

05总结

本项工作在离线到在线强化学习中引入了集成Q网络作为训练机制,通过构建多个Q值估计网络来捕捉不同数据分布偏移情况下的多样性,提出了ENOTO训练框架。在离线训练阶段,ENOTO让集成Q网络从离线数据中学习多个Q值估计,以适应不同数据分布偏移情况,然后在在线微调阶段整合多个Q值估计,生成稳健的在线策略。在确保稳定性的基础上,我们重新设计了目标Q值计算方法,以在保持稳定性的同时提升学习效率。此外,我们利用Q值的不确定性信息,鼓励智能体探索不确定性较高的动作,从而更快地发现高性能策略。实验结果表明,ENOTO在强化学习经典环境MuJoCo和AntMaze上不仅可以提升离线性能,还能在保持离线性能不下降的情况下,实现稳定且快速的性能提升。这种方法使得离线智能体能够快速适应现实环境,提供高效且有效的在线微调。

THE END
1.原创探索AI中的强化学习与深度强化学习原理及应用导读:随着人工智能技术的不断发展,强化学习和深度强化学习作为其重要分支,在许多领域都取得了显著的成果。本文将深入探讨强化学习和深度强化学习的原理及应用,帮助读者更好地理解这两种技 随着人工智能技术的不断发展,强化学习和深度强化学习作为其重要分支,在许多领域都取得了显著的成果。本文将深入探讨强化学习和深度强https://www.0753zz.com/html/biancheng/zx/2024-11-27/319487.html
2.Ai顶会创新点!GNN+强化学习,高性能,低成本!今天给大家推荐一个涨点发顶会的好方向:GNN+强化学习。这俩热点的结合可以轻松实现“1+1>2”的效果。GNN能够深入挖掘图中的模式和关系,而RL(强化学习)擅长在动态环境中进行序列决策,尤其是在需要长期规划和适…https://zhuanlan.zhihu.com/p/10461522860
3.强化学习算法详解:从理论到实践的完整指南强化学习算法详解:从理论到实践的完整指南 强化学习概述 强化学习是一种机器学习方法,旨在让智能体从与环境的交互中学习最佳行为策略,以最大化累积奖励。强化学习的核心思想是通过与https://www.jianshu.com/p/432bd53f17f8
4.ReinforcementLearning)和在线强化学习(OnlineReinforcementLearnin离线强化学习就像是通过看别人开车的录像学习一样,你使用预先准备好的数据(录像)来学习如何做出最佳决策。而在线强化学习则更像是亲自上路学车,你在真实环境中与环境互动,通过实际经验来改进你的决策和行为。 专业版本 离线强化学习(OfflineReinforcement Learning)和在线强化学习(Online Reinforcement Learning)是两种强化学https://blog.csdn.net/qq_40718185/article/details/139231769
5.离线强化学习为什么在线强化学习算法没有受到外推误差的影响呢?因为对于在线强化学习,即使训练是离线策略的,智能体依然有机会通过与环境交互及时采样到新的数据,从而修正这些误差。但是在离线强化学习中,智能体无法和环境交互。因此,一般来说,离线强化学习算法要想办法尽可能地限制外推误差的大小,从而得到较好的策略。https://hrl.boyuai.com/chapter/3/%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/
6.科学网—[转载]强化学习在资源优化领域的应用强化学习在资源优化领域的应用王金予, 魏欣然, 石文磊, 张佳微软亚洲研究院,北京 100080 摘要:资源优化问题广泛存在于社会、经 ,科学网https://blog.sciencenet.cn/blog-3472670-1312677.html
7.强化学习离线模型离线模型和在线模型强化学习离线模型 离线模型和在线模型,在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。本文尝试列举一些常见的原因,为大家排查问题提供一点思路。1.离线、在线特征不一致离线https://blog.51cto.com/u_14499/11815202
8.基于安全强化学习的主动配电网有功无功协调优化调度基于安全强化学习的主动配电网有功-无功协调优化调度编者按光伏(photovoltaic,PV)在主动配电网(activedistributionnetwork,ADN)中比重的提升可能引发严重的电压越限问题。此外,由于配电线路阻抗大,有功、https://news.bjx.com.cn/html/20240402/1369428.shtml
9.AIR学术李升波:将强化学习用于自动驾驶:技术挑战与发展趋势或使用模型,或使用预先采集的数据,先离线训练一个最优策略,然后部署到自动驾驶汽车,实现在线控制应用。第二,同时训练和应用策略,即SOTI方法:这是利用强化学习的探索试错机制,通过在线探索环境产生数据,实现自动驾驶策略的在线自我更新。这类方法要求强化学习算法必须进行在线部署,从而进行在线地探索和在线地训练。https://air.tsinghua.edu.cn/info/1008/1323.htm
10.生成式AI与LangCHain(二)(3)离线方法通过直接利用人类反馈来绕过在线强化学习的复杂性。我们可以区分基于排名和基于语言的方法: 基于排名的:人类对语言模型输出进行排名,用于定义微调的优化目标,完全避免了强化学习。这包括 Preference Ranking Optimization (PRO; Song 等人,2023)和 Direct Preference Optimization (DPO; Rafailov 等人,2023)等方法。https://developer.aliyun.com/article/1511477
11.深度强化学习使用MATLAB 和 Simulink 将深度强化学习应用于控制和决策应用。https://ww2.mathworks.cn/solutions/deep-learning/deep-reinforcement-learning.html
12.ICLR上新强化学习扩散模型多模态语言模型,你想了解的前沿本周,全球最负盛名的人工智能盛会之一 ICLR 大会将在奥地利维也纳举办。所以,今天的“科研上新”将为大家带来多篇微软亚洲研究院在 ICLR 2024 上的精选论文解读,涉及领域涵盖深度强化学习、多模态语言模型、时间序列扩散模型、无监督学习等多个前沿主题。 https://www.msra.cn/zh-cn/news/features/new-arrival-in-research-11
13.基于深度强化学习的水面无人艇路径跟踪方法6.针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于深度强化学习的水面无人艇路径跟踪方法,无需进行环境和无人艇运动建模并且具备自适应能力,从而能够进一步提高无人艇路径跟踪控制的稳定性和准确性。 7.为了解决上述技术问题,本发明采用了如下的技术方案: https://www.xjishu.com/zhuanli/54/202210772926.html/
14.大语言模型的拐杖——RLHF基于人类反馈的强化学习强化学习从人类反馈(RLHF)是一种先进的AI系统训练方法,它将强化学习与人类反馈相结合。它是一种通过将人类训练师的智慧和经验纳入模型训练过程中,创建更健壮的学习过程的方法。该技术涉及使用人类反馈创建奖励信号,然后通过强化学习来改善模型的行为。http://wehelpwin.com/article/4042
15.替代离线RL?Transformer进军决策领域,“序列建模”成关键Transformer 开始进军决策领域了,它能否替代离线强化学习呢?近日,UC 伯克利、FAIR 和谷歌大脑的研究者提出了一种通过序列建模进行强化学习的 Transformer 架构,并在 Atari、OpenAI Gym 等强化学习实验平台上媲美甚至超越 SOTA 离线 RL 基线方法。 自2016 年 AlphaGo 击败李世石开始,强化学习(Reinforcement Learning)在优化https://www.thepaper.cn/newsDetail_forward_13934432
16.动手学强化学习本书系统地介绍了强化学习的原理和实现,是一本理论扎实、落地性强的图书。本书包含3个部分:第一部分为强化学习基础,讲解强化学习的基础概念和表格型强化学习方法;第二部分为强化学习进阶,讨论深度强化学习的思维方式、深度价值函数和深度策略学习方法;第三部分为强化https://www.ptpress.cn/bookDetails?id=UB7d4a1fc362a4a
17.强化学习的10个现实应用通过强化学习,金融贸易不再像从前那样由分析师做出每一个决策,真正实现机器的自动决策。例如,IBM构建有一个强大的、面向金融交易的强化学习平台,该平台根据每一笔金融交易的损失或利润来调整奖励函数。 Reinforcement Learning in NLP (Natural Language Processing) https://www.flyai.com/article/750
18.「数字天空科技招聘」数字天空科技怎么样?数字天空科技 · 强化学习算法研究员 影响力129 访客993四川成都 个人简介 游戏行业研发,任职数字天空科技强化学习算法研究员职位,常驻四川;近期有993位访问者,在脉脉形成影响力129;在2020-6至今,任数字天空科技公司强化学习算法研究员职位;在2019-5至2020-6,任字节跳动公司iOS开发工程师职位;在2018-8至2018-10,.https://maimai.cn/brand/home/1ahq1EPmY
19.人工智能技术研究人工智能技术创新强化学习Reinforcement Learning 自动神经网络结构生成 自动离线强化学习 自动算法选择与动态调参 自动表示学习 样本高效强化学习 环境学习Environment Learning 知识驱动离散环境学习 知识驱动连续环境学习 数据驱动基于ML的环境学习 数据驱动基于因果的环境学习 AI基础架构 https://www.4paradigm.com/about/research.html