基于集成网络的离线到在线强化学习

强化学习(ReinforcementLearning,RL)有两种基础的训练范式:在线强化学习(OnlineRL)和离线强化学习(OfflineRL)。在线强化学习需要让智能体和环境进行交互,利用收集到的数据同步进行训练,但在环境中进行探索的开销很大;离线强化学习不需要和环境交互,直接利用已有的离线数据进行训练,但这种范式训练的智能体会受限于离线数据的质量和覆盖范围。

基于此,研究者提出了离线到在线强化学习(Offline-to-onlineRL)训练范式,先利用已有的离线数量训练得到离线策略,然后将其应用到在线环境进行少量步数的微调。这种范式相比于前两者,一方面通过收集少量的在线数据,能够突破离线数据的限制,更贴近实际场景;另一方面在线阶段的微调是以离线策略为起点,相比于从零开始的在线强化学习,只需要非常少量的交互就能快速收敛。这一研究领域主要研究两个问题,一个是分布偏移引起的性能下降,就是如果直接将离线策略应用到在线环境进行微调,会在微调初期出现性能的急剧下降;另一个是在线优化效率,由于在线交互的开销很大,需要用尽可能少的交互次数实现尽可能大的性能提升,这两者可以归结于稳定性和高效性。

在IJCAI2024上,哔哩哔哩人工智能平台部联合天津大学将集成Q网络(Q-ensembles)引入到离线到在线强化学习训练范式中,提出了基于集成网络的离线到在线强化学习训练框架(ENsemble-basedOffline-To-OnlineRL,ENOTO)。ENOTO以集成Q网络为基础,充分利用其衡量的不确定性来稳定两个阶段的过渡和鼓励在线探索,可以结合多种强化学习算法作为基线算法,在离线到在线强化学习设定下提升稳定性和学习效率,具有较好的泛用性。团队在强化学习的经典环境MuJoCo、AntMaze任务和多种质量的数据集上对ENOTO进行了广泛的实验验证,和以往的离线到在线强化学习算法相比,很大程度地提升了稳定性和学习效率,在大部分数据集上的累积收益提升约有10%-25%。

02动机

对于早期的离线强化学习算法,如ConservativeQ-Learning(CQL)[1],会显式惩罚分布外样本的Q值,鼓励策略选择数据集内的动作,而这种思想在DoubleDQN中就有提到。因此我们可以将这里的Q网络从2个增加到N个,这就是集成Q网络。令人惊讶的是,这种简单的改变对于离线到在线强化学习的提升却是非常明显的。我们首先进行了一项验证性实验,使用CQL这个被广泛认可的代表性离线强化学习算法作为基线算法,在经典的强化学习环境MuJoCo上进行实验,实验结果如图1所示。离线到在线强化学习训练有两种很简单的方法,一个是在线阶段继续复用离线强化学习算法,也就是这里的CQL→CQL,但由于离线强化学习算法的保守性,在线优化效率会很低,即图1(a)中的红线;另一个是切换到在线强化学习算法,也就是CQL→SAC[2],但是这种目标函数的切换会导致性能波动,即图1(a)中的橙线。而引入集成Q网络后,CQL-N→SAC-N算法可以在确保稳定性的同时,提升一定的学习效率,即图1(a)中的黑线。

图1集成Q网络在离线到在线强化学习训练框架中的验证性实验

我们还可以通过可视化的方式来分析集成Q网络的优势。首先我们将CQL→SAC和CQL-N→SAC-N在在线微调阶段的Q值变化过程进行可视化,如图1(b)所示,CQL→SAC这样直接切换优化目标的方式确实会导致Q值的高估并且非常不稳定,而引入集成Q网络之后,由于SAC-N仍然具有保守低估Q值的能力,其相比于SAC算法的Q值也就会偏小并且保持相对稳定的变化。

值得注意的是,CQL-N→SAC-N不仅能够相比于CQL→SAC提升稳定性,实现稳定的离线到在线强化学习训练,而且相比于CQL→CQL还能提升一定的学习效率。针对这一现象,我们通过分析SAC-N和CQL在在线微调阶段的动作选择区间来进行解释说明。具体来说,我们比较了SAC-N、CQL和随机策略在在线微调过程中采取的动作相比于离线数据集内动作的距离。结果如图1(c)所示,SAC-N能够比CQL选择更广范围的动作,这意味着CQL-N→SAC-N能够在在线微调过程中进行更充分的探索,也就有着更高的学习效率。

03方法

ENOTO框架可以细化为三步渐进式的优化,仍然在经典的强化学习环境MuJoCo上进行实验,但这里展示的是在所有任务和数据集上的综合结果,如图2所示。

图2ENOTO的三步渐进式优化

第一步,在已有离线强化学习算法的基础上,我们使用集成Q网络连接离线训练阶段和在线微调阶段,将离线阶段算法和在线阶段算法中使用的Q网络拓展为N个,然后选择所有Q网络中的最小值作为最终的目标Q值进行更新。这一步的主要目的是利用集成Q网络提升过渡阶段的稳定性,当然也提升了一定的学习效率。

第二步,在确保稳定性的基础上,我们考虑提升在线优化效率。第一步的目标Q值计算方法使用的MinQ,也就是N个Q网络选最小值作为目标Q值,但是这种方法对于在线强化学习来说还是太过保守,因此我们又研究了另外几种目标值计算方法,经过实验比较最终选择WeightedMinPair作为ENOTO的目标Q值计算方式。

第三步,我们还可以利用集成Q网络的不确定性来鼓励在线阶段的探索,进一步提升学习效率。具体来说,我们使用集成Q网络的标准差来衡量不确定性,在选择动作时不仅会考虑Q值的大小,还会考虑不确定性的大小,通过超参数调整权重来选择出最终的动作。因为见得少的动作的Q值估计不准,不确定性也会更大,这就是ENOTO中基于不确定性的在线探索方法。

图3ENOTO框架

如图3所示,ENOTO框架和经典离线到在线强化学习训练范式的框架相同,也分为离线训练和在线微调两个阶段。首先在离线训练阶段,以离线强化学习算法为基础,通过引入集成Q网络,利用已有的离线数据集训练得到1个策略网络和N个Q网络;然后在线阶段迁移离线阶段的策略网络和Q网络作为在线微调的起始状态,在确保稳定性的同时,仍然基于集成Q网络进行设计,通过使用新的目标Q值计算方法和基于不确定性的在线探索方法来提升在线微调阶段的学习效率。整个ENOTO框架以集成Q网络贯穿始终,通过多种训练机制的设计实现了稳定高效的离线到在线强化学习训练。

04实验

我们首先选择强化学习领域广泛使用的MuJoCo(Multi-JointdynamicswithContact)[3]作为验证算法的实验环境,在其中的三种运动控制任务HalfCheetah、Walker2d、Hopper进行实验验证。作为离线到在线强化学习训练范式的第一阶段,离线训练需要有离线数据,我们使用离线强化学习领域广泛使用的D4RL(DatasetsforDeepData-DrivenReinforcementLearning)[4]数据集用于离线训练,并且为了证明方法的泛用性,我们选择了不同质量的离线数据集进行实验验证,包括medium、medium-replay、medium-expert这三类离线数据集。对于baseline,我们选择了离线到在线强化学习研究领域中的经典算法、性能优异算法以及一些在线强化学习算法进行比较。

图4MuJoCo实验结果

然后,我们在难度更高的导航任务AntMaze上进行实验验证。具体来说,我们使用AntMaze任务中三种不同难度的迷宫进行实验,包括umaze、medium、large,三种迷宫从易到难,能够从不同层面检验算法的各项指标。而作为用于离线训练的离线数据集,我们同样使用D4RL数据集。在D4RL数据集中收集了两类的AntMaze数据:play和diverse。因此,我们在AntMaze任务的large-diverse、large-play、medium-diverse、medium-play、umaze-diverse和umaze这6个数据集上进行实验验证。同时,为了验证ENOTO对于多种基线算法的适配性,我们在这里使用ENOTO-LAPO(ENOTO在LAPO[10]上的实例化)进行实验。由于Antmaze是一个更具挑战性的任务,大多数离线强化学习方法在离线阶段难以取得令人满意的结果,因此我们仅将我们的ENOTO-LAPO方法与三个有效的基线方法(IQL、PEX和Cal-QL)在此任务上进行比较。

图5AntMaze实验结果

图5展示了ENOTO-LAPO和基线方法在在线微调阶段的性能表现。首先,LAPO在离线阶段表现优于IQL,为在线阶段提供了更高的起点,特别是在umaze和mediummaze环境中,它几乎达到了性能上限。而在线微调阶段由于离线策略的约束,IQL表现出较慢的渐近性能。基于IQL,PEX通过引入从头训练的新策略增强了探索程度,但这些策略在早期在线阶段的强随机性导致了性能下降。需要注意的是,尽管IQL和PEX具有相同的起点,PEX在大多数任务中表现出更严重的性能下降。关于Cal-QL算法,类似于原始论文中描述的结果,它在Antmaze环境中表现出强劲的性能,显著优于其在MuJoCo环境中的表现。值得注意的是,与基线方法IQL和PEX相比,Cal-QL展示了更好的稳定性和学习效率。对于我们提出的ENOTO框架,我们证明了ENOTO-LAPO不仅可以提升离线性能,还能在保持离线性能不下降的情况下,实现稳定且快速的性能提升。

05总结

本项工作在离线到在线强化学习中引入了集成Q网络作为训练机制,通过构建多个Q值估计网络来捕捉不同数据分布偏移情况下的多样性,提出了ENOTO训练框架。在离线训练阶段,ENOTO让集成Q网络从离线数据中学习多个Q值估计,以适应不同数据分布偏移情况,然后在在线微调阶段整合多个Q值估计,生成稳健的在线策略。在确保稳定性的基础上,我们重新设计了目标Q值计算方法,以在保持稳定性的同时提升学习效率。此外,我们利用Q值的不确定性信息,鼓励智能体探索不确定性较高的动作,从而更快地发现高性能策略。实验结果表明,ENOTO在强化学习经典环境MuJoCo和AntMaze上不仅可以提升离线性能,还能在保持离线性能不下降的情况下,实现稳定且快速的性能提升。这种方法使得离线智能体能够快速适应现实环境,提供高效且有效的在线微调。

THE END
1.云旅程阶段了解如何验证和定义推动可行治理的公司策略。https://learn.microsoft.com/zh-cn/training/modules/accelerate-azure-migration-journey/4-cloud-journey-phases
2.强化学习强化学习中,离线策略和在线策略的区别是什么?请从原理和例在强化学习(RL)中,离线策略和在线策略是两种不同的学习和决策方法,它们各有优势和适用场景。 了解这两者的区别有助于选择适合的算法和策略进行有效的学习和决策。 接下来,我们将从原理和例子两个方面对离线策略和在线策略进行详细解释。 原理 1. 离线策略(Off-policy) https://blog.csdn.net/wq6qeg88/article/details/140999201
3.在线帮助信息离线策略,离线操作,生成策略,导入策略,离线过期,离线管理http://www.amoisoft.com/onlinehelp_ld/328.htm
4.基于离线策略的电力系统安全稳定在线附加紧急控制方法影响“在线预决策,实时匹配”紧急控制技术推广应用的关键因素之一在于难以对在线策略的适应性进行量化评估,通常还是凭经验预先设定在线策略的适用条件,其可靠性难以保证。[0004]综上所述,基于离线策略的紧急控制在电网大多数运行工况下能够保证电网的安全稳定,但控制策略的精度不高,通常过于保守,控制量过大;基于在线预https://www.xjishu.com/zhuanli/05/CN104779608.html
5.永磁同步电机参数辨识模型,在线辨识,离线辨识,电参数机械参数均可综上所述,永磁同步电机参数辨识技术是一项复杂而重要的技术工作。通过采用适当的参数辨识方法和技术应用手段,可以实现电参数和机械参数的准确辨识。同时,还需要结合实际情况选择不同的策略和方法,以实现在线和离线辨识的目的。在模型属性及回调函数设置方面,也需要充分考虑实际应用需求和技术特点等因素。https://blog.51cto.com/u_17186198/12813167
6.科学网—[转载]群视角下的多智能体强化学习方法综述基于学习(深度学习、强化学习)设计的迭代式问题求解方法是离线策略学习的基础范式。由于环境及对手的非平稳性,离线训练的蓝图策略通常很难直接运用于在线对抗。在线博弈对抗过程与离线利用模拟多次对抗学习博弈过程不同,博弈各方处于策略解耦合状态,与离线批(batch)式策略学习方法不同,在线博弈对抗策略的求解本质是一个流https://blog.sciencenet.cn/home.php?mod=space&uid=3472670&do=blog&id=1422698
7.详解经典强化学习算法,搞定“阿尔法狗”下围棋在线策略方法试图评估并提升和环境交互生成数据的策略,而离线策略方法评估和提升的策略与生成数据的策略是不同的。 这表明在线策略方法要求智能体与环境交互的策略和要提升的策略必须是相同的。 而离线策略方法不需要遵循这个约束,它可以利用其他智能体与环境交互得到的数据来提升自己的策略。 https://cloud.tencent.com/developer/article/2280864
8.线上线下融合教学的优势不足与发展策略内容努力为学生提供高质量,科学的教学服务,以有效满足学生个性发展和全面素质教育的要求。教师应注意,并不是所有的课程都可以使用线上线下混合教学方式进行教学。教师应深入学习教科书,明确学习目标,并为在线和离线学习选择适当的主题。逐步提高自身的信息素养和教学理念,在提高教学质量的同时,确保学生在学习中的核心地位。https://tpd.xhedu.sh.cn/cms/app/info/doc/index.php/92024
9.ANYSEC上网行为管理常见故障问题解析厂商动态(2)检查是否做流量策略限制了网速; (3)检查DNS配置是否正确。 21、IP和MAC发生冲突 在组织结构里绑定MAC。 22、在行为管理中做了禁止访问所有URL的策略后百度等常用网页不能正常使用 取消"其他网站"的选项即可。 23、QQ只能发在线文件,不能发离线文件 https://news.zol.com.cn/604/6044911.html
10.人工智能团队研究成果在TKDE发表:样本高效的离线转在线强化学习该研究提出了一种样本高效的离线转在线强化学习算法,旨在解决两个重要挑战:(1)探索局限性。离线强化学习通常对离线策略评估算法施加严格的限制,以避免采样分布外状态-动作对。由于探索行为策略通常由目标策略派生,这种受限制的预训练策略往往执行保守的动作,使得探索行为策略无法寻找可能产生高奖励并导致长期收益的新颖状态http://icfs.jlu.edu.cn/info/1007/3101.htm
11.安秉网盾加密软件让数据安全如影随形离线用户管理(短期):若员工临时出差在外,可以通过离线策略对其进行管理。设置员工离线的时间,比如72小时,当计算机离线大于72小时后,所有加密文件将不能打开。 加解密网关 安全网关对访问服务器的计算机进行严格的身份验证,防止未授权的用户和进程访问服务器获取机密数据。 通过上传解密、下载加密及通讯加密,实现对加密文档https://www.anbingsoft.cn/news/gscyjm/2023/0914/957.html
12.河北加密软件透明加密策略 透明加密:在文件创建或编辑过程中自动强制加密,对用户操 作习惯没有任何影响,不需手动输入密码。当文件通过非正常 渠道流至外部,打开时会出现乱码或无法打开,并且始终处于 加密状态。加密过程在操作系统内核完成,保证了加密的高效 性。 半透明加密:用户可以打开加密文件,新建的文件不加密。 解密在线审批https://www.anbingsoft.com/zhuanti/hebei/shijiazhuang/
13.强化学习蒙特卡罗之离线策略在线策略和离线策略,也是观测到 greedy 产生的策略有一定的随机性,不适合做最优策略。策略评估和策略改进能否用两种策略呢?根据答案从而产生了 on-policy 和off-policy 两种方案。 On-policy (在线策略)是指两个过程中使用的是同一个策略。 离线策略 off policy https://www.jianshu.com/p/20feefe77239
14.一种基于海量策略智能处理平台的全市场多品种金融资管系统.pdf一种基于海量策略智能处理平台的全市场多品种金融资管系统.pdf,本发明公开了一种基于海量策略智能处理平台的全市场多品种金融资管系统,包括:交易平台,数据平台和策略平台。负责策略包括离线策略生产管理子系统和在线策略运行管理子系统,策略平台采用机器学习算法来计算https://max.book118.com/html/2023/1209/5001301144011022.shtm
15.本地谷歌SEO现状:专家们权衡行业特定策略—AdWeb全球站与您的客户交谈。向他们提问并了解他们的担忧。离线进行重要对话仍然在您的营销策略中发挥重要作用。 阿曼达乔丹:金融服务 审查策略应包括离线策略。社区外展和参与至关重要。我认为任何咨询在线声誉管理的人都应该关注公司的离线声誉。 发推文! 每个企业都是不同的,没有一种策略是万能的。与谷歌搜索引擎优化中的所有https://www.adwebcloud.com/www.adwebcloud.com/bdggsxzzjmqhhyt/
16.巨量广告升级版投放方法论配合竞价逻辑调整,创意策略也实现关键迭代:素材离线优选——>全量素材在线优选,从而使得基于新版投放方法论的投放方式,效果更优。 创意策略——以素材为核心 看看底层策略 举个例子说明:为什么需要“素材为核心的投放策略”。 A 公司只允许同学投递一个岗位,所以同学只能选择成功概率最大的岗位进行简历投递。 https://www.niaogebiji.com/article-551251-1.html
17.隐私政策通知与政策法务LEGO.comCN客户可以从我们的在线乐高商店购买产品,并将产品递送至他们所指定的地点 客户可以注册任何他们希望使用的帐户和服务 客户可以使用我们为他们提供的在线和离线乐高只要您的帐户处于活动状态或需要提供服务,我们将一直保留您的个人信息。针对我们处理的每一类个人信息,我们都有所谓的保留策略。 https://www.lego.com/privacy-policy/
18.在对齐AI时,为什么在线方法总是优于离线方法?澎湃号·湃客他们通过消融研究发现,提升离线优化的一种有效方法是生成分布上接近起始 RLHF 策略(这里就刚好是 SFT 策略)的数据,这本质上就模仿了在线算法的起始阶段。 优化性质 该团队发现判别能力和生成能力之间存在一种有趣的相互作用:尽管离线策略的分类能力胜过在线策略,但离线策略生成的响应却更差(见图 6、7、8)。 https://www.thepaper.cn/newsDetail_forward_27434433
19.基于优化算法的插电混动PHEV能量管理策略概览目前应用较多的EA 包括粒子群算法(Particle swarm optimization, PSO),遗传算法(Genetic algorithm,GA),拟退火算法(Simulated annealing,SA),蚁群算法(Ant colony optimization, ACO),差分进化算法(Differential evolution, DE)等,针对于PHEV 能量管理问题,该算法现阶段均采用离线运算出最优结果,再与在线策略相结合的机制https://www.yoojia.com/article/9615930982477810013.html
20.支持形态学/动力学买卖点分析计算,多级别K线联立,区间套策略开放式的缠论python实现框架,支持形态学/动力学买卖点分析计算,多级别K线联立,区间套策略,可视化绘图,多种数据接入,策略开发,交易系统对接; - bopo/chan.pyhttps://github.com/bopo/chan.py
21.神策数据:跨境电商企业如何借助一方数据CDP实现业务增长?运营策略通常分为在线策略和离线策略。在线策略是指通过弹窗优惠券、活动专场、搜索关键词等触达站内用户,当用户还在站内的时候尽可能推动用户转化、降低转化成本。而长线用户运营,通常是通过离线策略触达站外用户并影响他们回到站内。 电子邮件是跨境电商常用的触达方式,虽然某些企业的运营计划可以通过电子邮件触达上万https://tech.china.com/article/20230206/022023_1219439.html