基于集成网络的离线到在线强化学习

强化学习(ReinforcementLearning,RL)有两种基础的训练范式:在线强化学习(OnlineRL)和离线强化学习(OfflineRL)。在线强化学习需要让智能体和环境进行交互,利用收集到的数据同步进行训练,但在环境中进行探索的开销很大;离线强化学习不需要和环境交互,直接利用已有的离线数据进行训练,但这种范式训练的智能体会受限于离线数据的质量和覆盖范围。

基于此,研究者提出了离线到在线强化学习(Offline-to-onlineRL)训练范式,先利用已有的离线数量训练得到离线策略,然后将其应用到在线环境进行少量步数的微调。这种范式相比于前两者,一方面通过收集少量的在线数据,能够突破离线数据的限制,更贴近实际场景;另一方面在线阶段的微调是以离线策略为起点,相比于从零开始的在线强化学习,只需要非常少量的交互就能快速收敛。这一研究领域主要研究两个问题,一个是分布偏移引起的性能下降,就是如果直接将离线策略应用到在线环境进行微调,会在微调初期出现性能的急剧下降;另一个是在线优化效率,由于在线交互的开销很大,需要用尽可能少的交互次数实现尽可能大的性能提升,这两者可以归结于稳定性和高效性。

在IJCAI2024上,哔哩哔哩人工智能平台部联合天津大学将集成Q网络(Q-ensembles)引入到离线到在线强化学习训练范式中,提出了基于集成网络的离线到在线强化学习训练框架(ENsemble-basedOffline-To-OnlineRL,ENOTO)。ENOTO以集成Q网络为基础,充分利用其衡量的不确定性来稳定两个阶段的过渡和鼓励在线探索,可以结合多种强化学习算法作为基线算法,在离线到在线强化学习设定下提升稳定性和学习效率,具有较好的泛用性。团队在强化学习的经典环境MuJoCo、AntMaze任务和多种质量的数据集上对ENOTO进行了广泛的实验验证,和以往的离线到在线强化学习算法相比,很大程度地提升了稳定性和学习效率,在大部分数据集上的累积收益提升约有10%-25%。

02动机

对于早期的离线强化学习算法,如ConservativeQ-Learning(CQL)[1],会显式惩罚分布外样本的Q值,鼓励策略选择数据集内的动作,而这种思想在DoubleDQN中就有提到。因此我们可以将这里的Q网络从2个增加到N个,这就是集成Q网络。令人惊讶的是,这种简单的改变对于离线到在线强化学习的提升却是非常明显的。我们首先进行了一项验证性实验,使用CQL这个被广泛认可的代表性离线强化学习算法作为基线算法,在经典的强化学习环境MuJoCo上进行实验,实验结果如图1所示。离线到在线强化学习训练有两种很简单的方法,一个是在线阶段继续复用离线强化学习算法,也就是这里的CQL→CQL,但由于离线强化学习算法的保守性,在线优化效率会很低,即图1(a)中的红线;另一个是切换到在线强化学习算法,也就是CQL→SAC[2],但是这种目标函数的切换会导致性能波动,即图1(a)中的橙线。而引入集成Q网络后,CQL-N→SAC-N算法可以在确保稳定性的同时,提升一定的学习效率,即图1(a)中的黑线。

图1集成Q网络在离线到在线强化学习训练框架中的验证性实验

我们还可以通过可视化的方式来分析集成Q网络的优势。首先我们将CQL→SAC和CQL-N→SAC-N在在线微调阶段的Q值变化过程进行可视化,如图1(b)所示,CQL→SAC这样直接切换优化目标的方式确实会导致Q值的高估并且非常不稳定,而引入集成Q网络之后,由于SAC-N仍然具有保守低估Q值的能力,其相比于SAC算法的Q值也就会偏小并且保持相对稳定的变化。

值得注意的是,CQL-N→SAC-N不仅能够相比于CQL→SAC提升稳定性,实现稳定的离线到在线强化学习训练,而且相比于CQL→CQL还能提升一定的学习效率。针对这一现象,我们通过分析SAC-N和CQL在在线微调阶段的动作选择区间来进行解释说明。具体来说,我们比较了SAC-N、CQL和随机策略在在线微调过程中采取的动作相比于离线数据集内动作的距离。结果如图1(c)所示,SAC-N能够比CQL选择更广范围的动作,这意味着CQL-N→SAC-N能够在在线微调过程中进行更充分的探索,也就有着更高的学习效率。

03方法

ENOTO框架可以细化为三步渐进式的优化,仍然在经典的强化学习环境MuJoCo上进行实验,但这里展示的是在所有任务和数据集上的综合结果,如图2所示。

图2ENOTO的三步渐进式优化

第一步,在已有离线强化学习算法的基础上,我们使用集成Q网络连接离线训练阶段和在线微调阶段,将离线阶段算法和在线阶段算法中使用的Q网络拓展为N个,然后选择所有Q网络中的最小值作为最终的目标Q值进行更新。这一步的主要目的是利用集成Q网络提升过渡阶段的稳定性,当然也提升了一定的学习效率。

第二步,在确保稳定性的基础上,我们考虑提升在线优化效率。第一步的目标Q值计算方法使用的MinQ,也就是N个Q网络选最小值作为目标Q值,但是这种方法对于在线强化学习来说还是太过保守,因此我们又研究了另外几种目标值计算方法,经过实验比较最终选择WeightedMinPair作为ENOTO的目标Q值计算方式。

第三步,我们还可以利用集成Q网络的不确定性来鼓励在线阶段的探索,进一步提升学习效率。具体来说,我们使用集成Q网络的标准差来衡量不确定性,在选择动作时不仅会考虑Q值的大小,还会考虑不确定性的大小,通过超参数调整权重来选择出最终的动作。因为见得少的动作的Q值估计不准,不确定性也会更大,这就是ENOTO中基于不确定性的在线探索方法。

图3ENOTO框架

如图3所示,ENOTO框架和经典离线到在线强化学习训练范式的框架相同,也分为离线训练和在线微调两个阶段。首先在离线训练阶段,以离线强化学习算法为基础,通过引入集成Q网络,利用已有的离线数据集训练得到1个策略网络和N个Q网络;然后在线阶段迁移离线阶段的策略网络和Q网络作为在线微调的起始状态,在确保稳定性的同时,仍然基于集成Q网络进行设计,通过使用新的目标Q值计算方法和基于不确定性的在线探索方法来提升在线微调阶段的学习效率。整个ENOTO框架以集成Q网络贯穿始终,通过多种训练机制的设计实现了稳定高效的离线到在线强化学习训练。

04实验

我们首先选择强化学习领域广泛使用的MuJoCo(Multi-JointdynamicswithContact)[3]作为验证算法的实验环境,在其中的三种运动控制任务HalfCheetah、Walker2d、Hopper进行实验验证。作为离线到在线强化学习训练范式的第一阶段,离线训练需要有离线数据,我们使用离线强化学习领域广泛使用的D4RL(DatasetsforDeepData-DrivenReinforcementLearning)[4]数据集用于离线训练,并且为了证明方法的泛用性,我们选择了不同质量的离线数据集进行实验验证,包括medium、medium-replay、medium-expert这三类离线数据集。对于baseline,我们选择了离线到在线强化学习研究领域中的经典算法、性能优异算法以及一些在线强化学习算法进行比较。

图4MuJoCo实验结果

然后,我们在难度更高的导航任务AntMaze上进行实验验证。具体来说,我们使用AntMaze任务中三种不同难度的迷宫进行实验,包括umaze、medium、large,三种迷宫从易到难,能够从不同层面检验算法的各项指标。而作为用于离线训练的离线数据集,我们同样使用D4RL数据集。在D4RL数据集中收集了两类的AntMaze数据:play和diverse。因此,我们在AntMaze任务的large-diverse、large-play、medium-diverse、medium-play、umaze-diverse和umaze这6个数据集上进行实验验证。同时,为了验证ENOTO对于多种基线算法的适配性,我们在这里使用ENOTO-LAPO(ENOTO在LAPO[10]上的实例化)进行实验。由于Antmaze是一个更具挑战性的任务,大多数离线强化学习方法在离线阶段难以取得令人满意的结果,因此我们仅将我们的ENOTO-LAPO方法与三个有效的基线方法(IQL、PEX和Cal-QL)在此任务上进行比较。

图5AntMaze实验结果

图5展示了ENOTO-LAPO和基线方法在在线微调阶段的性能表现。首先,LAPO在离线阶段表现优于IQL,为在线阶段提供了更高的起点,特别是在umaze和mediummaze环境中,它几乎达到了性能上限。而在线微调阶段由于离线策略的约束,IQL表现出较慢的渐近性能。基于IQL,PEX通过引入从头训练的新策略增强了探索程度,但这些策略在早期在线阶段的强随机性导致了性能下降。需要注意的是,尽管IQL和PEX具有相同的起点,PEX在大多数任务中表现出更严重的性能下降。关于Cal-QL算法,类似于原始论文中描述的结果,它在Antmaze环境中表现出强劲的性能,显著优于其在MuJoCo环境中的表现。值得注意的是,与基线方法IQL和PEX相比,Cal-QL展示了更好的稳定性和学习效率。对于我们提出的ENOTO框架,我们证明了ENOTO-LAPO不仅可以提升离线性能,还能在保持离线性能不下降的情况下,实现稳定且快速的性能提升。

05总结

本项工作在离线到在线强化学习中引入了集成Q网络作为训练机制,通过构建多个Q值估计网络来捕捉不同数据分布偏移情况下的多样性,提出了ENOTO训练框架。在离线训练阶段,ENOTO让集成Q网络从离线数据中学习多个Q值估计,以适应不同数据分布偏移情况,然后在在线微调阶段整合多个Q值估计,生成稳健的在线策略。在确保稳定性的基础上,我们重新设计了目标Q值计算方法,以在保持稳定性的同时提升学习效率。此外,我们利用Q值的不确定性信息,鼓励智能体探索不确定性较高的动作,从而更快地发现高性能策略。实验结果表明,ENOTO在强化学习经典环境MuJoCo和AntMaze上不仅可以提升离线性能,还能在保持离线性能不下降的情况下,实现稳定且快速的性能提升。这种方法使得离线智能体能够快速适应现实环境,提供高效且有效的在线微调。

THE END
1.离线任务已支持复用任务参数ModelWhale版本更新如果你的数据处理、模型训练需要持续运行较长时间,可以使用 ModelWhale「离线任务」进行代码的云端托管运行。 (1)新增复用任务参数 创建任务时,你可以复用某个离线任务的参数配置,快捷创建任务。 (2)新增“每分钟”定时任务 用户可以通过左侧面板配置定时任务规则,配置后可在右侧预览执行序列。 https://blog.51cto.com/u_16154940/12790673
2.LDD在线版重塑数字时代的用户体验体验升级之旅摘要:LDD在线版致力于重塑数字时代的用户体验,通过优化界面设计、提升功能实用性和增强用户体验等方面,为用户提供更加便捷、高效、智能的数字化服务。该版本注重用户体验的个性化需求,提供更加丰富的功能和更加流畅的操作体验,以满足用户在数字时代的需求和期望。 https://www.hnjwwzy.cn/post/539.html
3.用户在线与离线宁默然用户在线与离线 思路: 记录用户每个操作的时间,定时更新数据库中用户最后操作时间 设定默认时间用户无操作为离线, 获取用户最后操作时间并加上默认时间值, 与当前时间进行对比, 大于则在线,小于则离线。https://www.cnblogs.com/ningmo/p/5922060.html
4.用户在线离线忙碌功能设计与实现用户是否在线设计需要在系统中展现,系统中用户的状态。展示用户是否在线、忙碌或者离线。 做法: 使用webSocket 建立链接,通过实时推送用户信息,达到用户状态的更新。 当用户登录时自动设置用户状态为上线,并推送用户信息到 前端。 当用户离线时自动设置用户状态为离线状态,并推送给前端。 https://blog.csdn.net/u012373815/article/details/77148902
5.设备接入IoTDA物联网平台如何切换设备的在线/离线状态?NB-IoT设备上报数据后为状态为在线,距离上次上报数据25小时内未上报数据,会刷新状态为异常。超过49小时未上报数据,平台会将设备置为“离线”状态。 MQTT设备连接到平台后状态为在线,断开连接后平台1分钟内会自动刷新状态为离线。如果手动点击状态刷新按钮,则可实时刷新为离线状态。https://ecloud.10086.cn/op-help-center/doc/article/43631
6.基于客户和用户需求的B端产品系统设计基于以上测试结论,最终采用了8倍压缩的在线方案,同时为用户提供了通过有线传输的方式同步音频(硬件自带连接线,但是需要额外采购otg转接头),有线传输的同步时间非常快,1小时音频基本几秒就可以完成同步。 (2)离线录音→在线+离线 在试点(poc)项目应用了一段时间后发现,离线方案最大的问题还是同步过程过于缓慢,使用otghttps://maimai.cn/article/detail?fid=1645337772&efid=bOdzRtXutjpD4KzP6xbhog
7.环球网校在线网络课程辅导服务条款备注:如有辅导课程学习期限与上述期限不同,最终应当以环球网校在线(www.hqwx.com)对应的课程频道辅导方案介绍为准。 9、“环球网校在线”离线课件使用规定: (1)一个注册用户最多可以在三台终端上注册环球网校在线离线课件播放器。同一台电脑如果硬件没有变化不限制注册次数 https://www.hqwx.com/help/article.htm
8.电力用户状态检修在线监测离线检测仪器仪表河北华电聚能电力河北华电聚能电力技术有限公司专注于电力用户状态检修及在线监测、离线检测仪器仪表等产品的自主研发和生产制造,并提供系统解决方案的制造商,公司是新兴的电力电子企业、科技型中小企业,集工程施工、产品研发、技术服务于一体的综合型企业。http://hbhdjn.com/
9.神策智能推荐玩法嘲化解读和评估体系人工评估比较好理解,比如我们认为一个用户很喜欢动画片,于是进行一些推荐,我们可以直接去观察所推荐的内容中用户播放动画片的比例是否比较大;同时AUC、DCG也是常用的模型离线评价指标,但是这些数据指标可能会存在比较大的偏差,所以一般不会拿此指标来直接评估效果,而只是把它作为参照指标。 https://news.zol.com.cn/768/7683765.html
10.用户指南数据中心收到数据申请后会根据数据的需求情况及时与用户联系,明确用户的需要。 3、签署共享使用责任书 数据中心与数据申请者确认数据需求后,数据申请者需签署数据共享使用责任书。 4、数据提供及反馈 数据中心根据数据申请表中的内容对用户申请的数据进行授权和数据加工处理,从在线下载和离线拷贝、邮寄的方式提供给用https://www.phsciencedata.cn/Share/jsp/PublishManager/userGuide.jsp
11.UM20200609SIA3000(COD)化学需氧量在线分析仪用户手册(COD)化学需氧量在线分析仪 用户手册 目录 6 在线监测 31 6.1 量程配置 31 6.2 监测模式 33 6.3 在线离线切换 35 6.4 断电重启的处置 35 6.5 水样适用性 35 7 维护操作 37 7.1 仪表急停 37 7.2 仪表复位 37 7.3 设备监控 38 7.4 信号调整 38 7.5 试剂维护 39 7.6 清洗维护 40 7.7 手动操作 41 7.8https://m.book118.com/html/2022/1026/5142301030010011.shtm
12.php怎么判断app用户是否在线?Worktile社区if(time() – $last_activity < $inactive_time){ echo '用户在线';} else { echo '用户离线';}```3. 使用心跳机制:在app端与服务器建立长连接,定时发送心跳包来维持连接。服务器接收到心跳包后,更新用户最后活动时间,通过判断最后活动时间来确定用户是否在线。以上是几种常见的判断app用户是否在线的方法,https://worktile.com/kb/ask/175086.html
13.闪电立方数据传输服务数据在线离线迁移存储闪电立方(Datatransport)能够为用户提供安全、高效、便捷的数据传输服务。支持将对象存储、文件存储从不同设备、不同云服务商迁移和同步到阿里云。它提供在线迁移和离线迁移(闪电立方)两种迁移方式,致力于解决大规模数据传输效率、安全问题等难题。 租用闪电立方管理控制台 https://www.aliyun.com/product/mgw
14.首次用于大规模在线系统AI&大模型ChanghuaPei数据我们发布了一个在本文中使用的大规模数据集(电子商务重排序数据集)。这个数据集是从一个真实的电子商务推荐系统中构建的。数据集中的记录包含一个推荐列表,记录用户-点击标签和特征以便进行排名使用。 评估我们进行了离线和在线实验,结果表明我们的方法明显优于最先进的方法。在线 A/B 测试表明,我们的方法实现了https://www.infoq.cn/article/a1tj74y7V2EKFikKYcwv/
15.AHK实现文字识别(OCR)——离线与在线4种方法总结。–AutoAHK2. Vis2(离线)。 使用iseahound的库Vis2(原理是谷歌的开源项目 tesseract )。 优点是可以离线识别,英文识别效果还凑合。缺点是中文效果不咋滴。 完整打包一键运行版在文末下载。 简单示例如下。 #include <Vis2> ; Equivalent to #include .libVis2.ahk https://www.autoahk.com/archives/35526
16.日语语音识别在线翻译日语在线翻译发音?六、日语人名在线翻译器? 在日语中,假名る可写作好几个汉字,作为名字的话,本人觉得大概可以用流,留,瑠;假名な的话,那,奈,南,纳,名,菜都可以用,就看怎么组合了。 七、语音识别和图像识别的区别? 图像识别,是指利用 计算机 对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。结合用户使用场https://tool.a5.cn/article/show/74501.html
17.redis通过位图法记录在线用户的状态详解Redis这几天在工作中,遇到一个case,就是需要自己实现一个IM在线用户状态的记录,当时查了很多中实现方式,今天来分享一下 主要思想 构造一个位图,里面存的是二进制数据,如:1 0 1 0 1 0 1,通过修改userId对应位置上的0和1来修改用户在线状态,由于默认值为0,所以1代表用户处于在线状态,0代表用户处于离线状态,如图:https://www.jb51.net/article/150185.htm
18.用户报告模板根据微参与的调查数据,在XX年5月,65.5%的用户选择在线预订机票,而只有34.5%的用户离线预订机票。其中,网上预约方式,通过电脑的用户占30.6%,手机占28.2%,平板电脑占6.7%;线下订票方式中,去销售点买票的用户数量最多,其次是直接去机场买票的,只有8.9%通过电话订票。机票高度标准化,互联网普及率超过60%,移动终端比例https://www.unjs.com/fanwenku/470358.html
19.里客云微信活码管理系统源码V6.0.2开源版4、可开启防止重复进群,有效防止资源重复的问题4、显示子码距离上一次更新过去多少时间 创建客服活码v6.0.2新特性:1、支持设置阈值,达到阈值自动切换下一个客服2、支持设置随机,随机展示客服二维码3、用户账号被封、或者到期,用户所创建的客服活码均失效4、新增在线提醒,提醒客户你目前是在线还是离线https://weibo.com/ttarticle/p/show?id=2309404714052487349262