强化学习图鉴|你与最优策略之间,可能还差一本离线强化学习秘籍

离线强化学习是利用预先收集的大规模静态数据集来训练强化学习智能体的关键,它通常被视为强化学习的一种变体。本文通过回顾诸多强化学习研究,探讨了离线强化学习的训练过程以及其和类似概念的异同。

同时本文也解释了经典强化学习算法在离线设定下的问题和离线强化学习的研究方向并在此基上提出了对离线强化学习的未来展望。该展望将这些研究路径联系起来,为解决分布偏移问题提供了方案。

在训练阶段,OfflineRL无法让智能体与环境进行交互探索。在这个设定下,我们先根据行为策略\(\pi_{\beta}\)\((\mathbf{a}\mid\mathbf{s})\)与环境交互得到数据集\(\mathcal{D}\),然后再利用该数据集训练智能体。以Actor-Critic范式为例,给定数据集\(\mathcal{D}=\left\{(\mathbf{s},\mathbf{a},r,\mathbf{s}^{\prime})\right\}\),我们可以将价值迭代(valueiteration)和策略优化(policyoptimization)表示为:

\(\hat{Q}^{k+1}\leftarrow\arg\min_{Q}\mathbb{E}_{\mathbf{s},\mathbf{a}\sim\mathcal{D}}\left[\left(\hat{\mathcal{B}}^\pi\hat{Q}(\mathbf{s},\mathbf{a})-Q(\mathbf{s},\mathbf{a})\right)^2\right],\\\hat{\pi}^{k+1}\leftarrow\arg\max_{\pi}\mathbb{E}_{\mathbf{s}\sim\mathcal{D},\mathbf{a}\sim\pi^{k}(\mathbf{a}\mid\mathbf{s})}\left[\hat{Q}^{k+1}(\mathbf{s},\mathbf{a})\right]\),

其中,\(\hat{\mathcal{B}}^\pi\)表示遵循策略\(\hat{\pi}\left(\mathbf{a}\mid\mathbf{s}\right)\)的贝尔曼操作符,\(\hat{\mathcal{B}}^\pi\hat{Q}\left(\mathbf{s},\mathbf{a}\right)=\mathbb{E}_{\mathbf{s},\mathbf{a},\mathbf{s}^{\prime}\sim\mathcal{D}}[r(\mathbf{s},\mathbf{a})+\gamma\mathbb{E}_{\mathbf{a}^{\prime}\sim\hat{\pi}^{k}\left(\mathbf{a}^{\prime}\mid\mathbf{s}^{\prime}\right)}\left[\hat{Q}^{k}\left(\mathbf{s}^{\prime},\mathbf{a}^{\prime}\right)\right]]\)

模仿学习(ImitationLearning,IL)也使用静态数据进行训练,且在训练过程中不进行探索,这一点上和OfflineRL是非常相似的。然而,两者也有很多不同之处:

Off-policyRL通常指能够允许产生训练样本的策略(与环境交互的策略)与当前待优化策略不同的一类RL算法。Q-learning算法、利用Q函数的Actor-Critic算法,以及许多基于模型的强化学习算法(Model-basedRL)都属于Off-policyRL。然而,Off-policyRL在学习过程中仍然经常使用额外的交互(即在线数据收集)。

很多前人的研究工作都表明经典强化学习算法在OfflineRL场景表现不佳,甚至很差。论文[6]中表明这是因为在这种情况下,策略倾向于选择偏离数据集\(\mathcal{D}\)的动作(out-of-distribution,OOD)。以基于Q函数的经典算法为例,当待预估数据与离线训练数据分布相同时,Q函数的估计才是准确的,具体的对应关系如下图所示:

THE END
1.通俗理解机器学习模式对比——离线在线与增量学习的差异#机器学习 #离线学习 #在线学习#增量学习 #模型训练 #数据更新 #预测准确率 第一节:机器学习模式的类比与核心概念 1.1 机器学习模式的类比 机器学习模式可以被视为不同的“烹饪方法”,离线学习像是准备一顿大餐,需要所有食材一次性备齐;在线学习则像是开一家快餐店,需要根据顾客的实时反馈调整菜单;增量学习则更https://blog.csdn.net/qq_37148940/article/details/117913147
2.携程基于LSTM的广告库存预估算法使用离线与在线增量训练相结合的训练方式,使模型更具活力,每天在优选出的广告库存模型基础上进行微调,可以不断维持模型提供精准的预估能力。 作者简介 Paul,携程高级研发经理,关注广告投放技术架构、大数据、人工智能等领域; Xunling,携程资深后端开发工程师,关注广告服务、性能优化,对AI技术有浓厚兴趣。 https://www.51cto.com/article/755143.html
3.从100w核到450w核:字节跳动超大规模云原生离线训练实践动手点关注干货不迷路 本文整理自字节跳动基础架构研发工程师单既喜在 ArchSummit 全球架构师峰会上的演讲,主要介绍字节跳动离线训练发展的三个阶段和关键节点,以及云原生离线训练中非常重要的两个部分——计算调度和数据编排,最后将结合前两部分分享字节跳动在实践中沉https://maimai.cn/article/detail?fid=1767401397&efid=R2_kM5y-yEUDCK88FZWrGA
4.华为技术HuaweiTech总第096期算力:分布式的多级云架构,让算力无处不在 分布式的多级云架构涵盖了公有云、本地云和边缘云的协同分工,实现公有云做全量训练,本地云做增量训练和中心推理,边缘云负责推理(如图2),为运营商大模型部署带来了三重收益。 图2:公有云和私有云协同训练,打造个性化的模型 成本更节省。大模型的预训练需要在一段时间内https://www.huawei.com/cn/publications/huaweitech/202401
5.推荐系统入门篇流式训练:、流式训练模块的主要作用是使用实时训练样本来更新模型。推荐算法中增量更新部分的计算,通过流式计算的方式来进行更新。在线训练的优势之一,是可以支持模型的稀疏存储。训练方面,在线模型不一定都是从零开始训练,而是可以将离线训练得到的模型参数作为基础,在这个基础上进行增量训练。 https://www.jianshu.com/p/27021ab18d52
6.深度学习的类增量学习算法综述腾讯云开发者社区近年来, 深度学习模型在众多领域取得了广泛成功. 现有的深度学习模型大多部署在静态环境下, 依赖提前收集好 的数据集进行离线训练, 模型一经确定, 便无法进一步更新. 然而, 现实中开放动态的环境往往存在以流形式不断到来的数据, 包括随时间演进不断产生的新类别数据. 因此,https://cloud.tencent.com/developer/article/2318581
7.大疆教育平台增量训练任务指的是基于已有模型生成的预训练模型,增加数据集进行再次训练的过程。有以上两种方法创建增量训练任务。 增量训练一般情况下使用默认预训练模型继续训练即可,也可以在上图下拉列表中选择已有模型在2000步、4000步、6000步、8000步、最终形成的预训练模型的基础上进行训练,增量训练的数据集标签需与原模型的标签https://edu.dji.com/hub/docs?uuid=13f64464-f42d-47ea-abc5-b14c2c309de5&t=708
8.2020届计算机科学方向毕业设计(论文)阶段性汇报推荐系统与用户进行多步交互的过程可以建模为马尔科夫决策过程并使用强化学习算法训练推荐策略,但在真实的工业界场景中,在线上进行强化学习模型的训练成本极高。本课题希望使用推荐系统与用户交互的历史数据离线训练强化学习算法,并探讨这一模式的问题解决方式。 https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3709
9.数博文本理解平台支持识别模型的离线训练;支持基于语料库的测试集生成;支持模型的版本管理;支持模型的增量训练 知识自动加工 支持包括领域实体、关系、属性和事件的自动提取;支持通过SDK、WebService、Restful API等多种方式集成模型 应用场景 知识提取 支持对各领域现存的大量文本资料的基于规则的数据要素提取,以及基于深度学习的数据要素提http://www.beidasoft.com/multi/520.html
10.离线机器学习模型训练集构建袋鼠社区离线机器学习模型训练集构建 - 离线机器学习模型训练集构建是机器学习项目中的关键步骤,特别是在资源有限或者数据安全性要求较高的情况下,离线训练集的构建尤为重要。以下是构建离线机器学习模型训练集的一般步骤和注意事项:数据收集:确定数据源:根据模型需求,确定合https://www.dtstack.com/bbs/article/15786