强化学习图鉴｜你与最优策略之间，可能还差一本离线强化学习秘籍|离线训练和增量训练_在线学习

离线强化学习是利用预先收集的大规模静态数据集来训练强化学习智能体的关键，它通常被视为强化学习的一种变体。本文通过回顾诸多强化学习研究，探讨了离线强化学习的训练过程以及其和类似概念的异同。

同时本文也解释了经典强化学习算法在离线设定下的问题和离线强化学习的研究方向并在此基上提出了对离线强化学习的未来展望。该展望将这些研究路径联系起来，为解决分布偏移问题提供了方案。

在训练阶段，OfflineRL无法让智能体与环境进行交互探索。在这个设定下,我们先根据行为策略\(\pi_{\beta}\)\((\mathbf{a}\mid\mathbf{s})\)与环境交互得到数据集\(\mathcal{D}\)，然后再利用该数据集训练智能体。以Actor-Critic范式为例，给定数据集\(\mathcal{D}=\left\{(\mathbf{s},\mathbf{a},r,\mathbf{s}^{\prime})\right\}\),我们可以将价值迭代（valueiteration）和策略优化（policyoptimization）表示为:

\(\hat{Q}^{k+1}\leftarrow\arg\min_{Q}\mathbb{E}_{\mathbf{s},\mathbf{a}\sim\mathcal{D}}\left[\left(\hat{\mathcal{B}}^\pi\hat{Q}(\mathbf{s},\mathbf{a})-Q(\mathbf{s},\mathbf{a})\right)^2\right],\\\hat{\pi}^{k+1}\leftarrow\arg\max_{\pi}\mathbb{E}_{\mathbf{s}\sim\mathcal{D},\mathbf{a}\sim\pi^{k}(\mathbf{a}\mid\mathbf{s})}\left[\hat{Q}^{k+1}(\mathbf{s},\mathbf{a})\right]\)，

其中，\(\hat{\mathcal{B}}^\pi\)表示遵循策略\(\hat{\pi}\left(\mathbf{a}\mid\mathbf{s}\right)\)的贝尔曼操作符，\(\hat{\mathcal{B}}^\pi\hat{Q}\left(\mathbf{s},\mathbf{a}\right)=\mathbb{E}_{\mathbf{s},\mathbf{a},\mathbf{s}^{\prime}\sim\mathcal{D}}[r(\mathbf{s},\mathbf{a})+\gamma\mathbb{E}_{\mathbf{a}^{\prime}\sim\hat{\pi}^{k}\left(\mathbf{a}^{\prime}\mid\mathbf{s}^{\prime}\right)}\left[\hat{Q}^{k}\left(\mathbf{s}^{\prime},\mathbf{a}^{\prime}\right)\right]]\)

模仿学习（ImitationLearning，IL）也使用静态数据进行训练，且在训练过程中不进行探索，这一点上和OfflineRL是非常相似的。然而，两者也有很多不同之处：

Off-policyRL通常指能够允许产生训练样本的策略（与环境交互的策略）与当前待优化策略不同的一类RL算法。Q-learning算法、利用Q函数的Actor-Critic算法，以及许多基于模型的强化学习算法（Model-basedRL）都属于Off-policyRL。然而，Off-policyRL在学习过程中仍然经常使用额外的交互（即在线数据收集）。

很多前人的研究工作都表明经典强化学习算法在OfflineRL场景表现不佳，甚至很差。论文[6]中表明这是因为在这种情况下，策略倾向于选择偏离数据集\(\mathcal{D}\)的动作（out-of-distribution,OOD）。以基于Q函数的经典算法为例，当待预估数据与离线训练数据分布相同时，Q函数的估计才是准确的，具体的对应关系如下图所示：

THE END

强化学习图鉴｜你与最优策略之间，可能还差一本离线强化学习秘籍

机器学习之增量训练

人工智能中小样本问题相关的系列模型演变及学习笔记（四）：知识蒸馏增量学习FinTecher

人工智能实时增量学习在云音乐直播推荐系统中的实践网易云音乐技术团队

增量学习：在不重新训练的情况下更新模型的能力数据进行

什么时候应该选择决策Transformers进行离线强化学习？算法时域鲁棒性大模型

机器学习术语表：机器学习基础知识 MachineLearning GoogleforDevelopers

强化学习图鉴｜你与最优策略之间，可能还差一本离线强化学习秘籍