离线强化学习是利用预先收集的大规模静态数据集来训练强化学习智能体的关键,它通常被视为强化学习的一种变体。本文通过回顾诸多强化学习研究,探讨了离线强化学习的训练过程以及其和类似概念的异同。
同时本文也解释了经典强化学习算法在离线设定下的问题和离线强化学习的研究方向并在此基上提出了对离线强化学习的未来展望。该展望将这些研究路径联系起来,为解决分布偏移问题提供了方案。
在训练阶段,OfflineRL无法让智能体与环境进行交互探索。在这个设定下,我们先根据行为策略\(\pi_{\beta}\)\((\mathbf{a}\mid\mathbf{s})\)与环境交互得到数据集\(\mathcal{D}\),然后再利用该数据集训练智能体。以Actor-Critic范式为例,给定数据集\(\mathcal{D}=\left\{(\mathbf{s},\mathbf{a},r,\mathbf{s}^{\prime})\right\}\),我们可以将价值迭代(valueiteration)和策略优化(policyoptimization)表示为:
\(\hat{Q}^{k+1}\leftarrow\arg\min_{Q}\mathbb{E}_{\mathbf{s},\mathbf{a}\sim\mathcal{D}}\left[\left(\hat{\mathcal{B}}^\pi\hat{Q}(\mathbf{s},\mathbf{a})-Q(\mathbf{s},\mathbf{a})\right)^2\right],\\\hat{\pi}^{k+1}\leftarrow\arg\max_{\pi}\mathbb{E}_{\mathbf{s}\sim\mathcal{D},\mathbf{a}\sim\pi^{k}(\mathbf{a}\mid\mathbf{s})}\left[\hat{Q}^{k+1}(\mathbf{s},\mathbf{a})\right]\),
其中,\(\hat{\mathcal{B}}^\pi\)表示遵循策略\(\hat{\pi}\left(\mathbf{a}\mid\mathbf{s}\right)\)的贝尔曼操作符,\(\hat{\mathcal{B}}^\pi\hat{Q}\left(\mathbf{s},\mathbf{a}\right)=\mathbb{E}_{\mathbf{s},\mathbf{a},\mathbf{s}^{\prime}\sim\mathcal{D}}[r(\mathbf{s},\mathbf{a})+\gamma\mathbb{E}_{\mathbf{a}^{\prime}\sim\hat{\pi}^{k}\left(\mathbf{a}^{\prime}\mid\mathbf{s}^{\prime}\right)}\left[\hat{Q}^{k}\left(\mathbf{s}^{\prime},\mathbf{a}^{\prime}\right)\right]]\)
模仿学习(ImitationLearning,IL)也使用静态数据进行训练,且在训练过程中不进行探索,这一点上和OfflineRL是非常相似的。然而,两者也有很多不同之处:
Off-policyRL通常指能够允许产生训练样本的策略(与环境交互的策略)与当前待优化策略不同的一类RL算法。Q-learning算法、利用Q函数的Actor-Critic算法,以及许多基于模型的强化学习算法(Model-basedRL)都属于Off-policyRL。然而,Off-policyRL在学习过程中仍然经常使用额外的交互(即在线数据收集)。
很多前人的研究工作都表明经典强化学习算法在OfflineRL场景表现不佳,甚至很差。论文[6]中表明这是因为在这种情况下,策略倾向于选择偏离数据集\(\mathcal{D}\)的动作(out-of-distribution,OOD)。以基于Q函数的经典算法为例,当待预估数据与离线训练数据分布相同时,Q函数的估计才是准确的,具体的对应关系如下图所示: