离线强化学习OfflineReinforcementLearning之BEAR算法芋圆院长|离线强化学习中的算子是什么_在线学习

本文主要是记录一些自己在读上述论文时的笔记~

当我们将话题转向数据不更新的off-policy强化学习时，（限定下讨论范围为value-based）问题自然转向为什么有些动作状态对的值会估计不准确。这正是由于数据不更新，如果本来就没有这个只靠你自己拟合出来的值函数泛化，自然就容易出问题（你也不一定能猜对啊），即为out-of-distributioninputs。本文就是针对该情况形式化并分析了从非策略数据学习时不稳定和性能差的原因。并表明通过仔细的动作选择，可以减轻通过Q函数的错误传播。具体提出的方法就是基于支撑集概念的BEAR算法。“Ourapproachismotivatedasreducingtherateofpropagationoferrorpropagationbetweenstates.”

论文试验表明该方法在连续控制MuJoCo任务上的有效性，包括各种非策略数据集：由随机、次优或最优策略生成。BEAR对训练数据集始终具有鲁棒性，在所有情况下都匹配或超过最新技术，而现有算法仅对特定数据集表现良好。

background部分属于强化学习常规知识介绍，在此不做赘述。

为了减轻自举错误，可以限制策略确保它输出支持训练分布的操作。这与BCQ不同，后者隐式地限制学习策略的分布，使其接近行为策略，类似于行为克隆。虽然这足以确保动作以高概率出现在训练集中，但限制性太强。例如，如果行为策略接近统一，则学习的策略随机性较强导致性能不佳，即使数据足以学习强策略。

(DefineandanalyzeabackupoperatorthatrestrictsthesetofpoliciesusedinthemaximizationoftheQ-function.)

【为什么是这两个部分？】

这里的定义还需要分析一下

如上所述，主要通过K个Q函数和寻找策略集的约束来实现SAC中的策略改进步骤。

THE END

离线强化学习OfflineReinforcementLearning之BEAR算法芋圆院长

自然语言强化学习：一个可处理语言反馈的强化学习框架

《C++赋能强化学习：Qlearning算法的实现之路》鸿蒙开发者社区

拥抱PyTorch，来自Gauss的自我革命算法算子推理gausspytorchtensorflow

一文看懂什么是强化学习?(基本概念应用场景主流算法案例)

离线强化学习OfflineReinforcementLearning之BEAR算法芋圆院长

Flink+强化学习搭建实时推荐系统个人文章

让强化学习走出游戏环境——俞扬，2020年CCFIEEE CS青年科学家奖获得者

阿里BladeDISC深度学习编译器正式开源