大模型RLHF算法更新换代，DeepMind提出自训练离线强化学习框架ReST机器翻译restdeepmind|在线离线强化算法_在线学习

大模型（LLMs）爆火的背后，离不开多种不同基础算法技术的支撑，例如基础语言架构Transformer、自回归语言建模、提示学习和指示学习等等。这些技术造就了像GPT-3、PaLM等基座生成模型，在这些基座模型之上，研究人员通过引入人类反馈的强化学习算法（RLHF）开发出了例如ChatGPT这些与人类偏好保持一致的可聊天模型，才将LLMs真正带领到公众视野中。RLHF由于自身在线更新的限制带来了较大的训练计算代价，且容易遭到”外部攻击“。

一、引言

如何将LLMs的输出与人类偏好或价值观进行高效的对齐，是目前提升LLMs性能的关键问题，如果没有进行适当的对齐处理，LLMs可能会产生风险高或完全错误的内容，这对于下游应用程序具有毁灭性的影响。目前常用的RLHF方法通常使用人类反馈的标注数据来学习一个奖励模型，然后将其用于强化学习目标来对LLM进行微调对齐。但是RLHF通常依赖于在线RL方法，例如PPO[1]和A2C[2]，这就需要在模型训练过程中多次使用奖励模型来从更新后的策略中采样新样本，这会带来高昂的计算代价。为了解决这一问题，本文提出了一个自训练强化学习算法ReST，ReST将人类标注员从反馈训练循环中丢弃，自行生成并使用离线数据进行反馈训练。作者巧妙地设计了一个内外循环机制，如下图所示。

其中外循环称为Grow循环，模型会根据当前的策略来采样生成一个对齐数据集，内循环称为Improve循环，模型会对外循环生成的数据集进行过滤（使用人类偏好评分函数对样本进行排序过滤），并将过滤后的数据继续用于微调优化策略，内外循环相互影响，以降低采样数据带来的训练成本。ReST不再依赖在线的RL损失，因而成为了一种通用的强化学习框架，允许在执行Improve循环时使用不同的离线RL损失，使整体框架更具灵活性。

二、本文方法2.1ReST的整体流程

ReST方法从训练一个条件语言模型出发，给定上下文序列生成输出序列，模型的自回归形式可以表示如下：

随后ReST使用Grow循环采样得到一个数据集，该数据集的分布可以表示为：

通过使用该数据集，ReST可以通过最小化负对数似然（NLL）损失来训练监督策略的优化：

2.2Grow外循环

ReST算法将普通RL算法中的数据集构建和策略优化过程解耦成两个单独的离线操作，其中在Grow外循环中会创建一个新数据集，它使用初始条件模型生成的样本来扩充初始训练数据集：

其中，条件输入是从原始数据集中重新采样的，这一过程可以理解为自训练。此外也可以通过访问来采样得到样本，例如，在一个根据文本生成图像的模型，文本输入的分布可以直接从语言模型中采样。

Grow循环步骤对应于RL中的数据生成操作，在得到之后，即根据当前策略得到，其中，作者仍然保留原始数据集，使其与新生成的数据混合得到新离线数据集，这样可以保证策略函数不会发散。随后就可以使用奖励函数来对不同的策略函数计算奖励，如下图下半部分所示。

其中奖励值高于指定的阈值分数的数据点会在Improve循环中来对策略函数进行更新（在下一节中会详细介绍），例如上图中的灰色部分，如果在这些区域内进行采样，会得到质量更高的样本，可以用来生成下一批次的数据集。

2.2Improve内循环

Improve循环主要用来对ReST算法中的策略函数进行更新，更新的形式是使用新的数据集来微调策略。为此，作者首先定义了一个过滤函数，该函数可以得到奖励值只高于特定阈值的样本：

接下来使用过滤后的数据对当前的最佳策略进行微调，通常使用上文提到的监督损失或离线RL损失进行训练，可以得到以下奖励加权损失：

如上图所示，当Improve循环不断向前迭代时，过滤阈值也在不断增大，这种随着阈值增加而进行的过滤操作会导致数据子集的质量不断提高，但样本数量却不断减小。由于LLMs存在在小型数据集快速过拟合的问题，因此作者每次使用较低的学习率对前一代的策略进行微调。此外由于Grow循环中的策略采样计算代价较大，因此在每次Grow步骤之后，都会执行多次Improve步骤，这样就可以将单个数据集生成的成本分摊到多个Improve步骤上，下图描述了完整的ReST算法流程，包括具体的内外循环调度过程。

三、实验效果

本文的实验主要在机器翻译基准上进行，作者选取了IWSLT2014、WMT2020和WebDomain三个数据集，其中前两者为常见的机器翻译数据集，后者为内部测试数据集，这些数据集都包含一组语言文本和对应人类标注员给出的真实参考翻译。作者选取了几种不同的离线强化学习算法作为baseline对比方法，包括OAC、BVM、PO、GOLD和BC。

3.1对Improve循环进行分析

作者首先分析了ReST的两个循环步骤对最终性能的影响，例如增加Improve循环的次数是否会增加奖励模型的分数，如下图所示，灰色柱状为监督学习baseline的分数，通过调整损失函数类型、Improvesteps（I）和Growsteps（G）来构成不同的ReST变体，其分数为紫色柱状所示。

可以看到，随着Improvesteps数量的不断增加，ReST在所有三个数据集上的平均奖励分数都得到了提高。

3.2对Grow循环进行分析

Grow步骤可以不断增加离线训练的样本数量，因此作者对比了执行单次Grow步骤和执行两次Grow步骤后的模型性能，如下图所示，执行两次Grow步骤的ReST变体在IWSLT2014和WebDomain数据集上都有明显的提升。

3.3对损失函数进行分析

在下图中作者展示了本文方法与监督训练模型，以及使用不同损失函数的ReST变体的平均奖励分数对比，可以观察到，即使只使用单次Grow步骤，ReST的不同变体（紫色）也显着优于监督学习模型（灰色）得到的奖励分数。

此外，我们也可以观察到，BC损失在单次Grow步骤的情况下，明显优于使用其他损失函数的效果。

3.4ReST与在线RL算法进行对比

作者选取PPO算法作为对比在线RL算法，PPO广泛用于各式RLHF流程中。在实验中，PPO算法可以通过单次Grow步骤访问与ReST算法相当数量的训练数据，对比结果如下表所示。

可以看到，在线PPO算法的平均奖励分数基本与ReST算法持平，但是这只是在单次Grow步骤的情况下，当ReST使用多步Grow和Improve后（并且参与训练的数据量相同），性能会得到显著的提升。

四、总结

本文提出了一种名为ReST的自训练离线强化学习算法，其中包含了一种新型的内外循环机制（分为Grow外循环和Improve内循环）来高效的调度RL过程中的策略生成和更新。同时其具有良好的拓展性，可以灵活的应用在多种不同的RL损失中，本文作者在机器翻译基准上的实验表明，使用常用的BC损失可以使ReST在多种不同的环境中得到更高的奖励分数。ReST的提出也向社区宣布，在对LLMs执行与人类偏好对齐时，可以尝试除PPO等在线RL算法之外的更多RL优化手段。

参考

[1]J.Schulman,F.Wolski,P.Dhariwal,A.Radford,andO.Klimov.Proximalpolicyoptimizationalgorithms.arXivpreprintarXiv:1707.06347,2017.

[2]V.Mnih,A.P.Badia,M.Mirza,A.Graves,T.Harley,T.P.Lillicrap,D.Silver,andK.Kavukcuoglu.Asynchronousmethodsfordeepreinforcementlearning.InInternationalConferenceonLearningRepresentations,2016.

作者：seven_

IllustrationbyIconScoutStorefromIconScout

-TheEnd-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

投稿内容

//前沿资讯解说/心得经历讲述//

投稿须知

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

THE END

大模型RLHF算法更新换代，DeepMind提出自训练离线强化学习框架ReST机器翻译restdeepmind

今天来讨论下离线强化学习方法

离线强化学习(OfflineReinforcementLearning)芋圆院长

大模型面经答案—强化学习：理论解释与讲解

大模型RLHF算法更新换代，DeepMind提出自训练离线强化学习框架ReST机器翻译restdeepmind

AWAC：使用离线数据集加速在线强化学习技术博客技术支持京天机器人官网

基于离线强化学习的实时流媒体带宽精确预测MMsys’24

基于单/多智能体简化强化学习的电力系统无功电压控制

深度强化学习算法与应用研究现状综述

大模型下一站，OpenAI万字长文解读AIAgents

DDPG算法中采集的数据可以是离线采集的吗–PingCode