大模型RLHF算法更新换代,DeepMind提出自训练离线强化学习框架ReST机器翻译restdeepmind

大模型(LLMs)爆火的背后,离不开多种不同基础算法技术的支撑,例如基础语言架构Transformer、自回归语言建模、提示学习和指示学习等等。这些技术造就了像GPT-3、PaLM等基座生成模型,在这些基座模型之上,研究人员通过引入人类反馈的强化学习算法(RLHF)开发出了例如ChatGPT这些与人类偏好保持一致的可聊天模型,才将LLMs真正带领到公众视野中。RLHF由于自身在线更新的限制带来了较大的训练计算代价,且容易遭到”外部攻击“。

一、引言

如何将LLMs的输出与人类偏好或价值观进行高效的对齐,是目前提升LLMs性能的关键问题,如果没有进行适当的对齐处理,LLMs可能会产生风险高或完全错误的内容,这对于下游应用程序具有毁灭性的影响。目前常用的RLHF方法通常使用人类反馈的标注数据来学习一个奖励模型,然后将其用于强化学习目标来对LLM进行微调对齐。但是RLHF通常依赖于在线RL方法,例如PPO[1]和A2C[2],这就需要在模型训练过程中多次使用奖励模型来从更新后的策略中采样新样本,这会带来高昂的计算代价。为了解决这一问题,本文提出了一个自训练强化学习算法ReST,ReST将人类标注员从反馈训练循环中丢弃,自行生成并使用离线数据进行反馈训练。作者巧妙地设计了一个内外循环机制,如下图所示。

其中外循环称为Grow循环,模型会根据当前的策略来采样生成一个对齐数据集,内循环称为Improve循环,模型会对外循环生成的数据集进行过滤(使用人类偏好评分函数对样本进行排序过滤),并将过滤后的数据继续用于微调优化策略,内外循环相互影响,以降低采样数据带来的训练成本。ReST不再依赖在线的RL损失,因而成为了一种通用的强化学习框架,允许在执行Improve循环时使用不同的离线RL损失,使整体框架更具灵活性。

二、本文方法2.1ReST的整体流程

ReST方法从训练一个条件语言模型出发,给定上下文序列生成输出序列,模型的自回归形式可以表示如下:

随后ReST使用Grow循环采样得到一个数据集,该数据集的分布可以表示为:

通过使用该数据集,ReST可以通过最小化负对数似然(NLL)损失来训练监督策略的优化:

2.2Grow外循环

ReST算法将普通RL算法中的数据集构建和策略优化过程解耦成两个单独的离线操作,其中在Grow外循环中会创建一个新数据集,它使用初始条件模型生成的样本来扩充初始训练数据集:

其中,条件输入是从原始数据集中重新采样的,这一过程可以理解为自训练。此外也可以通过访问来采样得到样本,例如,在一个根据文本生成图像的模型,文本输入的分布可以直接从语言模型中采样。

Grow循环步骤对应于RL中的数据生成操作,在得到之后,即根据当前策略得到,其中,作者仍然保留原始数据集,使其与新生成的数据混合得到新离线数据集,这样可以保证策略函数不会发散。随后就可以使用奖励函数来对不同的策略函数计算奖励,如下图下半部分所示。

其中奖励值高于指定的阈值分数的数据点会在Improve循环中来对策略函数进行更新(在下一节中会详细介绍),例如上图中的灰色部分,如果在这些区域内进行采样,会得到质量更高的样本,可以用来生成下一批次的数据集。

2.2Improve内循环

Improve循环主要用来对ReST算法中的策略函数进行更新,更新的形式是使用新的数据集来微调策略。为此,作者首先定义了一个过滤函数,该函数可以得到奖励值只高于特定阈值的样本:

接下来使用过滤后的数据对当前的最佳策略进行微调,通常使用上文提到的监督损失或离线RL损失进行训练,可以得到以下奖励加权损失:

如上图所示,当Improve循环不断向前迭代时,过滤阈值也在不断增大,这种随着阈值增加而进行的过滤操作会导致数据子集的质量不断提高,但样本数量却不断减小。由于LLMs存在在小型数据集快速过拟合的问题,因此作者每次使用较低的学习率对前一代的策略进行微调。此外由于Grow循环中的策略采样计算代价较大,因此在每次Grow步骤之后,都会执行多次Improve步骤,这样就可以将单个数据集生成的成本分摊到多个Improve步骤上,下图描述了完整的ReST算法流程,包括具体的内外循环调度过程。

三、实验效果

本文的实验主要在机器翻译基准上进行,作者选取了IWSLT2014、WMT2020和WebDomain三个数据集,其中前两者为常见的机器翻译数据集,后者为内部测试数据集,这些数据集都包含一组语言文本和对应人类标注员给出的真实参考翻译。作者选取了几种不同的离线强化学习算法作为baseline对比方法,包括OAC、BVM、PO、GOLD和BC。

3.1对Improve循环进行分析

作者首先分析了ReST的两个循环步骤对最终性能的影响,例如增加Improve循环的次数是否会增加奖励模型的分数,如下图所示,灰色柱状为监督学习baseline的分数,通过调整损失函数类型、Improvesteps(I)和Growsteps(G)来构成不同的ReST变体,其分数为紫色柱状所示。

可以看到,随着Improvesteps数量的不断增加,ReST在所有三个数据集上的平均奖励分数都得到了提高。

3.2对Grow循环进行分析

Grow步骤可以不断增加离线训练的样本数量,因此作者对比了执行单次Grow步骤和执行两次Grow步骤后的模型性能,如下图所示,执行两次Grow步骤的ReST变体在IWSLT2014和WebDomain数据集上都有明显的提升。

3.3对损失函数进行分析

在下图中作者展示了本文方法与监督训练模型,以及使用不同损失函数的ReST变体的平均奖励分数对比,可以观察到,即使只使用单次Grow步骤,ReST的不同变体(紫色)也显着优于监督学习模型(灰色)得到的奖励分数。

此外,我们也可以观察到,BC损失在单次Grow步骤的情况下,明显优于使用其他损失函数的效果。

3.4ReST与在线RL算法进行对比

作者选取PPO算法作为对比在线RL算法,PPO广泛用于各式RLHF流程中。在实验中,PPO算法可以通过单次Grow步骤访问与ReST算法相当数量的训练数据,对比结果如下表所示。

可以看到,在线PPO算法的平均奖励分数基本与ReST算法持平,但是这只是在单次Grow步骤的情况下,当ReST使用多步Grow和Improve后(并且参与训练的数据量相同),性能会得到显著的提升。

四、总结

本文提出了一种名为ReST的自训练离线强化学习算法,其中包含了一种新型的内外循环机制(分为Grow外循环和Improve内循环)来高效的调度RL过程中的策略生成和更新。同时其具有良好的拓展性,可以灵活的应用在多种不同的RL损失中,本文作者在机器翻译基准上的实验表明,使用常用的BC损失可以使ReST在多种不同的环境中得到更高的奖励分数。ReST的提出也向社区宣布,在对LLMs执行与人类偏好对齐时,可以尝试除PPO等在线RL算法之外的更多RL优化手段。

参考

[1]J.Schulman,F.Wolski,P.Dhariwal,A.Radford,andO.Klimov.Proximalpolicyoptimizationalgorithms.arXivpreprintarXiv:1707.06347,2017.

[2]V.Mnih,A.P.Badia,M.Mirza,A.Graves,T.Harley,T.P.Lillicrap,D.Silver,andK.Kavukcuoglu.Asynchronousmethodsfordeepreinforcementlearning.InInternationalConferenceonLearningRepresentations,2016.

作者:seven_

IllustrationbyIconScoutStorefromIconScout

-TheEnd-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

投稿内容

//前沿资讯解说/心得经历讲述//

投稿须知

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

THE END
1.离线强化学习算法集锦BCQ是一种离线行为克隆算法,从离线数据中学习策略,并通过Q值校正来改进性能。 2、BEAR (Bootstrapping Error Accumulation Reduction) BEAR是一种离线强化学习算法,通过利用离线数据进行训练,并使用自举方法来减少误差积累。 3、TD3-BC (Twin Delayed Deep Deterministic Policy Gradient with Behavior Cloning) https://blog.csdn.net/weixin_45616285/article/details/136629915
2.强化学习离线模型离线模型和在线模型强化学习离线模型 离线模型和在线模型 在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。 本文尝试列举一些常见的原因,为大家排查问题提供一点思路。 1. 离线、在线特征不一致https://blog.51cto.com/u_14499/11815202
3.离线强化学习(OfflineRL)总结(原理数据集算法复杂性分析离线强化学习(Offline RL)作为深度强化学习的子领域,其不需要与模拟环境进行交互就可以直接从数据中学习一套策略来完成相关任务,被认为是强化学习落地的重要技术之一。本文详细的阐述了强化学习到离线强化学习的发展过程,并就一些经典的问题进行了解释和说明。 https://cloud.tencent.com/developer/article/2119884
4.人工智能团队研究成果在TKDE发表:样本高效的离线转在线强化学习算法实验室人工智能团队在D4RL基准测试上进行了大量实验来说明本研究中提出的算法的优越性。实验结果表明,本研究提出的算法在样本效率方面显著优于最先进的离线转在线强化学习算法。 相关的研究成果近期发表在TKDE上,文章第一作者为吉林大学未来科学国际合作联合实验室博士生郭思源,通讯作者为吉林大学陈贺昌教授和常毅教授。http://icfs.jlu.edu.cn/info/1007/3101.htm
5.离线强化学习因此,离线强化学习(offline reinforcement learning)的目标是,在智能体不和环境交互的情况下,仅从已经收集好的确定的数据集中,通过强化学习算法得到比较好的策略。离线强化学习和在线策略算法、离线策略算法的区别如图 18-1 所示。图18-1 离线强化学习和在线策略算法、离线策略算法的区别https://hrl.boyuai.com/chapter/3/%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/
6.在对齐AI时,为什么在线方法总是优于离线方法?澎湃号·湃客AI 对齐是否必需在线强化学习? 对于这个问题,人们希望既知道其理论上的答案,也希望明晰实验给出的解答。 从实证角度看,相比于大家常用的在线 RLHF(由偏好建模和从模型采样组成),离线算法实现起来要简单得多,成本也低得多。因此,收集有关离线算法的充分性的证据可让 AI 对齐变得更加简单。另一方面,如果能明晰常用在https://www.thepaper.cn/newsDetail_forward_27434433
7.科学网—[转载]强化学习在资源优化领域的应用基于这种行业趋势,本文针对强化学习算法在资源优化领域的应用展开调研,帮助读者了解该领域最新的进展,学习如何利用数据驱动的方式解决资源优化问题。鉴于资源优化问题场景众多、设定繁杂,划分出3类应用广泛的资源优化问题,即资源平衡问题、资源分配问题、装箱问题,集中进行调研。在每个领域阐述问题的特性,并根据具体的问题特性https://blog.sciencenet.cn/blog-3472670-1312677.html
8.强化学习的基本概念在线学习和离线学习针对的是在强化学习模型在训练过程中交互数据的使用方式。在线学习的强化学习模型,会在一个交互之后,立即用本次交互得到的经验进行训练。而离线学习的强化学习模型,往往是先将多个交互的经验存储起来,然后在学习的时候,从存储的经验中取出一批交互经验来学习。 https://www.jianshu.com/p/28625d3a60e6
9.一种用于医学数据的强化学习算法模型构建方法和设备专利在线阅读 下载 引用 收藏 分享 打印 摘要:本发明涉及医学数据技术领域,具体涉及一种用于医学数据的强化学习算法模型构建方法和设备,在本申请中,结合了BCQ和CQL两种算法的优势,减少了离线强化学习中的外推误差,使得强化学习模型生成更合理的动作;并且为强化学习算法模型建立了损失函数,提升了原始动作的评分,降低了生成动https://d.wanfangdata.com.cn/patent/CN202311576836.1
10.NeurIPS2022赋能产业界的人工智能研究新趋势图1:自动强化学习算法框架(上);搜索过程可视化图(下) 自提升离线强化学习 论文链接:https://www.microsoft.com/en-us/research/publication/bootstrapped-transformer-for-offline-reinforcement-learning/ 项目主页:https://seqml.github.io/bootorl/ 随着强化学习在真实世界场景中的需求逐渐增大,作为一种新的强化学习https://www.msra.cn/zh-cn/news/features/neurips-2022-industry-ai
11.基于深度强化学习的水面无人艇路径跟踪方法4.为此,公开号为cn113625725a的中国专利就公开了《一种水面无人艇路径跟踪控制方法》,包括:设定期望跟踪路径,将期望跟踪路径离散化形成期望路径点阵;判断无人艇距离期望路径点阵的起始点的距离;根据设计参数和无人艇位置确定参考点的位置,根据路径曲率信息求得参考点处的曲率,然后根据制导算法公式求得加速度:计算由加https://www.xjishu.com/zhuanli/54/202210772926.html/
12.万字长文总结如何解决"稀疏奖励(SparseReward)"下的强化学习本文是对强化学习中行为克隆(Behavioral Cloning,BC)方法的改进,最新接收于 ICLR2020。本文使用了一个简单、稳定的奖励:将与示范状态下的示范动作相匹配的动作奖励 + 1,而其它动作奖励为 0,引入 Soft-Q-Learning 算法,提出了适用于高维、连续、动态环境的模仿学习算法。 https://www.zhuanzhi.ai/document/7f6d15f412639a573254a0f80300779a
13.一种基于深度强化学习的三维装箱方法.pdf想预览更多内容,点击免费在线预览全文 免费在线预览全文 本发明涉及一种基于深度强化学习的三维装箱方法,属于物流及物品装箱技术领域。该方法包括训练和使用两个阶段,在训练阶段通过DoubleDQN算法使用训练数据训练模型,从历史经验中学习;在使用阶段利用训练好的模型作为动作评判标准进行决策,产生具体的装箱方案。该方法将大https://max.book118.com/html/2023/0830/6152000235005221.shtm
14.仙启POLIXIR REVIVE SDK是一款数据驱动的强化学习(RL)工具包,它集成了南栖仙策的通用智能决策算法,专注于解决离线强化学习问题。该工具包利用历史数据来学习最优策略, 而无需与真实环境进行额外交互,从而实现决策过程的自动化并率先实现真实业务的落地。 商业版 https://revive.cn/sdk
15.基于可变保守程度离线强化学习的机器人运动控制方法为了解决以保守Q学习(Conservative Q-Learning, CQL)为代表的离线强化学习算法保守程度固定不变,导致学习到的策略过于保守的问题,文中提出了一种名为可变保守程度Q学习(Variable Conservativeness Q-Learning, VCQL)的离线强化学习算法。VCQL算法在CQL算法的基础上引入了对于状态动作对偏离数据集的程度衡量,并能够根据偏https://wap.cnki.net/touch/web/Journal/Article/JZDF20240510007.html