大模型训练流程（四）强化学习|在线强化学习_在线学习

强化学习的目的是在大模型指令微调后，让LLM的行为与人类“对齐”，使其能够理解人类指令并做出对人有帮助的回答，纠正错误和有害的知识。RLHF本质上是通过人类的反馈来优化模型，生成的文本会更加的自然。

以SFT为初始策略，基于RM对策略打分，使用强化学习优化策略，得到强化版本的模型PPO。

随着SFT被优化，得到的PPO模型生成的回复越来越符合人类偏好，最开始训练得到的奖励模型在这种高质量回复上不够鲁棒。为了缓解这个问题，参考论文AnthropicLLM，可以进一步采用在线迭代训练：使用每一轮强化学习得到的最好的PPO模型生成比较数据进行人工标注。将新的比较数据与已有的数据混合，重新训练一个新的奖励模型，最后用新的奖励模型进行新一轮的PPO训练。

PPO是强化学习中一种基于AC架构（Actor-Critic）的优化方法，其前身是TRPO，PPO通过引入重要性采样（ImportanceSampling）来缓解onpolicy模型一次采样数据只能更新一次模型的问题，提升了数据利用率和模型训练速度。

在LLM的训练中，使用PPO需要同时载入4个模型：ActorModel：Actor模型是用于进化训练的生成模型。它负责生成策略，根据当前状态选择动作的概率分布。CriticModel：Critic模型是用于进化训练的评判模型。它负责估计状态值函数或状态-动作值函数，提供对策略的评估和指导。RefModel：Ref模型是参照模型，用于通过KL散度来限制Actor模型的训练方向。它的作用是提供一个参考策略，确保Actor模型的更新在一定的范围内，避免过大的策略变化。RewardModel：Reward模型是奖励模型，用于指导Actor的进化。它可以提供额外的奖励信号或指导信息，帮助Actor模型更好地优化策略。

其中Actormodel和Refmodel是RLHF第一个阶段有监督微调模型的两个副本，Rewardmodel和Criticmodel是奖励模型的两个副本。为了节省显存，通常会将actor/critic共享一个backbone，这样只用同时载入3个模型。

KLPenalty：适当调大KL可以帮助稳定训练（可使用动态调整KL系数策略）。RewardModel：使用一个更稳定的RM能够有效缓解这种问题。RewardScaling：reward的归一化对训练稳定有着很重要的作用。BatchSize：适当增大batch_size有助于训练稳定。

THE END

大模型训练流程（四）强化学习

GoogleDeepMind推出DemoStart自主强化学习方法谷歌实验机器人deepminddemostart

强化学习和在线学习的区别是什么?Worktile社区

AWAC：使用离线数据集加速在线强化学习技术博客技术支持京天机器人官网

上海SAT在线强化班SAT考试培训哪家好

扩散模型如何构建新一代决策智能体？超越自回归，同时生成长序列规划轨迹智能体新浪科技

ADL130《因果学习与决策》开始报名线上线下同步举办

大模型训练流程（四）强化学习

强化学习（六）时序差分在线控制算法SARSA刘建平Pinard

2023煤质个人工作心得体会（精选20篇）