大模型训练流程(四)强化学习

强化学习的目的是在大模型指令微调后,让LLM的行为与人类“对齐”,使其能够理解人类指令并做出对人有帮助的回答,纠正错误和有害的知识。RLHF本质上是通过人类的反馈来优化模型,生成的文本会更加的自然。

以SFT为初始策略,基于RM对策略打分,使用强化学习优化策略,得到强化版本的模型PPO。

随着SFT被优化,得到的PPO模型生成的回复越来越符合人类偏好,最开始训练得到的奖励模型在这种高质量回复上不够鲁棒。为了缓解这个问题,参考论文AnthropicLLM,可以进一步采用在线迭代训练:使用每一轮强化学习得到的最好的PPO模型生成比较数据进行人工标注。将新的比较数据与已有的数据混合,重新训练一个新的奖励模型,最后用新的奖励模型进行新一轮的PPO训练。

PPO是强化学习中一种基于AC架构(Actor-Critic)的优化方法,其前身是TRPO,PPO通过引入重要性采样(ImportanceSampling)来缓解onpolicy模型一次采样数据只能更新一次模型的问题,提升了数据利用率和模型训练速度。

在LLM的训练中,使用PPO需要同时载入4个模型:ActorModel:Actor模型是用于进化训练的生成模型。它负责生成策略,根据当前状态选择动作的概率分布。CriticModel:Critic模型是用于进化训练的评判模型。它负责估计状态值函数或状态-动作值函数,提供对策略的评估和指导。RefModel:Ref模型是参照模型,用于通过KL散度来限制Actor模型的训练方向。它的作用是提供一个参考策略,确保Actor模型的更新在一定的范围内,避免过大的策略变化。RewardModel:Reward模型是奖励模型,用于指导Actor的进化。它可以提供额外的奖励信号或指导信息,帮助Actor模型更好地优化策略。

其中Actormodel和Refmodel是RLHF第一个阶段有监督微调模型的两个副本,Rewardmodel和Criticmodel是奖励模型的两个副本。为了节省显存,通常会将actor/critic共享一个backbone,这样只用同时载入3个模型。

KLPenalty:适当调大KL可以帮助稳定训练(可使用动态调整KL系数策略)。RewardModel:使用一个更稳定的RM能够有效缓解这种问题。RewardScaling:reward的归一化对训练稳定有着很重要的作用。BatchSize:适当增大batch_size有助于训练稳定。

THE END
1.持续学习与在线强化学习.pptx2.通过持续学习和在线强化学习,可以实现更智能、更自主的系统,提高生产效率和服务质量。3.未来,持续学习与强化学习将成为人工智能领域的重要研究方向之一。在线强化学习的基本原理持续学习与在线强化学习在线强化学习的基本原理在线强化学习的定义1.在线强化学习是在线学习和强化学习的结合,通过实时的反馈和数据进行模型优化https://m.renrendoc.com/paper/297429452.html
2.离线强化学习在线强化学习分类离线训练平台对于学习无人驾驶的人来说,apollo是一个比较完整且系统的无人驾驶平台,比较适合入门。学习的第一步是安装并使用该平台,安装过程中网上有很多在线教程,都总结的比较好,但在线安装apollo的平台过程中,其镜像下载有十几个G,而且下载速度较慢,如果网络不稳定,很容易下载失败,导致安装过程可能要很就,为此查找多方资料,将https://blog.51cto.com/u_12195/10796191
3.强化学习正文.indd.PDF免费在线阅读免费在线预览全文 强化学习正文.indd.PDF 第二部分 Reinforcement Learning: State-of-the-Art 高效的解决方案框架 43 ~ 44 第2 章 Reinforcement Learning: State-of-the-Art 批处理强化学习 Sascha Lange, Thomas Gabel, Martin Riedmiller 摘要 批处理强化学习(Batch Reinforcement Learning ,BRL )是基于动态规划https://max.book118.com/html/2019/0106/8102037013002000.shtm
4.强化学习基础本章将要讲解无模型的强化学习中的两大经典算法:Sarsa 和 Q-learning,它们都是基于时序差分(temporal difference,TD)的强化学习算法。同时,本章还会引入一组概念:在线策略学习和离线策略学习。通常来说,在线策略学习要求使用在当前策略下采样得到的样本进行学习,一旦策略被更新,当前的样本就被放弃了,就好像在水龙头下https://blog.csdn.net/zj_18706809267/article/details/126330913
5.强化学习的基本概念在线学习和离线学习针对的是在强化学习模型在训练过程中交互数据的使用方式。在线学习的强化学习模型,会在一个交互之后,立即用本次交互得到的经验进行训练。而离线学习的强化学习模型,往往是先将多个交互的经验存储起来,然后在学习的时候,从存储的经验中取出一批交互经验来学习。 https://www.jianshu.com/p/28625d3a60e6
6.深度强化学习导论复旦大学课程从强化学习的基本概念谈起,介绍了重要的Bellman方程。然后介绍经典的时序差分、SARSA、Q-Learning、深度Q网络、Double DQN、Actor-critic、Policy Gradient、A2C以及A3C、TRPO、PPO等常用的深度强化学习算法。此外,还通过典型的案例分析,以及腾讯开悟平台对上述算法进行实验,方便理解,动手实践。 https://www.xuetangx.com/course/fdu0809bt2074/16903515
7.关于进一步加强学习强国在线学习的通知为进一步有效利用“学习强国”这一重要学习平台,推动全院师生提升理论水平、深化思想认识、加强政治素养,现就加强“学习强国”在线学习提出如下要求: 一、强化思想认识 “学习强国”平台是党中央确定的权威理论学习平台,是推动习近平新时代中国特色社会主义思想深入人心的有效载体,是新时代强化理论武装、深化思想教育、提高政https://slxy.wzu.edu.cn/info/1048/17976.htm
8.干部在线培训学习心得体会(通用21篇)学习能促进思维创新,思维创新促进智力发展。这市委委组织部又推出网上平台学习,对干部队伍强化学习、提高素质起到了极大的促进作用。 一是在线学习解决了工学矛盾的突出问题。它突破了面对面式授课,使整个学习变得灵活便捷,完全可以利用工作的闲暇时间,打开电脑就能进入“干部在线学习系统”。因此,一些零散的时间也就变成https://www.ruiwen.com/xindetihui/3426039.html
9.科学网—[转载]强化学习在资源优化领域的应用摘要:资源优化问题广泛存在于社会、经济的运转中,积累了海量的数据,给强化学习技术在这一领域的应用奠定了基础。由于资源优化问题覆盖广泛,从覆盖广泛的资源优化问题中划分出3类重要问题,即资源平衡问题、资源分配问题和装箱问题。并围绕这3类问题总结强化学习技术的最新研究工作,围绕各研究工作的问题建模、智能体设计等https://blog.sciencenet.cn/blog-3472670-1312677.html
10.工商管理学习心得体会6篇1、在线学习: 它是我最喜欢利用的一种网上资源,因为它可视性强、生动形象、更新快,比我们单纯地看课本要实用得多,相对于函授教学也开放得多,不理解的问题可重新看,更可加深我们对课程的理解与记忆。 2、交流园地网上讨论: 它是一个比较实用的交流工具。可与辅导伟德讨论交流,把难点、重点与老师和同学共同分享、https://www.unjs.com/fanwenwang/xdth/20230113170012_6262736.html
11.GitHubWDWSD/easy第3 章和第 12 章根据《世界冠军带你从零实践强化学习》整理而来。 纸质版 购买链接:京东|当当 勘误表:https://datawhalechina.github.io/easy-rl/#/errata 豆瓣评分:https://book.douban.com/subject/35781275/ 在线阅读(内容实时更新) 地址:https://datawhalechina.github.io/easy-rl/ https://github.com/WDWSD/easy-rl
12.在线网课学习课堂《人工智能(北理)》单元测试考核答案(1分)自组织特征映射网络的学习方法为()A非监督学习B监督学习C强化学习D半监督学习王确智家A第22题单选题(1分)自组织特征映射网络中的竞争方式是()A权值最大的神经元为获胜神经元B权值最小的神经元为获胜神经元C权值与输入向量最接近的神经元为获胜神经元D权值离输入向量最远的神经元为获胜神经元正确鲁索tC第https://www.yxfsz.com/view/1673214771380457473
13.多目标排序在快手短视频推荐中的实践复杂多目标:Ensemble Sort和在线自动调参 重排序:Listwise、强化学习和端上重排序 总结和展望 01 快手短视频推荐场景介绍 1. 关于快手 快手主要的流量形态 有4个页面: ① 发现页:致力于让用户看见更大的世界,分为单列和双列两种形态。 双列 点选模式,给用户提供选择的自由 https://maimai.cn/article/detail?fid=1603183032&efid=T7RIoRo14AcJUC_PIXWVhA
14.线上教学方案15篇4、教师充分利用网络平台推送优质教学资源、在线布置作业,学生作答提交后,教师手动批改,巩固强化学习效果,保证教学质量不打折。 四、检查反馈 1、分管校领导进入分管年级部网络平台进行巡视,教研室、教务处、年级组负责线上教学情况的`监督和检查。 2、班主任须作好线上教学的宣传工作,及时将课程表、作息时间表发班级https://www.oh100.com/a/202212/5827840.html
15.线上干部培训课程2018年新疆兵团干部在线学习平台入口地址: !index.action?menu=1 十师北屯市认真贯彻落实兵团党委组织部和师市党委关于推进学习型党组织和学习型干部队伍建设的意见,认真开展公务员在线学习工作,不断创新思路、强化举措,初步形成了大规模、全方位、网络化的干部教育培训新格局。 https://www.govjiaoyu.cn/peixun/1543.html
16.一考通职业技能在线学习平台职业资格证书考前在线学习就选一考通,专业的师资团队讲授难点https://qianxue.chaosw.com/