大模型面经答案—强化学习：理论解释与讲解|离线到在线强化学习_在线学习

丰富的线上&线下活动，深入探索云世界

做任务，得社区积分和周边

最真实的开发者用云体验

让每位学生受益于普惠算力

让创作激发创新

资深技术专家手把手带教

遇见技术追梦人

技术交流，直击现场

海量开发者使用工具、手册，免费下载

极速、全面、稳定、安全的开源镜像

开发手册、白皮书、案例集等实战精华

为开发者定制的Chrome浏览器插件

1.在线强化学习和离线强化学习在技术和应用场景上有什么区别？

从技术上看

从应用场景上看

【注意】这里引申一下，其实除了分为离线与在线学习，强化学习还可以从以下几个方面去区分：

model-free&model-based

基于概率&基于价值

回合更新&单步更新

1.PPO算法和DQN算法的区别是什么？

PPO算法（ProximalPolicyOptimization）与DQN（DeepQ-Network）算法可以从目标、方法、状态空间以及实际应用四个方面进行区分：

目标

方法

状态空间

实际应用

2.PPO算法中使用GAE的好处以及参数gamma和lambda的作用是什么？

GAE（GeneralizedAdvantageEstimation）的主要好处

参数gamma和lambda的作用

含义：一个重要的强化学习超参数，通常用于衡量未来奖励的重要性，其控制了在计算奖励时对未来奖励的折扣程度。

作用：在PPO中，gamma被用来计算GAE，即GAE的折扣因子。通常，合理的gamma值可以帮助平衡长期和短期奖励，使策略学习更加稳定。

作用：选择合适的lambda值可以帮助平衡方差和偏差，以获得更准确的优劣行为估计。

在PPO中，使用GAE结合gamma和lambda的好处

因此选择合适的gamma和lambda值可能因任务而异，通常需要经验和调试。

3.有哪些PPO算法的调参经验？

PPO（ProximalPolicyOptimization）算法的性能受到各种超参数和配置的影响，因此在训练时需要进行调参,可以分为十个方面：

1.强化学习和大模型之间的关联是什么？

怎么做的先不细讲，关联可以分为三个层面：直接指导、控制或者选择，他们的实质区别就是是否调整了大模型的参数：

2.目前国内一般选择基于哪些基座模型继续训练？

目前比较常见的：LLaMA系列、ChatGLM系列、Baichuan系列。

3.国内做大模型的主要工作是哪几个部分？

4.如何评估大模型中数据集的质量？

5.除了数据之外，还有哪些方向的工作可以进一步优化大模型的效果？

THE END

大模型面经答案—强化学习：理论解释与讲解

自然语言强化学习：一个可处理语言反馈的强化学习框架数学推理

AWAC：使用离线数据集加速在线强化学习技术博客技术支持京天机器人官网

大模型面经答案—强化学习：理论解释与讲解

扩散模型如何构建新一代决策智能体？超越自回归，同时生成长序列规划轨迹智能体新浪科技

强化学习（七）时序差分离线控制算法QLearning刘建平Pinard

理解深度学习：第十九章强化学习

2024国际智能体和多智能体系统会议（AAMAS）自动化所入选成果速览

强化学习在美团“猜你喜欢”的实践

ADL120《深度强化学习》开始报名