丰富的线上&线下活动,深入探索云世界
做任务,得社区积分和周边
最真实的开发者用云体验
让每位学生受益于普惠算力
让创作激发创新
资深技术专家手把手带教
遇见技术追梦人
技术交流,直击现场
海量开发者使用工具、手册,免费下载
极速、全面、稳定、安全的开源镜像
开发手册、白皮书、案例集等实战精华
为开发者定制的Chrome浏览器插件
1.在线强化学习和离线强化学习在技术和应用场景上有什么区别?
从技术上看
从应用场景上看
【注意】这里引申一下,其实除了分为离线与在线学习,强化学习还可以从以下几个方面去区分:
model-free&model-based
基于概率&基于价值
回合更新&单步更新
1.PPO算法和DQN算法的区别是什么?
PPO算法(ProximalPolicyOptimization)与DQN(DeepQ-Network)算法可以从目标、方法、状态空间以及实际应用四个方面进行区分:
目标
方法
状态空间
实际应用
2.PPO算法中使用GAE的好处以及参数gamma和lambda的作用是什么?
GAE(GeneralizedAdvantageEstimation)的主要好处
参数gamma和lambda的作用
含义:一个重要的强化学习超参数,通常用于衡量未来奖励的重要性,其控制了在计算奖励时对未来奖励的折扣程度。
作用:在PPO中,gamma被用来计算GAE,即GAE的折扣因子。通常,合理的gamma值可以帮助平衡长期和短期奖励,使策略学习更加稳定。
作用:选择合适的lambda值可以帮助平衡方差和偏差,以获得更准确的优劣行为估计。
在PPO中,使用GAE结合gamma和lambda的好处
因此选择合适的gamma和lambda值可能因任务而异,通常需要经验和调试。
3.有哪些PPO算法的调参经验?
PPO(ProximalPolicyOptimization)算法的性能受到各种超参数和配置的影响,因此在训练时需要进行调参,可以分为十个方面:
1.强化学习和大模型之间的关联是什么?
怎么做的先不细讲,关联可以分为三个层面:直接指导、控制或者选择,他们的实质区别就是是否调整了大模型的参数:
2.目前国内一般选择基于哪些基座模型继续训练?
目前比较常见的:LLaMA系列、ChatGLM系列、Baichuan系列。
3.国内做大模型的主要工作是哪几个部分?
4.如何评估大模型中数据集的质量?
5.除了数据之外,还有哪些方向的工作可以进一步优化大模型的效果?