主办单位:中国管理科学研究院现代教育研究所
承办单位:北京龙腾亚太教育咨询有限公司、北京新鼎聚成文化传媒有限公司
注:发票由具体承办单位开具。
一、培训专家:
中国科学院计算技术研究所、清华大学、北京理工大学等科研机构和大学的高级专家,拥有丰富的科研及工程技术经验,长期从事人工智能、机器学习、深度学习、大数据分析等领域的教学与研究工作。
二、参会对象:
三、培训目标:
1、了解强化学习发展。
2、掌握单智能体深度强化学习。
3、掌握多智能体深度强化学习。
4、掌握多任务深度强化学习。
5、掌握强化学习应用领域GymRetro游戏平台、机器人控制、计算机视觉、自然语言处理。
6、实现Gym、Ray仿真环境。
7、实际体验QLearning实验、DQN实验、DDPG实验。
四、费用标准:
1、4580元/人(含报名费、培训费、资料费、证书费)。
2、培训费由组织培训班的施教机构负责收取并提供培训发票。
3、报名成功后于一周内办理汇款手续。
4、报名5人以上可享受9折优惠。
5、参加线上培训学员可享受视频录播回放权益,及本人再次免费参加线下学习权益。
五、颁发证书:
注:请学员将电子版彩照(大于20KB,红蓝底皆可)、身份证复印件和学历证明复印件发送至2374914377@qq.com
六、注意事项
2、报名成功后,会务组在上课前两天发放上课所需所有材料。
3、学员需自备电脑一台,配置win10、64位系统、8G内存、100G硬盘。
附件1:具体课程安排
三天关键点1.强化学习的发展历程
2.马尔可夫决策过程
3.动态规划
4.无模型预测学习
5.无模型控制学习
6.价值函数逼近
7.策略梯度方法
8.深度强化学习-DQN算法系列
9.深度策略梯度-DDPG,PPO等
第一天
9:00-12:00
14:00-17:00一、强化学习概述1.强化学习介绍2.强化学习与其它机器学习的不同
3.强化学习发展历史4.强化学习典型应用
5.强化学习基本元素6.强化学习算法分类
二、马尔科夫决策过程1.马尔可夫性2.马尔可夫决策过程
3.策略与价值4.最优化原理
5.MDPs扩展
三、动态规划1.动态规划2.价值迭代
3.策略迭代4.迭代策略评估
5.广义策略迭代6.维数灾1.python环境下简单扫地机器人环境
2.价值迭代python实现
3.策略迭代python实现
4.迭代策略评估python实现
3.n-步回报4.TD(lambda)
5.资格迹1.蒙特卡洛方法python实现
第二天
14:00-17:00五、无模型控制学习1.蒙特卡洛控制2.Sarsa
3.重要性采样4.Q-学习
4.DoubleQ学习5.探索与利用1.Sarsa方法python实现
2.Q学习方法python实现
3.Sarsa(lambda)方法python实现
六、价值函数逼近1.函数逼近器2.线性函数逼近
3.常见的特征表示方法
4.价值迭代+离散化方法
5.FittedQIteration
6.策略迭代+最小二乘
7.预测学习+随机梯度下降法
8.控制学习+随机梯度下降法1.离散化Q迭代方法python实现
2.LSPI方法python实现
七、策略梯度方法1.基于策略的强化学习
2.有限差分策略梯度
3.解析法策略梯度
4.REINFORCE算法
5.Actor-Critic
6.策略梯度引入基准
7.自然梯度
8.确定型Actor-Critic1.策略迭代方法python实现
2.actor-critic方法python实现
第三天
14:00-17:00八、深度强化学习1.DeepQlearning(DQN)
2.DoubleDQN
3.DuelingDQN
4.PrioritizedExperienceReplay
5.A3C/A2C
6.DDPG
7.PPO
8.SAC1.深度强化学习训练场-OpenAIGym安装与使用
2.Pytorch安装与使用
3.自动驾驶赛车任务
4.月球飞船降落任务
实操解析与训练一实验:倒立摆和冰壶控制实践
1.环境编写2.算法设计3.实验结果
高频问题:
如何将一个控制问题设计成马尔可夫决策问题并使用强化学习算法进行训练
关键点:
1.基于模型的离线强化学习方法2.基于数据的在线强化学习方法