深度强化学习核心技术开发与应用

主办单位:中国管理科学研究院现代教育研究所

承办单位:北京龙腾亚太教育咨询有限公司、北京新鼎聚成文化传媒有限公司

注:发票由具体承办单位开具。

一、培训专家:

中国科学院计算技术研究所、清华大学、北京理工大学等科研机构和大学的高级专家,拥有丰富的科研及工程技术经验,长期从事人工智能、机器学习、深度学习、大数据分析等领域的教学与研究工作。

二、参会对象:

三、培训目标:

1、了解强化学习发展。

2、掌握单智能体深度强化学习。

3、掌握多智能体深度强化学习。

4、掌握多任务深度强化学习。

5、掌握强化学习应用领域GymRetro游戏平台、机器人控制、计算机视觉、自然语言处理。

6、实现Gym、Ray仿真环境。

7、实际体验QLearning实验、DQN实验、DDPG实验。

四、费用标准:

1、4580元/人(含报名费、培训费、资料费、证书费)。

2、培训费由组织培训班的施教机构负责收取并提供培训发票。

3、报名成功后于一周内办理汇款手续。

4、报名5人以上可享受9折优惠。

5、参加线上培训学员可享受视频录播回放权益,及本人再次免费参加线下学习权益。

五、颁发证书:

注:请学员将电子版彩照(大于20KB,红蓝底皆可)、身份证复印件和学历证明复印件发送至2374914377@qq.com

六、注意事项

2、报名成功后,会务组在上课前两天发放上课所需所有材料。

3、学员需自备电脑一台,配置win10、64位系统、8G内存、100G硬盘。

附件1:具体课程安排

三天关键点1.强化学习的发展历程

2.马尔可夫决策过程

3.动态规划

4.无模型预测学习

5.无模型控制学习

6.价值函数逼近

7.策略梯度方法

8.深度强化学习-DQN算法系列

9.深度策略梯度-DDPG,PPO等

第一天

9:00-12:00

14:00-17:00一、强化学习概述1.强化学习介绍2.强化学习与其它机器学习的不同

3.强化学习发展历史4.强化学习典型应用

5.强化学习基本元素6.强化学习算法分类

二、马尔科夫决策过程1.马尔可夫性2.马尔可夫决策过程

3.策略与价值4.最优化原理

5.MDPs扩展

三、动态规划1.动态规划2.价值迭代

3.策略迭代4.迭代策略评估

5.广义策略迭代6.维数灾1.python环境下简单扫地机器人环境

2.价值迭代python实现

3.策略迭代python实现

4.迭代策略评估python实现

3.n-步回报4.TD(lambda)

5.资格迹1.蒙特卡洛方法python实现

第二天

14:00-17:00五、无模型控制学习1.蒙特卡洛控制2.Sarsa

3.重要性采样4.Q-学习

4.DoubleQ学习5.探索与利用1.Sarsa方法python实现

2.Q学习方法python实现

3.Sarsa(lambda)方法python实现

六、价值函数逼近1.函数逼近器2.线性函数逼近

3.常见的特征表示方法

4.价值迭代+离散化方法

5.FittedQIteration

6.策略迭代+最小二乘

7.预测学习+随机梯度下降法

8.控制学习+随机梯度下降法1.离散化Q迭代方法python实现

2.LSPI方法python实现

七、策略梯度方法1.基于策略的强化学习

2.有限差分策略梯度

3.解析法策略梯度

4.REINFORCE算法

5.Actor-Critic

6.策略梯度引入基准

7.自然梯度

8.确定型Actor-Critic1.策略迭代方法python实现

2.actor-critic方法python实现

第三天

14:00-17:00八、深度强化学习1.DeepQlearning(DQN)

2.DoubleDQN

3.DuelingDQN

4.PrioritizedExperienceReplay

5.A3C/A2C

6.DDPG

7.PPO

8.SAC1.深度强化学习训练场-OpenAIGym安装与使用

2.Pytorch安装与使用

3.自动驾驶赛车任务

4.月球飞船降落任务

实操解析与训练一实验:倒立摆和冰壶控制实践

1.环境编写2.算法设计3.实验结果

高频问题:

如何将一个控制问题设计成马尔可夫决策问题并使用强化学习算法进行训练

关键点:

1.基于模型的离线强化学习方法2.基于数据的在线强化学习方法

THE END
1.学习笔记在线强化学习是强化学习的一种形式,其中智能体(agent)通过与环境的实时交互来学习。在这个过程中,智能体根据当前观察状态(state)采取行动(action),并从环境那里接收奖励(reward)和下一个状态(next state)。智能体使用这些反馈来更新其策略(policy),即在定状态下选择行动的规则。在线学习的特点是智能体在每一时刻都基https://blog.csdn.net/hzlalb/article/details/136870080
2.强化学习离线模型离线模型和在线模型强化学习离线模型 离线模型和在线模型 在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。 本文尝试列举一些常见的原因,为大家排查问题提供一点思路。 1. 离线、在线特征不一致https://blog.51cto.com/u_14499/11815202
3.强化学习的基本概念在线学习和离线学习针对的是在强化学习模型在训练过程中交互数据的使用方式。在线学习的强化学习模型,会在一个交互之后,立即用本次交互得到的经验进行训练。而离线学习的强化学习模型,往往是先将多个交互的经验存储起来,然后在学习的时候,从存储的经验中取出一批交互经验来学习。 https://www.jianshu.com/p/28625d3a60e6
4.人工智能团队研究成果在TKDE发表:样本高效的离线转在线强化学习算法图一:离线转在线强化学习算法框架:(a)乐观探索策略;(b)缓冲回放区;(c)策略评估;(d)基于元适应的策略提升 离线强化学习,即智能体从先前收集的数据集中学习的过程,已被广泛研究并在机器人控制、推荐系统、智慧医疗等领域取得了巨大成功。然而,由于受到离线数据集质量的限制,离线强化学习智能体的性能通常是次优的。http://icfs.jlu.edu.cn/info/1007/3101.htm
5.科学网—[转载]强化学习在资源优化领域的应用随着强化学习在围棋、游戏等序列化决策领域大放异彩、在多智能体协作等领域取得较好表现,它的一些优秀特性也得到了资源优化领域的关注。首先,基于强化学习的解决方案决策非常高效。虽然强化学习策略的训练非常耗时,但是这些训练工作可以离线进行,实际中只需要利用训练好的模型进行推理,因而在绝大部分情况下可以做到近似实时https://blog.sciencenet.cn/blog-3472670-1312677.html
6.叶志豪:介绍强化学习及其在NLP上的应用分享总结雷峰网接下来,讲一下强化学习和监督学习的区别,主要的区别可以归纳为两点。和监督学习比较,强化学习的信号是一个奖励信号,有样本、有标签,然后就是输入的不同。因为我们常见的,像我们的输入模型,它们都是独立分布的,但是对强化学习来说,一般它是一个序列,也就是说它的每一个动作的输出和它的输入是有关系的,它两次的https://www.leiphone.com/news/201807/sbyafpzV4BgvjLT1.html
7.清华北大等发布SelfPlay强化学习最新综述澎湃号·湃客TiKick 通过 WeKick 的自博弈数据进行模仿学习,再利用分布式离线强化学习开发了一个多智能体AI。TiZero将课程学习与自博弈结合,无需专家数据,达到了比TiKick更高的TrueSkill评分。 各场景类型比较与总结图 讨论 自博弈方法因其独特的迭代学习过程和适应复杂环境的能力而表现出卓越的性能,然而,仍有不少方向值得进一步https://www.thepaper.cn/newsDetail_forward_28688973
8.强化学习(一)入门介绍腾讯云开发者社区本讲将对强化学习做一个整体的简单介绍和概念引出,包括什么是强化学习,强化学习要解决什么问题,有一些什么方法。一、强化学习强化学习(Reinforcement Learning, RL)又称为增强学习、评价学习等,和深度学习一样是机器学习的一种范式和方法论之一,智能体从一系列随机的操作开始,与环境进行交互,不断尝试并从错误中进行学https://cloud.tencent.com/developer/article/1707034