资源学到了!UCBerkeleyCS294深度强化学习课程(附视频与PPT)

原标题:资源|学到了!UCBerkeleyCS294深度强化学习课程(附视频与PPT)选

原标题:资源|学到了!UCBerkeleyCS294深度强化学习课程(附视频与PPT)

选自UCBerkeley

机器之心整理

CS294深度强化学习2017年秋季课程的所有资源已经放出。该课程为各位读者提供了强化学习的进阶资源,且广泛涉及深度强化学习的基本理论与前沿挑战。本文介绍了该课程主要讨论的强化学习主题,读者可根据兴趣爱好与背景知识选择不同部分的课程。请注意,UCBerkeley的CS294并未被归类为在线开放课程,所有视频的使用权仅限个人学习。

知识背景

有关强化学习与MDP的介绍资料:

有关机器学习和神经网络的介绍性资料,请参阅:

以下是CS294深度强化学习2017年秋季课程的主要内容概要,所有的授课文档与视频都已经发布且展示在课程主页中。

8月23日:课程简介(Levine)

该课程第一节课主要是课程介绍和对强化学习基本概念的介绍。

该课程教学大纲中包含以下内容:

1.从监督学习到决策

2.基础强化学习:Q学习和策略梯度

3.高级模型学习和预测、distillation、奖励学习

4.高级深度强化学习:置信域策略梯度、actor-critic方法、探索

5.开放性问题、学术讲座、特邀报告

8月28日:监督学习和模仿学习(Levine)

本节课介绍监督学习,主要内容包括:

1.序列决策问题的定义

2.模仿学习:使用监督学习进行决策

3.(深度)模仿学习近期研究案例分析

4.模仿学习的缺点

本节课目标:

模仿学习:

8月30:强化学习简介(Levine)

本节课介绍强化学习,主要内容包括:

1.马尔可夫决策过程的定义

2.强化学习问题的定义

3.强化学习算法解析

4.简要介绍强化学习算法类型

马尔可夫链定义:

马尔可夫决策过程定义:

强化学习算法类型:

9月6日:策略梯度简介(Levine)

本节课介绍了策略梯度,主要内容包括:

1.策略梯度算法

2.策略梯度的作用

3.基础方差缩减:因果性(causality)

4.基础方差缩减:基线

5.策略梯度示例

本节课的目标:

9月8日:神经网络概述(Achiam)

本节课全面介绍了神经网络,主要内容包括:自动微分、TensorFlow基础知识、构建高级计算图、log和debug,以及计算图库、TensorFlow的其他API/封装器。

9月11日:actor-critic算法简介(Levine)

本节课介绍了actor-critic算法,主要内容包括:

1.改进具备critic的策略梯度

2.策略评估问题

3.折现因子

4.actor-critic算法

actor-critic算法:

架构设计:

9月13日:价值函数介绍(Levine)

本节课介绍价值函数的应用,包括从价值函数提取策略,如何用价值函数优化策略,Q-学习算法的介绍、实际应用和扩展等。

其中强调了聚焦于价值函数而不是策略本身的重要性,这有助于简化问题;并介绍了Q-学习的多种模式,如离线模式、在线模式等。

9月18日:高级Q-学习算法(Levine)

本节课介绍Q-学习算法的扩展,包括如何与深度学习结合、广义的Q-学习算法、Q-学习算法的实际应用以及连续性Q学习算法。重点是理解在复杂函数逼近中实现Q-学习,以及如何将Q-学习扩展到连续动作。

深度Q-学习算法的典型定义。

广义的Q-学习算法:数据收集—目标更新—Q-函数回归。

9月20日:最优控制和规划(Levine)

本节课介绍了无模型和基于模型的强化学习的差别,以及在建模过程中对转换动力学的先验知识的重要性;然后介绍了多种优化方法,包括随机优化(连续型)、蒙特卡洛树搜索(离散型)和轨迹优化。重点是理解如何结合离散或连续空间的已知系统动力学知识来执行规划。

知道强化学习问题的动力学知识会通常来说使问题更加简单,围棋、汽车、机器人、视频游戏等的动力学知识都是比较容易获取的。

9月25日:从数据中学习动力学系统(Levine)

上节课中介绍了当知道系统的动力学知识之后,如何对问题进行建模。

本节课将介绍当系统动力学知识未知时的解决方案,包括拟合全局动力学模型(基于模型的强化学习)以及拟合局域动力学模型。重点是理解基于模型强化学习的术语和形式,可选的模型类型,以及模型学习中的实际考虑。

9月27日:利用模仿优化控制器学习策略(Levine)

上节课中介绍了当系统动力学知识未知时的解决方案,包括全局方法(基于模型的强化学习)以及局域方法(基于模型并添加约束)。但当需要系统生成策略的时候,该怎么办呢?生成策略可以更快地评估智能体的动作,并且泛化潜力更好。

本节课将介绍如何利用反向传播算法来学习策略,它和模仿优化控制的关系,然后介绍了引导策略搜索算法,最后介绍了如何权衡基于模型和无模型强化学习的选择。本节课的重点在于理解用优化控制训练策略的过程,以及多种不同方法的权衡过程。

10月2日:高级强化学习和图像处理应用(客座演讲:ChelseaFinn)

本节课介绍多种高级的模型学习方法,并以图像应用为例分别展示了隐空间学习、图像空间学习、逆模型学习和预测替代数量。

其中强调了学习特征的重要性,以及在利用观测模型时,需要考虑奖励函数和目标函数的设置。

基于模型方法和无模型方法的优缺点对比。

10月4日:推断和控制之间的联系(Levine)

这一课程的主要目的是理解推断和控制之间的关系,以及理解具体的强化学习算法在框架下如何实例化。最优的控制其实可以作为拟合人类行为的模型,但如果数据达不到最优,那有如何拟合人类行为?我们还是可以将强化学习作为图模型中的推断而实现控制,其中价值函数为反向信息,且最大化奖励和信息熵以训练模型。其它方法还有SoftQ-learning和基于信息熵正则化的策略梯度等。

如下展示了一种制定决策或控制的概率图模型:

10月9日:逆向强化学习(Levine)

本节课介绍逆向强化学习,主要内容包括:

1.手动设计奖励函数来定义一个任务

2.当我们想从观察专家过程中学习奖励函数,然后使用强化学习时会发生什么?

3.使用上节课的近似最优模型,学习奖励函数。

逆向强化学习:

以下是这一章节的总结:

10月11日:高级策略梯度(自然梯度、重要性采样)(Achiam)

本节课介绍高级策略梯度方法,主要内容包括:

理论:

算法:

自然策略梯度:

置信域策略优化:

10月16日:探索(Levine)

这一章节主要介绍了什么是探索(exploration),以及为什么它在强化学习中非常重要。一般来说探索分为基于乐观探索、基于后验匹配的探索和基于信息理论的探索。探索和利用(exploitation)的均衡在强化学习中非常重要,也是非常难以解决的问题。以下展示了探索与利用之间的基本区别:

随后Levine详细展开介绍了为什么探索是非常困难的,包括摇臂赌博机问题等,而后重点介绍了乐观探索(Optimisticexploration)、概率匹配与后验采样,以及信息增益等探索方法。以下展示了一种探索算法。

10月18日:探索(第二部分)和迁移学习(Levine)

这一章节首先复习了上堂课介绍的乐观探索、Thompson采样风格的算法和信息增益风格的算法,然后介绍了这三类算法的近似论证。最后,讲师Levine还给出了一系列的延伸阅读以加强我们对探索的理解。

该课程后一部分介绍了元学习与迁移学习,以下展示了迁移学习中的一种架构:渐进神经网络。

10月23日:多任务学习与迁移(Levine)

该课程主要介绍了多任务学习与迁移学习。说到如何解决迁移学习的问题,没有一个特定的解决方案,所以此课主要对近期(当时)的各种演讲论文进行了介绍。

1.「前向」迁移:在一个任务上训练,迁移到新任务

2.多任务迁移:在多种任务上训练,迁移到一个新任务上

3.多任务元学习:学习从多种任务上学习

10月25日:元学习和并行化(Levine)

首先元学习是一种学习如何学习的方法,它在实践中与多任务学习非常相近,一般而言元学习可以分为学习一种优化器、学习一个RNN以捕捉经验信息和学习一种表征。如果元学习是一种快速的强化学习器,那么我们就能快速学习新任务。

一般而言元学习可以通过监督学习或强化学习构建,它可以返回优秀的表征而加速学习也可以用来构建对经验的记忆等。

该章节的后一部分介绍了强化学习中的并行化,包括强化学习到底哪一部分需要并行,如何并行以及最终怎样实现等。以下展示了我们最终需要并行的部分。

10月30日:进阶模仿学习和开放性问题(Levine)

我们知道模仿学习的目标是通过监督学习在给定观察下求得行动的概率分布,而强化学习是给定环境和状态下求得行动的概率分布。模仿学习要求预先的演示且必须解决分布迁移问题,它的优点在于可以通过简单稳定的监督学习实现。而强化学习需要奖励函数且必须解决模型的探索问题,它虽然可能会无法收敛,但却能够实现任意好的性能。

这一章节介绍了结合模仿学习的监督方式和强化学习的方法:

后一部分介绍了深度强化学习的挑战,包括超参数调整、样本复杂度、泛化性能和shenwuxu生物学启示等。

该课程后面还有很多受邀嘉宾与它们所授的课程,包括OpenAI的IgorMordatch、谷歌的MohammadNorouz、伯克利和OpenAI的PieterAbbeel、伯克利的AvivTamar和OpenAI的JohnSchulman。他们并没有提供对应的授课文档,但演讲视频在YouTube上都已经放出来了。

THE END
1.强化学习GAIL生成对抗模仿学习详解《Generativeadversarialimitation本文深入探讨了强化学习中的模仿学习,特别是生成对抗模仿学习(GAIL)的概念。通过对《Generative adversarial imitation learning》的解析,阐述了行为克隆、逆向强化学习(IRL)和GAIL的区别与联系。GAIL通过模拟专家轨迹,绕过IRL的复杂步骤,直接学习策略。文中还涉及熵正则化、示性正则化和GAIL的优化目标,以及如何利用生成对抗https://blog.csdn.net/weixin_37895339/article/details/82863379
2.关于「强化学习」和「模仿学习」的两篇文章模仿学习(Imitation Learning)完全介绍(一) 强化学习(Reinforcement Learning)知识整理 简书上编辑不了公式不能直接发这了。最后编辑于 :2017.12.05 03:50:01 ?著作权归作者所有,转载或内容合作请联系作者 2人点赞 杂七杂八 更多精彩内容,就在简书APP "觉得有用可以请我喝杯咖啡~"赞赏支持还没有人赞赏https://www.jianshu.com/p/48942d31d7b8
3.模仿学习(ImitationLearning)完全介绍腾讯云开发者社区模仿学习(Imitation Learning)完全介绍 在传统的强化学习任务中,通常通过计算累积奖赏来学习最优策略(policy),这种方式简单直接,而且在可以获得较多训练数据的情况下有较好的表现。 然而在多步决策(sequential decision)中,学习器不能频繁地得到奖励,且这种基于累积奖赏及学习方式存在非常巨大的搜索空间。https://cloud.tencent.com/developer/article/1144328
4.基于模仿学习与强化学习结合的自动驾驶训练方法及系统强化学习的优点是不需要专家数据,且能够通过反复学习获得较高的智能,上限较高。强化学习的缺点是在智能体刚开始训练时,探索花费的时间较长,且训练达到收敛整体所需的时间也较长。技术实现要素:6.本发明实施例提供了一种基于模仿学习与强化学习结合的自动驾驶训练方法及系统,以至少解决现有强化学习存在训练慢、收敛难的https://www.xjishu.com/zhuanli/55/202111532390.html
5.AI深度强化学习落地方法七步曲2——状态空间篇回报函数篇鉴于强化学习算法对优秀reward函数设计的依赖,学术界提出了很多方法改善这一状况。比如逆向强化学习,利用expert demonstration(专家示范)学习到reward函数,再用这个reward函数训练RL策略。此外,还有一大堆模仿学习的方法,干脆抛开reward直接拟合专家策略。以上方法的前提是要有专家数据,不具备普适性,这里就不多说了。 https://www.shangyexinzhi.com/article/4228946.html
6.元强化学习的研究与应用仿真结果表明,改进的元模仿学习算法能够快速实现新任务的学习,任务成功率显著提高。将元学习引入DRL的奖励函数塑造中,提出了基于匹配网络(Matching Network,MN)的元强化学习模型。将MN引入强化学习的奖励函数中,计算当前机器人的状态与已有演示之间的相似度并得到奖励值,减轻人工设置奖励函数对设计者的经验要求。奖励函数https://cdmd.cnki.com.cn/Article/CDMD-10290-1021774503.htm
7.逆强化学习和模仿学习51CTO博客已为您找到关于逆强化学习和模仿学习的相关内容,包含IT学习相关文档代码介绍、相关教程视频课程,以及逆强化学习和模仿学习问答内容。更多逆强化学习和模仿学习相关解答可以来51CTO博客参与分享和学习,帮助广大IT技术人实现成长和进步。https://blog.51cto.com/topic/0b1c1b72bafbacb.html
8.消退泛化强化正强化负强化惩罚模仿学习替代反应的-消退、泛化、强化、正强化、负强化、惩罚、模仿学习、替代反应的概念要想让一个新的条件反射持久存在,就得持续地把无条件刺激和条件刺激结合起来,否则条件反射就会逐渐削弱直至最终消失。这种条件性的刺激-反应之http://www.sdsgwy.com/article/html/88119.html
9.科学网—观察学习与替代强化父母、教师可能不只提供模仿的刺激,而且可能在儿童模仿行为时给予强化。其次,班杜拉发现,当成人的反应得到强化时,儿童更容易模仿成人的反应。换言之,儿童观察一名成人因某行为而受到表扬就更可能以同样的方式反应。班杜拉称之为替代强化,因为在这种情况下,学习者没有得到强化,而只是看到了强化。因此,强化和榜样作用一https://blog.sciencenet.cn/blog-2619783-1306057.html
10.社会学习理论–燕京理工学院为解决这—矛盾,于20世纪40年代经心理学家的努力,在美国开始提出了组合两种理论的优点,又独树一帜的社会学习理论。它是调和行为主义理论和认知理论的产物,主要观点是,人们倾向于模仿被强化的榜样行为。人类的社会行为和人格,主要是通过观察学习、模仿学习和自我调节过程以及榜样作用而形成。https://www.yit.edu.cn/?p=47519
11.动手学强化学习14.2 最大熵强化学习 142 14.3 Soft策略迭代 143 14.4 SAC 143 14.5 SAC代码实践 145 14.6 小结 154 14.7 参考文献 155 第三部分 强化学习前沿 第15 章 模仿学习 158 15.1 简介 158 15.2 行为克隆 159 15.3 生成对抗模仿学习 159 15.4 代码实践 160 https://www.ptpress.cn/bookDetails?id=UB7d4a1fc362a4a
12.清华北大等发布SelfPlay强化学习最新综述澎湃号·湃客TiKick 通过 WeKick 的自博弈数据进行模仿学习,再利用分布式离线强化学习开发了一个多智能体AI。TiZero将课程学习与自博弈结合,无需专家数据,达到了比TiKick更高的TrueSkill评分。 各场景类型比较与总结图 讨论 自博弈方法因其独特的迭代学习过程和适应复杂环境的能力而表现出卓越的性能,然而,仍有不少方向值得进一步https://www.thepaper.cn/newsDetail_forward_28688973
13.多智能体强化学习及其在游戏AI上的应用与展望引爆这波AI热潮的AlphaGo(Nature),采用了人类数据来做模仿学习27,获得了一个很好的初始化(imitation init),并结合了蒙特卡洛树搜索的方法优化效率,最后再使用Self-play进行强化学习的不断迭代,以将其提升到超越人类的水平。AlphaZero则在此基础上完全去除了对人类数据的依赖,完全依靠强化学习训练,并实现了在围棋,国际https://www.gameres.com/890381.html
14.头条文章图6 采用一只老鼠来模拟强化学习中的 Agent,其任务是走出迷宫,每走一步都有一个方法来衡量其走的好与坏,基本学习过程是当其走得好的时候就给其一定的奖励(如一块蛋糕)。通过这种方式, Agent在行动评价的环境中获得知识,改进行动方案以适应环境。 图6 强化学习的基本学习流程 https://card.weibo.com/article/m/show/id/2309404598738399395890
15.GitHubWDWSD/easy强化学习中文教程(蘑菇书),在线阅读地址:https://datawhalechina.github.io/easy-rl/ - WDWSD/easy-rlhttps://github.com/WDWSD/easy-rl
16.什么是深度学习?MicrosoftAzure了解深度学习的定义、深度学习的用途及其工作原理。获取有关神经网络和 BERT NLP 的工作原理及其优点的信息。https://azure.microsoft.com/zh-cn/overview/what-is-deep-learning