李宏毅强化学习完整笔记!开源项目《LeeDeepRLNotes》发布百度强化学习强化学习纲要深度强化学习新浪科技

李宏毅老师的《深度强化学习》是强化学习领域经典的中文教程之一,Datawhale开源项目组成员总结了李宏毅的强化学习视频,实现了视频教程的完整梳理和复现。

提起李宏毅老师,熟悉强化学习的读者朋友一定不会陌生。很多人选择的强化学习入门学习材料都是李宏毅老师的台大公开课视频。

现在,强化学习爱好者有更完善的学习资料了!Datawhale开源项目组成员总结了李宏毅的强化学习视频,实现了视频教程的完整梳理和复现,再也不用担心强化学习。

目前,项目已完全开源,包括课程内容、配套的习题和项目,供大家使用。

1.李宏毅深度强化学习简介

李宏毅老师现任台湾大学电气工程系副教授,主要研究方向是机器学习,特别是深度学习。他有一系列公开的强化学习课程视频,也是很多人入门的教程。

「策略梯度」课程中的PPT,解释了策略梯度的过程

「近端策略优化算法」课程中的PPT,展示了重要性采样的问题

李宏毅老师的《深度强化学习》是强化学习领域经典的中文教程之一。李老师幽默风趣的上课风格让晦涩的强化学习理论变得轻松易懂,他会通过很多有趣的例子来讲解强化学习理论。比如老师经常会用玩Atari游戏的例子来讲解强化学习算法。

此外,为了课程的完整性,我们整理了周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。对于想入门强化学习又想看中文讲解的人来说绝对是非常推荐的。

但是,考虑到很多强化学习爱好者对于课程笔记的需求,我们不仅仅需要的是教学视频。我们需要一份课程笔记,能够引领学习者的思路,帮助引导他们进入这个领域。因此,就诞生了这款《LeeDeepRL-Notes》李宏毅深度强化学习笔记。

2.《LeeDeepRL-Notes》李宏毅深度强化学习笔记

期间,Datawhale组织了《深度强化学习基础》学习,在众多学习者共同的努力下,对该内容进行了迭代和补充。下面,让我们来详细了解下工作详情吧。

具体工作:

2020年6月--2020年7月:笔记整理初级阶段,视频100%复现;

2020年10月--2020年11月:组队学习《深度强化学习基础》并对内容进行迭代完善;

2020年11月:最后内容修正,正式推广。

10月《深度强化学习基础》组队学习中学习者的评价

3.《LeeDeepRL-Notes》学习笔记框架

3.a亮点

这份学习笔记具有以下优点:

完全将李宏毅老师的讲课内容转为文字,方便学习者查阅参考。

为了课程的完整性,我们还整理了周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料作为补充。

3.b笔记框架

内容在整体框架上与李宏毅老师的深度强化学习课程保持一致。建议学习过程中将李宏毅老师的视频和这份资料搭配使用,效果极佳。笔记也和课程视频完全同步。

内容导航见下:

4.笔记内容细节展示

4.a对Q-learning概念的解析

在笔记中重新整理PPT内容,并增加了一些注释

4.bActor-Critc算法的引入

根据内容整理成知识点,方便读者理解阅读

在整理过程中,我们并不对视频语音直接转文字,而是根据内容整理成知识点,方便读者理解阅读。

4.c利用贴近学生的例子解释知识点

强化学习基本概念的解释

5.习题(查漏补缺)

在每章教程的后面,我们都会结合每章的内容,将定义、具体算法、专业名词等关键字和知识点,使用最短、最精确且最白话的方式总结,供大家吸收与巩固。

5.b习题与参考答案助力你的查漏补缺

除了关键词,我们还提供了章节对应的习题供大家查漏补缺,并且结合其他资料,提供了详细、易懂的答案供大家参考。

6.项目(动手实践)

强化学习少了实践怎么行,这边挑了三个项目,都基于流行的OpenAIgym环境,让你快速入门,循序渐进,主要包括:

6.a对项目的简易描述

6.b层次清晰的手写代码

将整个强化学习过程分成以上几个子模块,方便拆解与改动,并且契合原论文的伪代码,在main.py中提供基本接口:

6.c使用Tensorboard进行可视化

6.d丰富的持续更新

在刚刚结束的组队学习中,助教耐心地解答了大家的疑惑,并且会根据反馈的情况,在之后的一个月内,持续更新项目的设计方法和详细的代码思路讲解,敬请期待~

7.配套视频

8.开源地址

论文:《KernelBasedProgressiveDistillationforAdderNeuralNetworks》。

本篇论文中,研究者通过一种基于核的渐进式蒸馏方法构建了性能更好的加法神经网络。研究者表示,这项研究使得ANN性能超越了同结构的CNN,从而在功耗更少的情况下实现更佳性能。这项研究还将有益于智能手机和物联网等的应用。

11月25日,论文一作、诺亚方舟实验室研究员许奕星将为大家详细解读此前沿研究。

THE END
1.人工智能三大算法机器学习深度学习与强化学习的融合与应用前景在当今信息技术高速发展的时代,人工智能(AI)已经成为全球科技界关注的焦点。其中,机器学习、深度学习和强化学习被认为是人工智能领域中最重要的三大算法,它们分别代表了不同的研究方向和解决问题的手段。本文旨在探讨这三个关键算法,以及它们如何相互融合,并对未来的人工智能发展产生何种影响。 https://www.2gadecbu9.cn/xing-ye-dong-tai/433419.html
2.学习笔记在线强化学习离线强化学习连续强化学习的区别(4)总结来说,在线强化学习是实时与环境交互进行学习,离线强化学习是使用预先收集的数据集进行学习,而连续强化学习则是处理连续状态和动作空间的学习问题。 研究重点 1. 在线强化学习(Online Reinforcement Learning): - 探索与利用的平衡:在线学习中,智能体需要在探索新行动和利用已知信息之间取得平衡。研究者关注如何设计有https://blog.csdn.net/hzlalb/article/details/136870080
3.强化学习离线模型离线模型和在线模型强化学习离线模型 离线模型和在线模型,在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。本文尝试列举一些常见的原因,为大家排查问题提供一点思路。1.离线、在线特征不一致离线https://blog.51cto.com/u_14499/11815202
4.离线强化学习(OfflineRL)总结(原理数据集算法复杂性分析离线强化学习(Offline RL)作为深度强化学习的子领域,其不需要与模拟环境进行交互就可以直接从数据中学习一套策略来完成相关任务,被认为是强化学习落地的重要技术之一。本文详细的阐述了强化学习到离线强化学习的发展过程,并就一些经典的问题进行了解释和说明。 https://cloud.tencent.com/developer/article/2119884
5.人工智能团队研究成果在TKDE发表:样本高效的离线转在线强化学习算法近期,吉林大学人工智能学院、未来科学国际合作联合实验室人工智能团队在IEEE Transactions on Knowledge and Data Engineering上发表题为“Sample Efficient Offline-to-Online Reinforcement Learning”的研究工作。该研究提出了一种样本高效的离线转在线强化学习算法,通http://icfs.jlu.edu.cn/info/1007/3101.htm
6.离线强化学习为什么在线强化学习算法没有受到外推误差的影响呢?因为对于在线强化学习,即使训练是离线策略的,智能体依然有机会通过与环境交互及时采样到新的数据,从而修正这些误差。但是在离线强化学习中,智能体无法和环境交互。因此,一般来说,离线强化学习算法要想办法尽可能地限制外推误差的大小,从而得到较好的策略。https://hrl.boyuai.com/chapter/3/%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/
7.强化学习算法与应用综述2006年, 深度学习[20]的提出, 引领了机器学习的第二次浪潮, 在学术界和企业界持续升温, 并成功促进了2010年之后深度强化学习的蓬勃发展. 强化学习算法有众多分类方式, 如根据是否构建模型可以分为无模型(model-free)算法和基于模型(model-based)算法; 依据执行策略与评估策略是否一致, 分为同步策略(on-policy)https://c-s-a.org.cn/html/2020/12/7701.html
8.强化学习的基本概念强化学习是机器学习领域的一个分支,通过不断的与环境交互,不断的积累经验,最后让Agent学会如何在目标环境中取得最高的得分。在本篇文章中,笔者将介绍一些强化学习的基础知识,文https://www.jianshu.com/p/28625d3a60e6
9.在对齐AI时,为什么在线方法总是优于离线方法?AI 对齐是否必需在线强化学习? 对于这个问题,人们希望既知道其理论上的答案,也希望明晰实验给出的解答。 从实证角度看,相比于大家常用的在线 RLHF(由偏好建模和从模型采样组成),离线算法实现起来要简单得多,成本也低得多。因此,收集有关离线算法的充分性的证据可让 AI 对齐变得更加简单。另一方面,如果能明晰常用在https://m.thepaper.cn/newsDetail_forward_27434433
10.科学网—[转载]基于深度强化学习的六足机器人运动规划参考文献结合基于模型的运动规划方法和深度强化学习算法,利用可达性评价准则替代物理模拟来构建马尔可夫决策过程,在高维连续状态动作空间中为足式机器人规划运动轨迹,并控制各关节进行轨迹跟随,使得机器人能够在各类非结构环境中稳定运行。参考文献提出一种基于强化学习和模糊奖励的步态生成策略,利用Q-learning算法和模糊奖励https://blog.sciencenet.cn/blog-951291-1288193.html
11.高阳人工智能研究方向为强化学习与机器人学。高阳博士目前主持具身视觉与机器人实验室 (Embodied Vision and Robotics,简称EVAR Lab),专注于利用人工智能技术赋能机器人,致力于打造通用的具身智能框架。 个人荣誉 北京市青年托举计划研究方向 机器人:研究通用机器人的算法 强化学习:高样本效率、现实世界的强化学习https://sqz.ac.cn/artificial-39
12.头条文章机器学习算法可以按照不同的标准来进行分类。比如按函数 f (x, θ)的不同,机器学习算法可以分为线性模型和非线性模型;按照学习准则的不同,机器学习算法也可以分为统计方法和非统计方法。 按照训练样本提供的信息以及反馈方式的不同,机器学习算法可以分为以下几类。 https://card.weibo.com/article/m/show/id/2309404598738399395890