强化学习学习路径分享|自学习算法_在线学习

从数学的角度，从贝尔曼方程入手，讲解值迭代，策略迭代，过渡到MC算法，TD算法，再过渡到函数拟合。

有一个小问题是，没有配备代码，只有伪代码，会让动手能力比较强的同学学起来有点难受，不过这个好解决，可以自己动手去实现一下。另一方面，老师的讲课方式容易让同学混淆一些概念，比方说Q-Learning老师会在伪代码里面写了OnPolicy和Offpolicy的两个版本，理解不深入的同学，比方说我最初的理解，就理解成Q-learning是on+offpolicy的了，但实际上，Q-learning就是offpolicy，造成了这个理解的偏差，有一部分原因是老师在讲课的过程中没刻意区分这两点。既说了这两者是不同的，又写上了onpolicy的伪代码，不过这个也问题不大，因为在算法领域，这些其实也是人为规定的，现在已经算是前沿的知识点了，很难有一个范式来说明什么概念是什么，比方说PPO有些老师也会说成是offpolicy（李宏毅老师），然而deepmind官方把它称为Onpolicy的。所以，更希望同学们在学习赵老师的课程的时候，一定要善于独立思考，并且多结合其他老师的课程，巩固学习。

还有一点，赵老师的课程第九章第十章其实写的不太好。所以我更建议大家把赵老师的前八章（到DQN）啃熟。后面两章，更推荐李宏毅老师的课程。

这个课程我看了三遍，第一遍是零基础的时候看的，非常通俗易懂的解释了什么是强化学习，但是他们的parl框架其实不太好用，导致我第一遍基本上没太能跟上。第二遍是在考研十月份的时候，摆烂看的，更坚定了我走RL的这个方向。这两遍我都没怎么写代码。

第三遍呢是我边看赵老师的代码，一边重看科科老师的实践。虽然说parl框架蛮难用的，但是不妨碍科科老师讲概念讲得很清晰，她是结合代码来讲的。会来讲说什么部分是什么功能，发挥了什么作用。包括我的代码讲解其实也是受到了科科老师的影响。

所以我推荐她和赵老师的课程一起使用。把赵老师课程的伪代码进行复现，然后卡着了就看科科老师的代码分析。

李宏毅老师上来就放大招，目的是为了绕开繁琐的数学证明，一步到位，让我们了解强化学习能干什么事情，并且直接让我们上手干项目，这种对于零基础的新手是极为困难的。这个理解极为复杂。我第一次看的时候，云里雾里，特别不懂。所以我把他的视频放在了第三部分才推荐。

推荐拥有机器学习基础的同学去看这个课程，比方说李宏毅老师2021或者2022年的机器学习入门，把它过一遍，然后再来过这个深度强化学习效果可能会更好。不过直接看完赵老师的《强化学习的数学原理》的前八章，然后跟完科科老师的课程之后，直接来看李老师的三次课，也能得到不错的理解。李老师的油管上有三年的课件，分别是17年，18年，21年。其中17和21年是概论，18年的是详细推导。

我建议大家的观看顺序是，21年，再到17年，再到18年。不要跳，都看完就好了。他有些概念会重复三次，没关系，重复的不多，反复听也可以更加加深印象。

王琦、杨毅远、江季三位大佬写的一本书，之所以推荐它，是因为这本书是三位老师讲课的笔记（科科老师，李宏毅老师，周博磊老师），周老师的视频我还没看暂时不作推荐。但是其他两位老师讲的是极好的。这本书浓缩了他们的讲课内容，值得推荐，这样就不太需要自己做笔记了，直接在书上勾画即可。

是上海交通大学俞勇团队编写的，他们上课用的就是这本教程。这本书代码极为清晰，他的代码框架脉络，是各个同学都应该去参考一下的。并且它有一个特别好的点，那就是它每一节课，都会配套一个jupyternotebook，可以所见即所得。新入门强化学习的同学，能在他们的代码上面，感受到“啊，原来RL代码的编写如此简单”。

THE END

强化学习学习路径分享

机遇与挑战：用强化学习自动搜索优化算法

强化学习学习路径分享

自组织神经网络模型与学习算法Ant°

自定义TBE算子入门，不妨从单算子开发开始深度学习算法由一个个计算单元组成，我们称这些计算单元为算子（Operator，

机器学习实战机器学习特征工程最全解读

如何用免费GPU学习AI算法？这篇算法资源大集锦别错过——百度大脑AI开放平台

人工智能机器学习神经网络和深度学习的发展历程（下）模型学习算法神经网络发展