强化学习学习路径分享

从数学的角度,从贝尔曼方程入手,讲解值迭代,策略迭代,过渡到MC算法,TD算法,再过渡到函数拟合。

有一个小问题是,没有配备代码,只有伪代码,会让动手能力比较强的同学学起来有点难受,不过这个好解决,可以自己动手去实现一下。另一方面,老师的讲课方式容易让同学混淆一些概念,比方说Q-Learning老师会在伪代码里面写了OnPolicy和Offpolicy的两个版本,理解不深入的同学,比方说我最初的理解,就理解成Q-learning是on+offpolicy的了,但实际上,Q-learning就是offpolicy,造成了这个理解的偏差,有一部分原因是老师在讲课的过程中没刻意区分这两点。既说了这两者是不同的,又写上了onpolicy的伪代码,不过这个也问题不大,因为在算法领域,这些其实也是人为规定的,现在已经算是前沿的知识点了,很难有一个范式来说明什么概念是什么,比方说PPO有些老师也会说成是offpolicy(李宏毅老师),然而deepmind官方把它称为Onpolicy的。所以,更希望同学们在学习赵老师的课程的时候,一定要善于独立思考,并且多结合其他老师的课程,巩固学习。

还有一点,赵老师的课程第九章第十章其实写的不太好。所以我更建议大家把赵老师的前八章(到DQN)啃熟。后面两章,更推荐李宏毅老师的课程。

这个课程我看了三遍,第一遍是零基础的时候看的,非常通俗易懂的解释了什么是强化学习,但是他们的parl框架其实不太好用,导致我第一遍基本上没太能跟上。第二遍是在考研十月份的时候,摆烂看的,更坚定了我走RL的这个方向。这两遍我都没怎么写代码。

第三遍呢是我边看赵老师的代码,一边重看科科老师的实践。虽然说parl框架蛮难用的,但是不妨碍科科老师讲概念讲得很清晰,她是结合代码来讲的。会来讲说什么部分是什么功能,发挥了什么作用。包括我的代码讲解其实也是受到了科科老师的影响。

所以我推荐她和赵老师的课程一起使用。把赵老师课程的伪代码进行复现,然后卡着了就看科科老师的代码分析。

李宏毅老师上来就放大招,目的是为了绕开繁琐的数学证明,一步到位,让我们了解强化学习能干什么事情,并且直接让我们上手干项目,这种对于零基础的新手是极为困难的。这个理解极为复杂。我第一次看的时候,云里雾里,特别不懂。所以我把他的视频放在了第三部分才推荐。

推荐拥有机器学习基础的同学去看这个课程,比方说李宏毅老师2021或者2022年的机器学习入门,把它过一遍,然后再来过这个深度强化学习效果可能会更好。不过直接看完赵老师的《强化学习的数学原理》的前八章,然后跟完科科老师的课程之后,直接来看李老师的三次课,也能得到不错的理解。李老师的油管上有三年的课件,分别是17年,18年,21年。其中17和21年是概论,18年的是详细推导。

我建议大家的观看顺序是,21年,再到17年,再到18年。不要跳,都看完就好了。他有些概念会重复三次,没关系,重复的不多,反复听也可以更加加深印象。

王琦、杨毅远、江季三位大佬写的一本书,之所以推荐它,是因为这本书是三位老师讲课的笔记(科科老师,李宏毅老师,周博磊老师),周老师的视频我还没看暂时不作推荐。但是其他两位老师讲的是极好的。这本书浓缩了他们的讲课内容,值得推荐,这样就不太需要自己做笔记了,直接在书上勾画即可。

是上海交通大学俞勇团队编写的,他们上课用的就是这本教程。这本书代码极为清晰,他的代码框架脉络,是各个同学都应该去参考一下的。并且它有一个特别好的点,那就是它每一节课,都会配套一个jupyternotebook,可以所见即所得。新入门强化学习的同学,能在他们的代码上面,感受到“啊,原来RL代码的编写如此简单”。

THE END
1.选对学习路线,小白也能搞AI算法开发5. 常用算法学习。卷积算法:初识卷积、卷积的核心原理,矩阵乘算法:矩阵乘,激活函数:激活函数,池化层:池化, softmax分类原理:softmax等。 6. 以上算法几乎是深度学习中最重要最常见的算法,学完之后,可以扩展学习其他算法如:dropout:dropout,交叉熵损失函数:解密熵、交叉熵损失,归一化:批归一化,one-hot 编码:one-https://zhuanlan.zhihu.com/p/644180443
2.交换机如何实现自学习算法交换机可以隔离碰撞域,因此收到了广泛的使用,隔离碰撞域的实现是基于帧交换表,而帧交换表是通过自学习算法自动建立起来的,因此着重考虑自学习算法的实现。 交换机的简单认识 交换机本质上是一个多接口的网桥,自身可以进行碰撞检测并进行转发目的主机,当网桥收到一个帧时,并不是向所有的接口转发此帧,而是先检查此帧https://www.jianshu.com/p/ed03cf24b9b1
3.一种单计算参数的自学习路径规划算法AET一种单计算参数的自学习路径规划算法 0 引言 机器人路径规划(Robot Path Planning,RPP)的主要研究目的是寻找工作空间内的一条从出发点到目标点的运动路径,使机器人可以避开所有障碍物,且路径长度最短。RPP问题的相关研究成果在物流、危险物资传送、大规模集成电路设计等领域中有着广泛的应用[1-5]。在求解RPP问题的http://www.chinaaet.com/article/3000100590
4.自监督学习算法公式自我监督方法这里介绍了一种新的图像表示的自监督学习算法BYOL。BYOL通过预测其输出的以前版本来学习它的表示,而不使用负对。并且展示了BYOL在各种基准测试上取得了最先进的结果。特别是,在使用ResNet-50(1×)的ImageNet线性评估协议下,BYOL实现了一种新的技术,并弥补了自监督方法和的监督学习基线之间的大部分剩余差距。使用Reshttps://blog.51cto.com/u_16099251/10729763
5.自学习策略和Lévy飞行的正弦余弦优化算法首先,提出正弦余弦算法自学习策略和非线性权重因子,使搜索个体记忆自身历史最优位置,在寻优过程中指导搜索个体更新位置,提高SCA的局部搜索能力;算法寻优后期,当搜索陷入局部最优时,采用基于Lévy飞行的停滞扰动策略使算法跳出局部最优,提高SCA的局部最优规避能力。基于13个经典基准测试函数对算法性能进行测试的实验结果表明http://qks.cqu.edu.cn/html/cqdxzrcn/2019/9/20190907.htm
6.基于自适应LASSO先验的稀疏贝叶斯学习算法2.3 基于自适应LASSO 先验SBL 算法的稀疏恢复原理分析 SBL 算法本质是一种鲁棒的最大后验估计方法[2,16].一般通过I 型或II 型估计器稀疏求解[28].本文采用I 型估计器对提出的基于自适应LASSO先验SBL 算法进行分析.I 型估计器为最大化后验分布[28]: https://www.fx361.com/page/2022/0618/14396851.shtml
7.概述机器学习经典算法跟监督学习相反,无监督学习中数据集是完全没有标签的,依据相似样本在数据空间中一般距离较近这一假设, 将样本分类。常见的无监督学习算法包括:稀疏自编码(Sparse Auto Encoder)、主成分分析(Principal Component Analysis, PCA)、K-Means 算法(K 均值算法)、DBSCAN算法(Density-Based Spatial Clustering of Applicationshttps://weibo.com/ttarticle/p/show?id=2309404598738399395890
8.“AI”科普丨一文读懂自注意力机制:8大步骤图解+代码转自 新机器视觉 【导读】NLP领域最近的快速进展离不开基于Transformer的架构,本文以图解+代码的形式,带领读者完全理解self-attention机制及其背后的数学原理,并扩展到Transformer。 BERT, RoBERTa, ALBERT, SpanBERT, DistilBERT, SesameBERT, SemBERT, https://mp.weixin.qq.com/s?__biz=MjM5ODIwNjEzNQ==&mid=2649887658&idx=3&sn=e579f205c683d89a5ed5682102fff792&chksm=bf0ab725ed3b7c7784b043656254cf053b58ff6465d3da485bf72cf4491aa2f106d879cdc90e&scene=27
9.自适应学习率算法AdamW优化器工作原理详解:数学公式和实现AdamW 优化器是Adam优化器的一个变种,它将权重衰减(L2正则化)与Adam优化器结合起来。AdamW的关键在于,它将权重衰减与梯度更新分开处理,这有助于解决L2正则化与自适应学习率算法(如Adam)不兼容的问题。2017 年末,Adam 似乎又重获新生。https://download.csdn.net/blog/column/12592623/136707255
10.自定义深度学习分类·LiDAR360自定义深度学习分类该功能采用深度学习算法对点云数据进行分类。此功能采用监督分类,在同一批次数据中,需要手工编辑少量数据的类别,训练模型后批量处理大量数据。支持两种流程:选择训练样本,生成训练模型,处理待分类数据,利用已有的模型处理待分类数据。采用前后端分离设计(C/S架构),允许局域网内多个用户共用同一服务器下https://www.lidar360.com/wp-content/LiDAR360-zh/ToolReference/Classify/AutoClassifyByDeepLearning.html
11.计算机网络谢希仁笔记数据链路层按照以下自学习算法 处理收到的帧和建立交换表 A 先向 B 发送一帧,从接口 1 进入到交换机。 交换机收到帧后,先查找交换表,没有查到应从哪个接口转发这个帧。 交换机把这个帧的源地址 A 和接口 1 写入交换表中,并向除接口1以外的所有的接口广播这个帧。 https://blog.itpub.net/132/viewspace-2824201/
12.从智障到智能光语音识别就花了100年(全文)手机评测第3页:语音识别实现原理:算法和自学习 第4页:语音识别现状和未来 1离人工智能统治世界还有多远 前不久,中文版Bixby开始公测,虽然这并不是Bixby的首次发布,但却意味着新的语音巨头开始打入中国市场。在我们的测试中发现,Bixby拥有优良的识别率,可以实现语音开锁、语音文本转换,并且用户可以通过语音对手机进行电话短信、https://mobile.zol.com.cn/665/6656792_all.html
13.科学网—[转载]转自:数据标准化/归一化normalization有些模型在各个维度进行不均匀伸缩后,最优解与原来等价,例如logistic regression(因为θ的大小本来就自学习出不同的feature的重要性吧?)。对于这样的模型,是否标准化理论上不会改变最优解。但是,由于实际求解往往使用迭代算法,如果目标函数的形状太“扁”,迭代算法可能收敛得很慢甚至不收敛。所以对于具有伸缩不变性的https://blog.sciencenet.cn/blog-601186-1228314.html
14.用Qlearning算法实现自动走迷宫机器人的方法示例python但不同于监督学习与非监督学习,在强化学习的框架中,我们更侧重通过智能体与环境的交互来学习。通常在监督学习和非监督学习任务中,智能体往往需要通过给定的训练集,辅之以既定的训练目标(如最小化损失函数),通过给定的学习算法来实现这一目标。然而在强化学习中,智能体则是通过其与环境交互得到的奖励进行学习。这个https://www.jb51.net/article/162422.htm
15.见微知著,掩码自监督学习让你一叶知秋腾讯云开发者社区在前面的两篇文章中,我们介绍了基于各类代理任务 (Pretext Task)和基于对比学习 (Contrastive Learning)的自监督学习算法。 随着Vision Transformer (ViT) 在 2021 年霸榜各大数据集,如何基于 ViT 构建更加合适的自监督学习范式成为了该领域的一大问题。最初,DINO 和 MoCo v3 尝试将对比学习和 ViT 相结合,取得了https://cloud.tencent.com/developer/article/1975878