强化学习的基础知识和6种基本算法解释智能体

强化学习的基础知识和概念简介(无模型、在线学习、离线强化学习等)

机器学习(ML)分为三个分支:监督学习、无监督学习和强化学习。

通俗地说,强化学习类似于婴儿学习和发现世界,如果有奖励(正强化),婴儿可能会执行一个行动,如果有惩罚(负强化),婴儿就不太可能执行这个行动。这也是来自监督学习和非监督学习的强化学习之间的主要区别,后者从静态数据集学习,而前者从探索中学习。

本文将涉及强化学习的术语和基本组成部分,以及不同类型的强化学习(无模型、基于模型、在线学习和离线学习)。本文最后用算法来说明不同类型的强化学习。

本文的公式基于StuartJ.Russell和PeterNorvig的教科书《ArtificialIntelligence:AModernApproach》(第四版),为了保持数学方程格式的一致性所以略有改动,。

强化学习

在深入研究不同类型的强化学习和算法之前,我们应该熟悉强化学习的组成部分。

在一个婴儿探索世界的例子中,婴儿(代理)在现实世界(环境)中,能够感到高兴或饥饿(状态)。因此,宝宝可以选择哭泣,吃或睡(动作),如果宝宝饿的时候吃了东西(奖励),宝宝就满足了(正奖励)。

强化学习涉及探索,强化学习的输出是一个最优策略。策略描述了在每个状态下要采取的行动;类似于说明书。比如,政策可以是宝宝饿了就吃,否则,宝宝就该睡觉。这也与监督学习形成了对比,监督学习的输出只是一个单一的决策或预测,比策略更简单。

强化学习的目标是通过优化所采取的行动来最大化总累积奖励。和婴儿一样,我们不都想从生活中获得最大的累积利益吗;)

马尔可夫决策过程(MDP)

由于强化学习涉及一系列最优行为,因此它被认为是一个连续的决策问题,可以使用马尔可夫决策过程建模。

这里的状态(用S表示)被建模为圆圈,动作(用A表示)允许代理在状态之间转换。在上图2中,还有一个转换概率(用T表示),T(S11,A1,S12)是在状态S11采取A1动作后转换到状态S12的概率。我们可以认为动作A1是向右的动作A2是向下的。为了简单起见,我们假设转移概率为1,这样采取行动A1将确保向右移动,而采取行动A2将确保向下移动。

综上所述,从状态S11开始执行动作A2-A1-A1,预期效用的数学公式如下:

上面的例子是一个简单的例子,一般情况下都会有一些变化,比如,

考虑到这些变化,确定给定状态下策略π的期望效用U(s)的更一般的方程是这样的:

用上图4的话来说,状态的预期效用是折现奖励的预期总和。

上图5是著名的Bellman方程,它求解最大效用并推导出最优策略。最优策略是在考虑转移概率的情况下,对所有可能的下一个状态进行求和,使当前状态的最大效用加上下一个状态的折现效用。

回到MDP问题中,图2的最优策略是,如果代理处于状态S11,S12或S13,代理应该通过采取动作A2向下移动,如果代理处于状态S21或S22,则代理应该通过采取动作A1向右移动。这里的最优策略是通过求解Bellman方程来执行获得最大当前和折现未来奖励的行动。

MDP一般用(S,A,T,R)表示,它们分别表示一组状态,动作,转移函数和奖励函数。MDP假设环境是完全可观察的,如果代理不知道它当前处于什么状态,我们将使用部分可观察的MDP(POMDP)图5中的Bellman方程,可以使用值迭代或策略迭代来求解最优策略,这是一种将效用值从未来状态传递到当前状态的迭代方法。

强化学习类似于求解MDP,但现在转移概率和奖励函数是未知的,代理必须在训练期间执行动作来学习

无模型与基于模型的强化学习

上面提到的MDP示例是基于模型的强化学习。基于模型的强化学习具有转移概率T(s1,a,s2)和奖励函数R(s1,a,s2),它们是未知的,他们表示要解决的问题。

基于模型的方法对仿真很有用。基于模型的强化学习的例子包括值迭代和策略迭代,因为它使用具有转移概率和奖励函数的MDP。

无模型方法不需要知道或学习转移概率来解决问题。我们的代理直接学习策略。

无模型方法对于解决现实问题很有用。无模型强化学习的例子包括Q-learning和策略搜索,因为它直接学习策略。

离线学习vs.在线学习

离线学习和在线学习又称为被动学习和主动学习。

离线学习

在离线(被动)学习中,通过学习效用函数来解决该问题。给定一个具有未知转移和奖励函数的固定策略,代理试图通过使用该策略执行一系列试验来学习效用函数。

在线学习

在线(主动)学习中,通过学习规划或决策来解决问题。对于基于模型的在线强化学习,有探索和使用的阶段。在使用阶段,代理的行为类似于离线学习,采用固定的策略并学习效用函数。在探索阶段,代理执行值迭代或策略迭代以更新策略。

如果使用值迭代更新策略,则使用最大化效用/值的一步前瞻提取最佳行动。如果使用策略迭代更新策略,则可获得最优策略,并可按照建议执行操作。

在线强化学习的例子包括Exploration、Q-Learning和SARSA,这些将在后面几节中详细阐述。

当状态和动作太多以至于转换概率太多时,在线学习是首选。在线学习中探索和“边学边用”比在离线学习中一次学习所有内容更容易。但是由于探索中的试错法,在线学习也可能很耗时。

需要说明的是:在线学习和基于策略的学习(以及基于策略的离线学习)是有区别的,前者指的是学习(策略可以更改或固定),后者指的是策略(一系列试验来自一个策略还是多个策略)。在本文的最后两部分中,我们将使用算法来解释策略启动和策略关闭。

在理解了不同类型的强化学习之后,让我们深入研究一下算法!

1、直接效用估计DirectUtilityEstimation

无模型的离线学习

在直接效用估计中,代理使用固定策略执行一系列试验,并且状态的效用是从该状态开始的预期总奖励或预期奖励。

以一辆自动驾驶汽车为例,如果汽车在一次试验中从网格(1,1)开始时,未来的总奖励为+100。在同一次试验中,汽车重新访问该网格,从该点开始的未来总奖励是+300。在另一项试验中,汽车从该网格开始,未来的总奖励为+200。该网格的预期奖励将是所有试验和对该网格的所有访问的平均奖励,在本例中为(100+300+200)/3。

优点:给定无限次试验,奖励的样本平均值将收敛到真实的预期奖励。

缺点:预期的奖励在每次试验结束时更新,这意味着代理在试验结束前什么都没有学到,导致直接效用估计收敛非常慢。

2、自适应动态规划(ADP)

基于模型的离线学习

在自适应动态规划(ADP)中,代理尝试通过经验学习转换和奖励函数。转换函数是通过计算从当前状态转换到下一个状态的次数来学习的,而奖励函数是在进入该状态时学习的。给定学习到的转换和奖励函数,我们可以解决MDP。

以自动驾驶汽车为例,在给定状态下尝试向前移动10次,如果汽车最终向前移动8次并向左移动2次,我们了解到转换概率为T(当前状态,向前,前状态)=0.8和T(当前状态,向前,左状态)=0.2。

优点:由于环境是完全可观察的,因此很容易通过简单的计数来学习转换模型。

缺点:性能受到代理学习转换模型的能力的限制。这将导致这个问题对于大状态空间来说是很麻烦的,因为学习转换模型需要太多的试验,并且在MDP中有太多的方程和未知数需要求解。

与直接效用估计在每次尝试后进行学习相比,TD学习在每次转换后进行学习,具有更高的效率。

ADP和TD学习是离线强化学习算法,但在线强化学习算法中也存在主动ADP和主动TD学习!

4、Exploration

基于模型的在线学习,主动ADP

Exploration算法是一种主动ADP算法。与被动ADP算法类似,代理试图通过经验学习转换和奖励函数,但主动ADP算法将学习所有动作的结果,而不仅仅是固定的策略。

它还有一个额外的函数,确定代理在现有策略之外采取行动的“好奇程度”。这个函数随着效用的增加而增加,随着经验的减少而减少。

如果状态具有高效用,则探索函数倾向于更频繁地访问该状态。探索功能随着效用的增加而增加。如果状态之前没有被访问过或访问过足够多次,探索函数倾向于选择现有策略之外的动作。如果多次访问状态,则探索函数就不那么“好奇”了。由于好奇程度的降低,探索功能随着经验的增加而降低。

优点:探索策略会快速收敛到零策略损失(最优策略)。

缺点:效用估计的收敛速度不如策略估计的快,因为代理不会频繁地出现低效用状态,因此不知道这些状态的确切效用。

5、Q-Learning

无模型的在线学习,主动TD学习

Q-Learning是一种主动的TD学习算法。图6中的更新规则保持不变,但现在状态的效用表示为使用Q函数的状态-动作对的效用,因此得名Q-Learning。被动TD学习与主动TD学习的更新规则差异如下图7所示。

这种差异是由于被动RL都是用固定的策略,因此每个状态只会执行固定的操作,效用仅取决于状态。而在主动RL中,策略会被更新并且效用现在取决于状态-动作对,因为每个状态可能会根据不同的策略执行不同的动作。

Q-Learning是Off-Policy(无既定策略),这意味着目标或下一个状态的效用是使Q函数最大化(而不是下一个状态中可能的操作),我们就不需要下一个状态下的实际动作。

优点:可以应用于复杂领域,因为它是无模型的,代理不需要学习或应用转换模型。

缺点:它不看到未来的情况,所以当奖励稀少时可能会遇到困难。与ADP相比,它学习策略的速度较慢,因为本地更新不能确保Q值的一致性。

6、SARSA

SARSA是一种主动TD学习算法。算法名称SARSA源自算法的组件,即状态S、动作A、奖励R、(下一个)状态S和(下一个)动作A。这意味着SARSA算法在更新Q函数之前,要等待下一个状态下执行下一个动作。相比之下,Q-Learning是一种“SARS”算法,因为它不考虑下一个状态的动作。

SARSA算法知道在下一个状态下采取的动作,并且不需要在下一个状态下的所有可能动作上最大化Q函数。Q-Learning与SARSA的更新规则差异显示在下面的图8中。

SARSA以“策略”或者当前正在运行的策略的下一个状态的效用的q函数为目标,这样就能够获得下一个状态下的实际动作。

也就是说如果Q-Learning不探索其他操作并在下一个状态下遵循当前策略,则它与SARSA相同。

优点:如果整个策略由另一个代理或程序控制,则适合使用策略,这样代理就不会脱离策略并尝试其他操作。

缺点:SARSA不如Q-Learning灵活,因为它不会脱离策略来进行探索。与ADP相比,它学习策略的速度较慢,因为本地更新无法确保与Q值的一致性。

总结

在本文中我们介绍了强化学习的基本概念,并且讨论了6种算法,并将其分为不同类型的强化学习。

这6种算法是帮助形成对强化学习的基本理解的基本算法。还有更有效的强化学习算法,如深度Q网络(DeepQNetwork,DQN)、深度确定性策略梯度(DeepDeterministicPolicyGradient,DDPG)等算法,具有更实际的应用。

我一直觉得强化学习很有趣,因为它阐明了人类如何学习以及我们如何将这些知识传授给机器人(当然也包括其他应用,如自动驾驶汽车、国际象棋和AlphaGo等)。希望本文能够让你对强化学习有了更多的了解,并且知道了强化学习的不同类型,以及说明每种类型的强化学习的算法。

THE END
1.线上教学培训内容2.在线异步教学设计 在线异步教学设计.pdf 3.如何使用钉钉进行直播教学 如何使用钉钉进行直播教学.pdf 4.小组项目式学习(学习通PBL+社交软件) 小组项目式学习(学习通PBL+社交软件).pdf 5.异步学习+直播互动教学案例 异步学习+直播互动教学案例.pdf 6.线上教学如何上——4步演给你看 线上教学如何上——4步演给https://www.htu.edu.cn/xjzx/xsjxpxnr/list.htm
2.网络学习平台和在线测试基本操作.doc网络学习平台在线测试的基本操作一用户登陆与个人中心.登录地址请您在浏览器地址栏中输入: HYPERLINK 45/jpkc/ 45/jpkc/.登录登录框位于网站首页的最上端,如图 1.1。月二正空 吗学生老币登录图1.1请于输入框内,输入用户本人的用户名和密码,选择“学生”身份,点击登录按钮,即 可登录网络学习平台。登录成功后,会看https://m.renrendoc.com/paper/215405967.html
3.怎么低成本制作在线课程?互联网的大潮来临,我们的时间变得碎片化,越来越多的人选择通过移动端进行网络课程学习,一方面是由于网络课程学习在时间地点上没有太多的限制,只要有网络,有电脑或手机,都可以随时随地开始学习;另一方面,相对于线下面授的方式而言,价格也没有那么昂贵,那么怎么能够低成本制作在线课程呢? https://blog.csdn.net/yunketang_/article/details/135121472
4.学员线上学习指导手册.docx免费在线预览全文 学员线上学习指导手册注意事项: 1、学员在电脑上必须使用火狐或者谷歌浏览器进行学习; 2、初次登录系统会要求强制改密码,修改密码的格式需要包含大小写英文和数字的组合; 3、请学员牢记自己的登录账号和密码(账号即为学员学号,初次登录初始密码是8个8)本次学员学习任务: 1、必修课程内的必修视频学习https://m.book118.com/html/2022/0905/8134051032004135.shtm
5.电脑零基础入门讲解余厌yan进制转换第一课《电脑键盘知识大全》电脑入门办公必备掌握知识零基础自学基础课程操作技能教程 华程教育-程老师 47.0万 531 13:37 【硬核科普】从零开始认识主板00:37 零基础如何学习电脑?电脑基础知识这样学!零基础入门学习电脑办公软件 电脑自学课堂 1445 0 展开登录哔哩哔哩,高清视频免费看! 更多登录后权益等https://www.bilibili.com/list/ml2554632415
6.学校线上教学督导检查方案(精选8篇)方式二:电脑端学习操作步骤 1、注册:使用电脑端访问网址:进入“xxxx教学公共服务平台”页面,点击页面右上角“注册”,用家长或学生的手机号码进行账号注册,注意实名填写学生姓名并在“学校”处选择“xx县xx中学”。 2、线上学习:注册成功后,用注册账号和密码登录平台,点击页面上方“中小学xx教育”进入页面,再点击页面https://www.ruiwen.com/fangan/6821743.html
7.安川机器人基础操作培训第六期来啦!工业机器人欢迎大家来到安川机器人基础操作培训线上课堂第六期! 随着学习的深入,现在我们到了基础学习中的重难点部分,即标题所示的变量和指令。 学习这部分内容,除了要理解安川机器人的变量和指令,更重要的是要学会它们的实际应用。在文末会附上简单码垛搬运的实例程序,有条件的朋友可以自行对照练习。 https://www.imrobotic.com/news/detail/35061
8.同心战“疫”疫情防控时期您需要的教学培训在这里!教师在线培训自2020年2月10日开始执行,共分为基础课程与拓展课程两类,面向我校全体教师,由教师教学发展中心整合优质开放教育资源,供教师在线学习。 二、 基础课程 _ 如何使用我校在线教育综合平台? 如何快速完成网络课程建设? 想顺利开展在线教学,他人经验在哪里? https://www.thepaper.cn/newsDetail_forward_5872321
9.如何自学erp系统操作总结: △某业某财产品截图 学习erp系统操作需要从多个维度入手。您需要掌握erp的基础知识,学习网络教程、阅读erp教材和文献、参加erp培训班、并进行实践操作。只有通过多种渠道学习erp系统操作技巧,才能更好地应对企业管理信息化的挑战。https://h.chanjet.com/ask/6ca96e8919b45.html
10.《Python深度学习》小说在线阅读《Python深度学习》以深度学习框架为基础,介绍机器学习的基础知识与常用方法,全面细致地提供了机器学习操作的原理及其在深度学习框架下的实践步骤。全书共16章,分别介绍了深度学习基础知识、深度学习框架及其对比、机器学习基础知识、深度学习框架(以PyTorch为例)基础、Logistic回归、多层感知器、卷积神经网络与计算机视觉、神https://www.qidian.com/book/1027323517/
11.CG绘画是什么?好学吗?1、在线教程 网上有很多针对初学者的CG教程,包括视频教程、文字教程等,可以选择适合自己学习节奏的教程进行学习。 2、学习软件基础操作 首先需要学习相关的CG软件基础操作,比如Photoshop、Maya、3ds Max等,这些软件是CG创作的基本工具。 3、学习艺术基础知识 https://www.hxsd.com/content/37338/
12.线上教学方案(合集15篇)1.各教学单位要将线上教学安排及平台上课操作说明及时通知到每一位学生和授课教师,并负责联系各班级各课程授课教师进入班级微信群或QQ群,任课教师要认真组织学生在线自学、完成作业,做好在线直播、考核、辅导等线上教学活动,确保教学保质保量完成,学生学习“不断线”。 https://www.wenshubang.com/fangan/2969132.html
13.Python基础学习之时间转换函数用法详解python这篇文章主要介绍了Python基础学习之时间转换函数用法,结合实例形式分析了Python常见的日期时间获取、转换相关操作技巧,需要的朋友可以参考下 本文实例讲述了Python基础学习之时间转换函数用法。分享给大家供大家参考,具体如下: 前言 python的时间格式分为多种,几种格式之间的转换方法时常是我们遇到的而且是经常忘记的点,pyhttps://www.jb51.net/article/163292.htm
14.ES6入门教程《ECMAScript 6 入门教程》是一本开源的 JavaScript 语言教程,全面介绍 ECMAScript 6 新引入的语法特性。 本书覆盖 ES6 与上一个版本 ES5 的所有不同之处,对涉及的语法知识给予详细介绍,并给出大量简洁易懂的示例代码。 本书为中级难度,适合已经掌握 ES5 的读者,用来了解这门语言的最新发展;也可当作参考手册,https://es6.ruanyifeng.com/
15.三菱plc编程软件基础学习篇行业动态三菱PLC文章导读:三菱plc编程软件基础学习篇。 plc类型 1、小型PLC 一体式结构、I/O点数:256点(384点)、 多用于单机控制 如:FX1S、FX1N、FX2N、FX3U、FX3G整体化PLC,注:F1、F2、FX1、FX2、FX0N、FX0S均已停产。 2、中型系列PLC 模块化结构、I/O点数:<2048点 http://www.szhailan.com/article/922.html
16.《正版鸟哥的Linux私房菜基础学习篇第四版linux操作系统教程从当当新学图书专营店在线销售正版《正版鸟哥的Linux私房菜基础学习篇第四版linux操作系统教程从入门到精通书籍 鸟叔第4版计算机数据库编程linux shelll技巧教程》。最新《正版鸟哥的Linux私房菜基础学习篇第四版linux操作系统教程从入门到精通书籍 鸟叔第4版计算机数据库编程http://product.dangdang.com/1885568666.html
17.教程之家>>高中英语39个基础知识点汇总(PDF文档)>>高考历年常考的3大主题解析(PDF资料) 热门教程推荐: 电脑设计:photoshop视频教程coreldraw视频教程premiere教程下载10手机维修视频教程在线学习与下载 精品教程推荐 唐诗一百首倒背 “唐诗一百首倒背如流视频教程”旨在帮助学生 英语启蒙动画《 http://jczhijia.com/
18.在线学习的“冷思考”与“热操作”然而,在线教育离开面对面的方式,教师的直接作用力减少了,师生、生生间的互动多转化为单向讲授。同时,长时间面对屏幕,学生的视力也是一个需要考量的因素。除基础学科的预学外,任务驱动、多学科整合的项目化学习,应成为学生在家上学主要的学习内容和学习方式。一天一张学习单,而不是每个教师一张学习单,让学生思考多于http://www.jyb.cn/rmtzgjsb/202002/t20200224_300472.html