强化学习基础篇[2]:SARSAQlearning算法简介应用举例优缺点分析汀人工智能

SARSA(State-Action-Reward-State-Action)是一个学习马尔可夫决策过程策略的算法,通常应用于机器学习和强化学习学习领域中。它由Rummery和Niranjan在技术论文“ModifiedConnectionistQ-Learning(MCQL)”中介绍了这个算法,并且由RichSutton在注脚处提到了SARSA这个别名。

State-Action-Reward-State-Action这个名称清楚地反应了其学习更新函数依赖的5个值,分别是当前状态S1,当前状态选中的动作A1,获得的奖励Reward,S1状态下执行A1后取得的状态S2及S2状态下将会执行的动作A2。我们取这5个值的首字母串起来可以得出一个词SARSA。

算法的核心思想可以简化为:

$$Q(S_{t},A_{t})=Q(S_{t},A_{t})+\alpha[R_{t+1}+\gammaQ(S_{t+1},A_{t+1})-Q(S_{t},A_{t})]$$其中$Q(S_{t+1},A_{t+1})$是下一时刻的状态和实际采取的行动对应的Q值,$Q(S_{t},A_{t})$是当前时刻的状态和实际采取的形同对应的Q值。折扣因子$\gamma$的取值范围是[0,1],其本质是一个衰减值,如果gamma更接近0,agent趋向于只考虑瞬时奖励值,反之如果更接近1,则agent为延迟奖励赋予更大的权重,更侧重于延迟奖励;奖励值$R_{t+1}$为t+1时刻得到的奖励值。$\alpha$为是学习率。

将一个结冰的湖看成是一个4×4的方格,每个格子可以是起始块(S),目标块(G)、冻结块(F)或者危险块(H),目标是通过上下左右的移动,找出能最快从起始块到目标块的最短路径来,同时避免走到危险块上,(走到危险块就意味着游戏结束)为了引入随机性的影响,还可以假设有风吹过,会随机的让你向一个方向漂移。

图1:初始化

左图是每个位置对应的Qvalue的表,最初都是0,一开始的策略就是随机生成的,假定第一步是向右,那根据上文公式,假定学习率是$\alpha$是0.1,折现率$\gamma$是0.5,而每走一步,会带来-0.4的奖励,那么(1.2)的Qvalue就是0+0.1×[-0.4+0.5×(0)-0]=-0.04,为了简化问题,此处这里没有假设湖面有风。

图2:走一步

假设之后又接着往右走了一步,用类似的方法更新(1,3)的Qvalue了,得到(1.3)的Qvalue还为-0.04

图3:走一步

等到了下个时刻,骰子告诉我们要往左走,此时就需要更新(1,2)的Q-value,计算式为:V(s)=0+0.1×[-0.4+0.5×(-0.04)-0)]

图4:走一步

假设现在智能体到达了如图5所示的位置,现在要做的是根据公式,更新(3,2)这里的Qvalue,由于向下走的Q-value最低,假定学习率是0.1,折现率是0.5,那么(3,2)这个点向下走这个策略的更新后的Qvalue就是,Sarsa会随机选一个action,比如这里选择的是(Q(4,2),down):

$$Q((3,2)down)=Q((3,2)down)+0.1×(-0.4+0.5×(Q((4,2)down))-Q((3,2),down))$$

$$Q((3,2),down)=0.6+0.1×(-0.4+0.5×0.4–0.6)=0.52$$

SARSA算法经常与Q-learning算法作比较,以便探索出两种算法分别适用的情况。它们互有利弊。

与SARSA相比,Q-learning具有以下优点和缺点:

如果是在模拟中或在低成本和快速迭代的环境中训练代理,那么由于第一点(直接学习最优策略),Q-learning是一个不错的选择。如果代理是在线学习,并且注重学习期间获得的奖励,那么SARSA算法更加适用。

Q-Learning假设可能出现的动作a和状态S是有限多,这时a和S的全部组合也是有限多个,并且引入价值量Q表示智能体认为做出某个a时所能够获得的利益。在这种假设下,智能体收到S,应该做出怎样的a,取决于选择哪一个a可以产生最大的Q。下面的表格显示了动物在面对环境的不同状态时做出的a对应着怎样的Q,这里为了简单说明只分别列举了2种S和a:

显然,如果此时S="前方有食物",选择a="向前走1米",得到的利益Q="1"显然比选择a="向后走1米"的q="0"要大,所以这时应该选择向前走;相对的前方如果有天敌,往前走显然没有任何利益,这时选择最大的利益就要向后走。这种表格在Q-Learning中被称为Q表,表中的S和a需要事先确定,表格主体的数据——q在初始化的时候被随机设置,在后续通过训练得到矫正。

Q-Learning的训练过程是Q表的Q值逐渐调整的过程,其核心是根据已经知道的Q值,当前选择的行动a作用于环境获得的回报R和下一轮$S_{t+1}$对应可以获得的最大利益Q,总共三个量进行加权求和算出新的Q值,来更新Q表:

$$Q(S_{t},A_{t})=Q(S_{t},A_{t})+\alpha[R_{t+1}+\gamma\mathop{max}{a}Q(S,a)-Q(S_{t},A_{t})]$$

其中$Q(S_{t+1},a)$是在$t+1$时刻的状态和采取的行动(并不是实际行动,所以公式采用了所有可能采取行动的Q的最大值)对应的Q值,$Q(S_{t},A_{t})$是当前时刻的状态和实际采取的形同对应的Q值。折扣因子$\gamma$的取值范围是[0,1],其本质是一个衰减值,如果gamma更接近0,agent趋向于只考虑瞬时奖励值,反之如果更接近1,则agent为延迟奖励赋予更大的权重,更侧重于延迟奖励;奖励值$R_{t+1}$为t+1时刻得到的奖励值。$\alpha$为是学习率。

这里动作价值Q函数的目标就是逼近最优的$q$$q=R_{t+1}+\gamma\mathop{max}{a}Q(S,a)$,并且轨迹的行动策略与最终的$q$是无关的。后面中括号的加和式表示的是$q$的贝尔曼最优方程近似形式。

假设现在智能体到达了如图5所示的位置,现在要做的是根据公式,更新(3,2)这里的Qvalue,由于向下走的Q-value最低,假定学习率是0.1,折现率是0.5,那么(3,2)这个点向下走这个策略的更新后的Qvalue就是:

$$Q((3,2)down)=Q((3,2)down)+0.1×(-0.4+0.5×max[Q((4,2)action)]-Q((3,2),down))$$

$$Q((3,2),down)=0.6+0.1×(-0.4+0.5×max[0.2,0.4,0.6]–0.6)=0.53$$

Q-Learning算法有一些缺点,比如状态和动作都假设是离散且有限的,对于复杂的情况处理起来会很麻烦;智能体的决策只依赖当前环境的状态,所以如果状态之间存在时序关联那么学习的效果就不佳。

THE END
1.在线学习的优势与劣势.pptx在线学习的优势与劣势汇报人:PPT可修改2024-01-20REPORTING目录引言在线学习优势在线学习劣势在线学习与传统学习比较在线学习改进措施结论与展望PART01引言REPORTING随着互联网的普及和技术的不断进步,人们可以随时随地通过网络获取信息和知识,这为在线学习提供了广阔的空间和可能性。传统的教育模式受到时间和空间的限制,而https://www.renrendoc.com/paper/319758163.html
2.在线学习的优势与劣势分析.pptx汇报人:PPT可修改2024-01-21在线学习的优势与劣势分析 目录CONTENCT引言在线学习优势在线学习劣势在线学习与传统学习比较在线学习未来发展趋势结论与建议 01引言 互联网技术的快速发展教育资源的日益丰富学习方式的变革随着互联网技术的不断进步,网络带宽、数据传输速度、多媒体展示等方面得到了极大的提升,为在线学习的普及https://m.book118.com/html/2024/0215/7046110155006041.shtm
3.在线教育优缺点发展前景加盟创业在线教育优缺点 优点 1、资源利用 各种教育资源通过网络跨越了空间距离的限制,使学校的教育成为可以超出校园向更广泛的地区辐射的开放式教育。学校可以充分发挥自己的学科优势和教育资源优势,把最优秀的教师、最好的教学成果通过网络传播到四面八方。 2、学习行为 https://www.cnpp.cn/focus/14126.html
4.线上教学的优缺点是什么?如今,线下教学回归正常,那么线上教学是否还有存在的必要,这要从线上教学是是否还有需求及线上教学的优缺点进行全面分析,本文将结合博思白板boardmix来为大家分析线上教学的优缺点及发展趋势。 1.线上教学的优点 线上教学有很多好处,比如学生和教师可以在舒适的家中建立联系、学生在上课时也节省了通勤时间、支持异地https://boardmix.cn/article/onlineteachinganalysis/
5.国家开放大学的学习计划(通用10篇)4、优缺点分析 优点 做事认真谦虚谨慎。 缺点 1、没有耐心缺少社会实践。 2、对自己的工作负责。 3、做事效率低。 4、心地善良上进心强。 5、紧张时一点点口吃。 6、人品端正脚踏实地。 7、不太关心同学 解决自己认知中的劣势和缺点,针对自己的不足和缺点,我准备从以下几方面克服我的缺点: https://m.ruiwen.com/xuexijihua/5599350.html
6.在线学习的特点和优劣分析在线学习特征当然,特点和优缺点是分不开的,特点会带来相应的优势和劣势,接下来,私塾在线将结合自身多年的经验,对在线学习的特点和优缺点进行分析: 特点一:时空泛在性 在线学习可以做到:随时随地进行,不受时间、空间的限制。 优势: 1:学习时间可控,可随意调配 2:学习地点更灵活、更方便 https://blog.csdn.net/wuha0/article/details/7051140
7.成人大专学习形式填什么在选择学习形式之前,需要首先认真分析自己的个人情况。例如时间、经济条件、职业发展目标等,然后再根据个人情况挑选最适合自己的学习方式。 2.了解不同学习方式的优缺点 针对每种学习方式,需要认真了解其优缺点,然后结合自身情况,选择最适合自己的学习形式。 https://www.eol.cn/baokao/zkdt/2024042994717.html
8.ai课和网课的区别,优缺点具体分析缺点:学习内容古板,循规蹈矩,很机械,局限性很大,互动性差。当孩子口语发音语出现问题的时候,也无法及时帮助孩子纠正,孩子在学习过程中遇到的问题得不到及时有效的解决,容易消磨孩子的学习兴趣。Ai课用人工智能的老师来替代真人老师辅导孩子学习英语,效果不是明显,孩子的学习效率低。 直播课是老师和孩子的真人在线实时https://m.biteabc.com/ask/article-183.html
9.猿辅导:独角兽成功之谜行业分析 k12领域典型玩家与典型模式优缺点分析 竞品分析 用户价值分析 商业价值分析 产品迭代分析 产品结构分析 运营分析 总结 未来展望 一、行业分析 在线教育顾名思义,是以网络为介质的教学方式,通过网络,学员与教师即使相隔万里也可以开展教学活动。 此外,借助网络课件,学员还可以随时随地进行学习,真正打破了时间和https://maimai.cn/article/detail?fid=1593575727&efid=XeiOTSP3AMw7ffON_a0-Tw
10.DataFountain的微博机器学习算法优缺点对比及选择(汇总篇) ?收藏 转发 评论 ?赞 c DataFountain 2019-2-19 16:38 来自微博weibo.com 已编辑 #猿宵节# ,自古以来就是 程序员超话 们通宵熬夜加班的节日,在节日当天,程序猿们相约在电脑前默默敲击键盘,祈求一年代码没有BUG,作为奖励,而最虔诚的那一只程序猿会得到猴https://weibo.com/weindata
11.新能源汽车专业职业规划书范文(精选11篇)4、优缺点分析 优点:做事认真仔细,关心他人,有恒心,人品端正,有上进心。 缺点:骄傲自满,信誓旦旦,过于关心他人。 (二)职业分析阶段 1.职业生涯规划的重要性 在跟老师学习了职业规划之后,才认识到职业规划的重要性,职业规划就是我们对人生的规划,这将伴随着我们的一生,拥有成功的职业规划才能实现完美的人生。因此https://www.yjbys.com/jiuyezhidao/zhiyeguihua/3561708.html
12.得到app产品分析在艾瑞APP指数中,得到的类别为有声视频,因此在该分类下寻找 喜马拉雅的用户数在该排名第一,并且同为知识付费平台,因此选择喜马拉雅作为竞品对比。 5.2 对比分析 从功能上的差异 从亮点、优缺点角度对比 一点点将产品学习的过程记录下来,在迭代中不断的进步。https://www.jianshu.com/p/6f31d30e4cd2
13.金融大数据入门:走进数字化金融的未来分布式计算框架,支持大规模数据处理和分析。 TensorFlow、PyTorch: 用于深度学习的框架,可用于构建神经网络模型。 4.3 金融市场数据平台 截至我知识截止日期,以下是四个中国金融市场数据平台的简要优缺点分析和官方网站: Baostock (宽客在线): 优点: 提供丰富的中国金融市场数据,包括A股和港股。 http://www.360doc.com/content/23/1229/20/78411425_1109232666.shtml
14.个人工作总结优点缺点(通用15篇)积极参加院周会,护士长例会:将全院、护理部会议精神做到上传下达,并安排周工作重点,总结上周工作中存在的优缺点,并提出相应的整改措施,及时反馈护理质控检查情况,并学习护士长管理资料。 各月对护理质量进行检查,及时反馈,不断提高护士长管理水平。 不断组织护理业务学习讲座,扩大每位护士的`知识面。 https://www.yuwenmi.com/fanwen/gongzuo/502650.html
15.第1单元第2课在线学习与生活更从容教学设计+作业设计学生通过小组合作探究学习逐步掌握本节课的知识点,具备一定的小组合作能力、探究能力、创新能力等,提升信息社会责任,综合提升信息素养。 教学目标及核心素养指向 1、体验在线学习内容,知道在线学习的优缺点(信息意识、计算思维) 2、知道互联网上信息更新速度快对我们学习和生活的帮助(信息意识、计算思维、数字化学习与https://m.zxxk.com/soft/45060058.html