增强学习(一)基本概念Kintoki

增强学习(reinforcementlearning,RL)又叫做强化学习,是近年来机器学习和智能控制领域的主要方法之一。

定义:Reinforcementlearningislearningwhattodo----howtomapsituationstoactions----soastomaximizeanumericalrewardsignal.[1]

通过增强学习,一个智能体应该知道在什么状态下应该采取什么行为。RL是从环境状态到动作的映射的学习,我们把这个映射称为策略。

那么增强学习具体解决哪些问题呢,我们来举一些例子:

例2.假设我们要构建一个下国际象棋的机器,这种情况不能使用监督学习,首先,我们本身不是优秀的棋手,而请象棋老师来遍历每个状态下的最佳棋步则代价过于昂贵。其次,每个棋步好坏判断不是孤立的,要依赖于对手的选择和局势的变化。是一系列的棋步组成的策略决定了是否能赢得比赛。下棋过程的唯一的反馈是在最后赢得或是输掉棋局时才产生的。这种情况我们可以采用增强学习算法,通过不断的探索和试错学习,增强学习可以获得某种下棋的策略,并在每个状态下都选择最有可能获胜的棋步。目前这种算法已经在棋类游戏中得到了广泛应用。

可以看到,增强学习和监督学习的区别主要有以下两点:

1.增强学习是试错学习(Trail-and-error),由于没有直接的指导信息,智能体要以不断与环境进行交互,通过试错的方式来获得最佳策略。

2.延迟回报,增强学习的指导信息很少,而且往往是在事后(最后一个状态)才给出的,这就导致了一个问题,就是获得正回报或者负回报以后,如何将回报分配给前面的状态。

增强学习是机器学习中一个非常活跃且有趣的领域,相比其他学习方法,增强学习更接近生物学习的本质,因此有望获得更高的智能,这一点在棋类游戏中已经得到体现。Tesauro(1995)描述的TD-Gammon程序,使用增强学习成为了世界级的西洋双陆棋选手。这个程序经过150万个自生成的对弈训练后,已经近似达到了人类最佳选手的水平,并在和人类顶级高手的较量中取得40盘仅输1盘的好成绩。

下篇我们正式开始学习增强学习,首先介绍一下马尔可夫决策过程。

参考资料:

[1]R.Suttonetal.Reinforcementlearning:Anintroduction,1998

THE END
1.如何强化理论学习,提升制胜看家本领科学教学教育要把学习贯彻新时代中国特色社会主义思想作为重大政治任务,坚持读原著、学原文、悟原理,着力在学懂弄通做实上下功夫,全面系统把握统筹推动“五位一体”总体布局和协调推进“四个全面”战略布局的框架脉络和任务举措,不断提高理论素养、政治素养,努力做到学思用贯通、知信行统一。二要及时跟进学习。要切实增强第一时间https://www.163.com/dy/article/H69P1O750552VUJ4.html
2.加强学习什么意思?再励学习、评价学习或增强学习。学习既是掌握知识、增强技能、做好工作的重要手段,也是加强修养、提高素质、提升服务的根本途径。所以在工作中,我将本着“勤思考,善学习,讲实用,观长远”的学习理念,不断加强业务知识学习,不断提高自身综合素质,做到学以致用。https://zhidao.baidu.com/question/1614418174969131027.html
3.加强学习提升自我作为一名先进的工作人员,在工作中要加强学习专业知识,不断提高自身素质和工作能力。以下是小编为大家收集的加强学习提升自我,希望对大家有所帮助。 增强学习的紧迫感 我对学习重要性的认识,主要基于三个面对:一是面对当今知识爆炸的时代,增强学习的紧迫性。据媒体报道,人类知识的总量,每隔7至10年就要翻一番。英国科https://www.yjbys.com/qiuzhizhinan/show-211049.html
4.增强学习(ReinforcementLearning)什么是增强学习增强学习(reinforcementlearning, RL)又叫做强化学习,是近年来机器学习和智能控制领域的主要方法之一。 定义:Reinforcement learningis learning what to do ---how to map situations to actions --- so as to maximize a numerical reward signal.[1] 也就https://blog.csdn.net/zz_1215/article/details/44138715
5.领导干部要增强学习能力增强学习借鉴能力。要适应时代的发展,就要跳出“舒适圈”,自我加压,在埋头看书的同时要学会看世界;在学习理论知识的同时要学习实践经验;在理论和实践的学习中不断拓宽思路,大胆创新;在独立思考的同时又要善于借鉴好经验、好做法,对标先进找差距,学经验,补短板,通过交流借鉴,勇于实践、敢于创新,探索出最适合的发展路径https://m.yunnan.cn/system/2023/10/30/032812323.shtml
6.能力作风建设道外区胜利街道“学思并行”助力学习型机关创建下一步,道外区胜利街道坚持把党工委中心组理论学习作为打造“学习型机关”的重点,继续落实制度,不断强化党员干部的政治理论素养和党性修养。不断完善学习制度,创新学习方式,增强学习实效,在学以致用、融会贯通、知行合一上下功夫,不断提高我街学习规范化水平。https://www.my399.com/p/293734.html