增强学习（一）基本概念Kintoki|增强学习_在线学习

增强学习（reinforcementlearning,RL）又叫做强化学习，是近年来机器学习和智能控制领域的主要方法之一。

定义:Reinforcementlearningislearningwhattodo----howtomapsituationstoactions----soastomaximizeanumericalrewardsignal.[1]

通过增强学习，一个智能体应该知道在什么状态下应该采取什么行为。RL是从环境状态到动作的映射的学习，我们把这个映射称为策略。

那么增强学习具体解决哪些问题呢，我们来举一些例子：

例2.假设我们要构建一个下国际象棋的机器，这种情况不能使用监督学习，首先，我们本身不是优秀的棋手，而请象棋老师来遍历每个状态下的最佳棋步则代价过于昂贵。其次，每个棋步好坏判断不是孤立的，要依赖于对手的选择和局势的变化。是一系列的棋步组成的策略决定了是否能赢得比赛。下棋过程的唯一的反馈是在最后赢得或是输掉棋局时才产生的。这种情况我们可以采用增强学习算法，通过不断的探索和试错学习，增强学习可以获得某种下棋的策略，并在每个状态下都选择最有可能获胜的棋步。目前这种算法已经在棋类游戏中得到了广泛应用。

可以看到，增强学习和监督学习的区别主要有以下两点：

1.增强学习是试错学习(Trail-and-error)，由于没有直接的指导信息，智能体要以不断与环境进行交互，通过试错的方式来获得最佳策略。

2.延迟回报，增强学习的指导信息很少，而且往往是在事后（最后一个状态）才给出的，这就导致了一个问题，就是获得正回报或者负回报以后，如何将回报分配给前面的状态。

增强学习是机器学习中一个非常活跃且有趣的领域，相比其他学习方法，增强学习更接近生物学习的本质，因此有望获得更高的智能，这一点在棋类游戏中已经得到体现。Tesauro(1995)描述的TD-Gammon程序，使用增强学习成为了世界级的西洋双陆棋选手。这个程序经过150万个自生成的对弈训练后，已经近似达到了人类最佳选手的水平，并在和人类顶级高手的较量中取得40盘仅输1盘的好成绩。

下篇我们正式开始学习增强学习，首先介绍一下马尔可夫决策过程。

参考资料：

[1]R.Suttonetal.Reinforcementlearning:Anintroduction,1998

THE END

增强学习（一）基本概念Kintoki

最新加强政治理论学习(23篇)

增强学习意识，提升能力素养四川党建网

增强学习（一）基本概念Kintoki

加强理论学习注重学习效果

党员要加强学习

增强学习自觉提升能力素质

坚持在学习中增强本领解放军报

加强理论学习提升能力素质

持续深化学习永远在路上

切实增强理论学习的自觉性

加强学习，提高思想认识整改措施范文(通用5篇)

新时代党员干部必须增强学习本领

新时代党员干部要增强学习本领

党员如何加强学习（精选6篇）