假设你是一名骑士,你需要拯救被困在上面地图上所示城堡中的公主。
您可以一次移动一个图块。敌人不能移动,但是骑士和敌人落在同一块地砖上就会死。目标是使骑士尽可能以最快的路线前往城堡。这可以使用“积分”系统来评估。
骑士每走一步都减去1分(使用每一步-1策略有助于我们的Agent快速到达终点)。
这里的第一个策略:让Agent不断尝试移动到每个瓷砖上,然后为每个瓷砖着色。绿色表示“安全”,红色表示“不安全”。
相同的地图,但着色显示哪些瓷砖可以安全访问
然后,我们可以告诉Agent只在绿色瓷砖上移动。
但问题是这样做并没有对问题有帮助。当绿色瓷砖彼此相邻时,我们无法分辨哪个瓷砖更好。所以Agent在试图找到城堡过程会因此陷入死循环!
这是第二个策略:创建一个表格,我们将计算每种状态state下采取的每种行动action的最大的未来预期奖励。
多亏了这个策略,我们将知道对每种状态采取的最佳行动是什么。
每个state(瓷砖片)允许四种可能的动作。它们分别是向左,向右,向上或向下移动。
0表示不可以执行的动作(如果你在左上角你不能向左或向上!)
在计算方面,我们可以将此网格转换为表格。
这个表格被称为Q表(“Q”表示动作的“质量”)。列表示是四个动作(左,右,上,下)。行表示的是状态。每个单元格的值将是该给定状态和行动的最大未来预期奖励。
如果在state状态下给定的行动action是最佳策略,那么每个Q表评分为未来奖励的最大期望。
为什么我们说“根据策略给出?”这是因为我们不能直接给出这种策略。而是通过改进我们的Q表以始终选择最佳行动action。
可以把这个Q-table认为是一个游戏的“备忘单”。通过找到“备忘单”行中的最高分,我们知道每个状态(Q表中的每一行)最好的行动是什么。
Yeah!我们解决了城堡问题!但是等等......我们如何计算Q表中每个元素的值?
要给出此Q表的每个值,可以使用Q-learning算法。
动作值函数(或“Q函数”)有两个输入:“状态”和“动作”。它返回该动作在该状态下的预期未来奖励。
在我们探索环境之前,Q表中的值是固定的初始值(一般为0)。在我们探索环境时,通过使用Bellman方程迭代更新Q(s,a),Q表中的值将趋近于更好(见下文!)。
Q-Learning算法的伪代码
步骤1:初始化Q值
我们构建一个Q表,有m列(m=行动数)和n行(n=状态数)。我们将值初始化为0。
第2步:终身学习(或直到学习停止)
该过程将重复步骤3到5,直到算法运行次数为的episode的最大值(由用户指定)或直到我们手动停止训练。
步骤3:选择操作
根据当前的Q值选择当前状态下行动Actiona。
但是......如果每个Q值都是零,那么在该采取什么行动?
我们的想法是,在开始时,我们将使用epsilon贪心策略:
步骤4-5:评估!
然后,使用Bellman方程更新Q(s,a):
更新Q(state,action)代码可以写成如下所示:
NewQvalue=CurrentQvalue+lr*[Reward+discount_rate*(highestQvaluebetweenpossibleactionsfromthenewstates’)—CurrentQvalue]
我们来举个例子:
第1步:初始化Q表
初始化的Q表
步骤2:选择操作从起始位置,您可以选择向右还是向下。我们有一个大的epsilon率(因为我们对环境一无所知),采用随机选择的方式。例如......向右移动。
我们采用随机移动(例如,右)
发现了一块奶酪(+1),则更新的Q值并记录向右的行动。通过Bellman方程来进行计算。
步骤4-5:更新Q函数
学习率可以看视为该学习网络更新Q值的速度。如果学习率为1,则新估计值将是新的Q值。
更新后的Q表
好!我们刚刚更新了我们的第一个Q值。现在我们需要一次又一次地这样做,直到学习停止。
我们制作了一个视频,我们实现了一个学习与Numpy一起玩Taxi-v2的Q学习代理。
使用numpy和OpenAITaxi-v2进行Q学习(教程)
现在我们知道Q-Learning是如何工作的,我们将逐步实现Q学习算法。代码的每个部分在下面的Jupyter笔记本中都能找到。
您可以在DeepReinforcementLearningCourserepo中访问它。
或者您可以直接在GoogleColaboratory上访问它:
Q-learning实现FrozenLake
colab.research.google.com
就这样!不要忘记自己实现代码的每个部分-尝试修改我给你的代码非常重要。
尝试添加epoch,改变学习速度,并使用更复杂的环境(例如使用8x8瓷砖的Frozen-lake)。玩得开心!
下次我们将开展深度Q学习,这是2015年深度强化学习的最大突破之一。我们将训练一个智能体玩Doom,并杀掉敌人!
AI研习社每日更新精彩内容,观看更多精彩内容:雷锋网雷锋网雷锋网