强化学习在当今世界可谓是日渐流行,让我们来看一看关于强化学习你不得不知道的5件事。
▌1.强化学习究竟是什么?它与机器学习技术有什么联系?
强化学习(ReinforcementLearning)是机器学习的一个分支,它的原理是:在交互环境中,智能体利用自身的经验和反馈,通过试验和错误经验来进行学习。
有监督学习和强化学习都会明确指出输入和输出之间的映射关系,但不同点在于,有监督学习给智能体的反馈是执行正确任务的行为集合,而强化学习反馈的则将奖励和惩罚转为积极和消极行为的信号进行反馈。
对于无监督学习,强化学习的目标显得更加难以实现。无监督学习的目标仅仅是找到数据之间的相似和不同,而强化学习的目标却是找到一个能最大化智能体总累计奖励的模型。
强化学习模型中涉及的基本思想和元素见下图:
▌2.如何确定一个基本的强化学习问题?
描述强化学习问题的几个关键元素是:
环境:智能体所处的物理世界;
状态:智能体目前的状态;
奖励:从环境中得到的反馈;
方案:将智能体状态映射到行动的方法;
价值:智能体在特定状态下执行某项行动获取未来的奖励。
一些游戏可以帮助我们很好的理解强化学习问题。以PacMan游戏为例:在这个游戏中,智能体(PacMan)的目标就是在避免与鬼相遇的情况下,尽量在网格中吃到更多的豆子。网格世界就是智能体的交互环境,如果PacMan吃到了豆子就接受奖励,如果被鬼杀死了(游戏结束)就接受惩罚。在该游戏中,“状态”就是PacMan在网格中的各个位置,而总累计奖励就是赢得比赛的胜利。
为了得到最优的方案,智能体既需要探索新的状态,又要同时尽量取得最多的奖励。这就是所谓的“探测与开采的权衡”问题。
Q-learning模型就是一种应用广泛的不理解环境强化学习模型,因此可以用它来模拟PacMan智能体。Q-learning模型的规则是,在状态S下执行行动a,不停更新Q值,而迭代更新变量值算法就是该算法的核心。
Figure2:ReinforcementLearningUpdateRule
这是利用一个深度强化学习实现PacMan游戏的视频:
▌3.最常用的深度学习算法原理是什么?
Q-learning和SARSA是两种最常见的不理解环境强化学习算法,这两者的探索原理不同,但是开发原理是相似的。Q-learning是一种离线学习算法,智能体需要从另一项方案中学习到行为a*的价值;SARSA则是一种在线学习算法,智能体可从现有方案指定的当前行为来学习价值。这两种方法都很容易实现,但缺乏一般性,因为它们无法预估未知状态的值。
▌4.强化学习有哪些实际应用?
由于强化学习需要大量的数据,因此它最适用于模拟数据领域,如游戏、机器人等。
强化学习广泛应用于设计游戏中的AI玩家。AlphaGoZero在传统中国游戏围棋中打败了世界冠军,这是AI第一次击败现实中的世界冠军。AI还在ATARI游戏、西洋双陆棋等游戏中有出色的表现。
机器人和工业自动化领域中,深度学习也被广泛应用,机器人能够为自己搭建一个高效的自适应控制系统,从而学习自己的经验和行为。DeepMind关于“带有异步策略更新的机器人操纵的深度强化学习”就是一个很好的例子。
▌5.我该如何开始强化学习?
读者可以从以下链接中了解更多关于强化学习的基本概念:
开始构建和测试RL代理
DeepMindLab是一个开源的3D游戏式平台,它为机遇智能体可以的人工智能研究提供丰富的模拟环境。