强化学习

强化学习是机器学习的一个领域,它注重的是软件主体在一个环境中应该如何进行行动从而达到最大化累积奖励的想法。强化学习被认为是与监督学习和非监督学习并列的三种机器学习范式之一。

基本的强化学习被建模为一个马可夫决策过程:

当将主体的性能与最优行为主体进行比较时,性能的差异产生了遗憾的概念。为了接近最优地行动,主体必须对其行动的长期后果进行推理(即最大化未来收入),尽管这个行动会导致即时奖励可能是负值的。

前两个问题可以被考虑为规划问题(因为还存在某种形式的模型),而最后一个问题可以被认为是真正的学习问题。然而,使用强化学习的方法,这两种规划问题都可以被转化为机器学习问题。

强化学习需要聪明的探索机制。不参考估计的概率分布的随机选择动作性能表现较差。(小的)有限马尔可夫决策过程的情况相当地容易理解。然而,由于缺乏能够很好地随状态数量缩放(或缩放到具有无限状态空间的问题的规模)的算法,因此简单的探索方法是最实用的。

即使忽视了探索的问题,即使状态是可以观察到的(在之后进行假设),强化学习仍然存在利用过去的经验来找出最佳的动作的问题。

策略

主体的动作选择被建模为一个映射,名为策略:

状态值函数

该算法必须找到具有最大预期回报的策略。从马尔可夫决策过程理论可知,在一般性的情况下,搜索可以限制在所谓的静态的策略集合内。如果一个策略动作分布带来的收益只取决于最后访问的状态(来自观测主体的历史),那么它就是静态的。搜索可以进一步限制为确定性的静态策略。一个确定性静态策略根据当前状态确定性地选择动作。因为任何这样的策略都可以用从状态集合到动作集合的映射来识别,所以这些策略可以不失一般性地用这样的映射来识别。

暴力求解方法需要两步:

这种方法的一个问题是,策略的数量可能很大,甚至是无限的。另一个问题是收益的方差可能很大,这需要许多样本来准确估计每项策略的收益。

如果我们假设某种结构,允许从一个策略生成的样本影响对其他策略的估计,那么这些问题便可以得到改善。实现这一点的两种主要方法是价值函数估计和直接策略搜索。

价值函数方法试图通过保持对某种策略(通常是“当前的”[同步策略]或者是最优的[异步策略])的一系列的估计期望收益来找到一种最大化回报的策略。

这些方法依赖于马尔可夫决策过程理论,在马尔可夫决策过程理论中,最优性在某种意义上被定义为比之前的更强的策略:如果一个策略在任何的初始状态下都能获得最佳预期收益,则称之为最优策略(即初始分布在这个定义中不起作用)。同样,最优策略总是可以在静态策略中找到。

蒙特卡罗方法

蒙特卡罗方法可以用于模拟策略迭代的算法。策略迭代包括两个步骤:策略评估和策略改进。

该过程的问题包括:

第一个问题是通过允许过程在值确定之前改变策略(在一些或所有状态)来解决的。这本身也可能是个问题,因为它可能会阻碍收敛。大多数当前的算法都是这样做的,导致广义策略迭代算法的出现。许多玩家-评委(actor-critic)方法属于这一类。

另一种方法是直接在策略空间(的某个子集)中搜索,在这种情况下,问题变成随机优化的情况。可用的两种方法是基于梯度的方法和无梯度的方法。

有很多方法避免依赖梯度信息。这些方法包括模拟退火、交叉熵搜索或进化计算方法。许多无梯度方法可以实现(理论上和极限情况下)全局最优。

大多数算法的渐近行为和有限样本行为都是很好理解的。具有可证明良好在线性能(解决探索问题)的算法是已知的了。

研究主题包括

在学徒学习中,专家展示目标行为。系统试图通过观察来还原策略。

THE END
1.什么是强化学习强化学习(reinforcement learning,RL) 讨论的问题是智能体(agent)怎么在复杂、不确定的环境(environment)中最大化它能获得的奖励。如图 1.1 所示,强化学习由两部分组成:智能体和环境。在强化学习过程中,智能体与环境一直在交互。智能体在环境中获取某个状态后,它会利用该状态输出一个动作 (action),这个动作也称为决https://blog.csdn.net/qq_39312146/article/details/134478135
2.一文看懂什么是强化学习?(基本概念+应用嘲+主流算法)强化学习是机器学习的一种学习方式,它跟监督学习、无监督学习是对应的。本文将详细介绍强化学习的基本概念、应用场景和主流的强化学习算法及分类。 什么是强化学习? 强化学习并不是某一种特定的算法,而是一类算法的统称。 如果用来做对比的话,他跟监督学习,无监督学习 是类似的,是一种统称的学习方式。 https://easyai.tech/ai-definition/reinforcement-learning/
3.强化学习之原理与应用机器之心强化学习特别是深度强化学习近年来取得了令人瞩目的成就,除了应用于模拟器和游戏领域,在工业领域也正取得长足的进步。百度是较早布局强化学习的公司之一。这篇文章系统地介绍强化学习算法基础知识,强化学习在百度的应用,以及百度近期发布的基于PaddlePaddle深度学习框架的强化学习工具PARL。 https://www.jiqizhixin.com/articles/2019-02-20-8
4.一文了解强化学习虽然是周末,也保持充电,今天来看看强化学习,不过不是要用它来玩游戏,而是觉得它在制造业,库存,电商,广告,推荐,金融,医疗等与我们生活息息相关的领域也有很好的应用,当然要了解一下了。 本文结构: 定义 和监督式学习, 非监督式学习的区别 主要算法和类别 https://www.jianshu.com/p/f4409a8b7f71
5.什么是强化学习强化学习简介强化学习的优势以及应用嘲强化学习是一种机器学习的方法,它通过试错的方式学习如何做出最优的决策。强化学习的基本思想是将一个智能体放置在一个环境中,通过与环境的交互来学习如何做出最优的行动。在强化学习中,智能体通过观察环境的反馈来不断调整自己的行为,以获得最大的奖励。 https://cloud.tencent.com/developer/techpedia/1750
6.强化学习(一):概述51CTO博客最近,强化学习非常的火爆,不论在科研界还是工业界,强化学习一直作为一个新兴的领域,在计算机学科范畴内发挥重要的作用。强化学习(Reinforcement Learning),属于一种机器学习架构(范式)。我们知道机器学习一般分为监督和无监督,所谓监督即是否有外在的标准来约束样本,也就是所谓的标签;无监督则是没有标签的样本。https://blog.51cto.com/u_15919249/5962296
7.深度强化学习深度强化学习是机器学习的一个子领域,结合了强化学习(RL)和深度学习。强化学习考虑的是一个计算代理学习通过试验和错误做出决定的问题。深度RL将深度学习纳入解决方案,允许代理从非结构化的输入数据中做出决定,而不需要对状态空间进行人工设计。深度RL算法能够接受非常大的输入,并决定执行什么行动来优化目标(例如,最大化https://vibaike.com/176843/
8.清华大学出版社图书详情本书构建了一个完整的强化学习入门路径,深入浅出地介绍了强化学习算法的基本原理和实现方法。本书 首先回顾了相关预备知识,包括数学基础和机器学习基础,然后先介绍强化学习的基本概念,给出强化学习的 数学框架(马尔可夫决策过程),随后介绍强化学习的求解算法,包括表格求解法(动态规划法、蒙特卡洛法 和时序差分法),以及近http://www.tup.tsinghua.edu.cn/booksCenter/book_08672301.html
9.强化学习算法与应用综述摘要:强化学习是机器学习领域的研究热点, 是考察智能体与环境的相互作用, 做出序列决策、优化策略并最大化累积回报的过程. 强化学习具有巨大的研究价值和应用潜力, 是实现通用人工智能的关键步骤. 本文综述了强化学习算法与应用的研究进展和发展动态, 首先介绍强化学习的基本原理, 包括马尔可夫决策过程、价值函数、探索-https://c-s-a.org.cn/html/2020/12/7701.html
10.强化学习(ReinforcementLearning)莫烦Python1.1 什么是强化学习 1.2 强化学习方法汇总 1.3 为什么用强化学习 Why? 1.4 课程要求 Q-learning 2.1 什么是 Q Leaning 2.2 小例子 2.3 Q-learning 算法更新 2.4 Q-learning 思维决策 Sarsa 3.1 什么是 Sarsa 3.2 Sarsa 算法更新 3.3 Sarsa 思维决策 3.4 什么是 Sarsa(lambda) 3.5 Sarsa-lambdhttps://mofanpy.com/tutorials/machine-learning/reinforcement-learning/