强化学习(一):简介——什么是强化学习?

本文将介绍强化学习的基本含义,了解什么是强化学习、强化学习的概念与基本框架以及强化学习中常见的问题类型。

强化学习(ReinforcementLearning,RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

以上是百度百科中对强化学习的描述,从这样一句话中我们能捕捉到几点信息:

换句话说,强化学习是一种学习如何从状态映射到行为以使得获取的奖励最大的学习机制。这样的一个agent需要不断地在环境中进行实验,通过环境给予的反馈(奖励)来不断优化状态-行为的对应关系。因此,反复实验(trialanderror)和延迟奖励(delayedreward)是强化学习最重要的两个特征。

这里其他机器学习方法主要是监督学习和无监督学习,也是我们在理解强化学习的过程中最容易发生混淆的地方。

监督学习是机器学习领域研究最多的方法,已经十分成熟,在监督学习的训练集中,每一个样本都含有一个标签,在理想情况下,这个标签通常指代正确的结果。监督学习的任务即是让系统在训练集上按照每个样本所对应的标签推断出应有的反馈机制,进而在未知标签的样本上能够计算出一个尽可能正确的结果,例如我们熟悉的分类与回归问题。在强化学习中的交互问题中却并不存在这样一个普适正确的“标签”,智能体只能从自身的经验中去学习。

但是强化学习与同样没有标签的无监督学习也不太一样,无监督学习是从无标签的数据集中发现隐藏的结构,典型的例子就是聚类问题。但是强化学习的目标是最大化奖励而非寻找隐藏的数据集结构,尽管用无监督学习的方法寻找数据内在结构可以对强化学习任务起到帮助,但并未从根本上解决最大化奖励的问题。

因此,强化学习是除了监督学习和无监督学习之外的第三种机器学习范式。

注:当然还有让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能的半监督学习,它与强化学习也有着本质的差别。

基于前面的介绍,我们将强化学习的特点总结为以下四点:

强化学习系统一般包括四个要素:策略(policy),奖励(reward),价值(value)以及环境或者说是模型(model)。接下来我们对这四个要素分别进行介绍。

策略定义了智能体对于给定状态所做出的行为,换句话说,就是一个从状态到行为的映射,事实上状态包括了环境状态和智能体状态,这里我们是从智能体出发的,也就是指智能体所感知到的状态。因此我们可以知道策略是强化学习系统的核心,因为我们完全可以通过策略来确定每个状态下的行为。我们将策略的特点总结为以下三点:

最后说说外界环境,也就是模型(Model),它是对环境的模拟,举个例子来理解,当给出了状态与行为后,有了模型我们就可以预测接下来的状态和对应的奖励。但我们要注意的一点是并非所有的强化学习系统都需要有一个模型,因此会有基于模型(Model-based)、不基于模型(Model-free)两种不同的方法,不基于模型的方法主要是通过对策略和价值函数分析进行学习。我们将模型的特点总结为以下两点:

强化学习的基本问题按照两种原则进行分类。

最后在强化学习的问题这里谈一下探索和利用的问题。强化学习理论受到行为主义心理学启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡,不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。

一方面,为了从环境中获取尽可能多的知识,我们要让agent进行探索,另一方面,为了获得较大的奖励,我们要让agent对已知的信息加以利用。鱼与熊掌不可兼得,我们不可能同时把探索和利用都做到最优,因此,强化学习问题中存在的一个重要挑战即是如何权衡探索-利用之间的关系。

强化学习是一种理解和自动化目标导向学习和决策的计算方法,它强调个体通过与环境的直接交互来学习,而不需要监督或是完整的环境模型。

可以认为,强化学习是第一个有效解决从与环境交互中学习以实现长期目标的方法,而这种模式是所有形式的机器学习中最接近人类和其他动物学习的方法,也是目前最符合人工智能发展终极目标的方法。

THE END
1.什么是强化学习强化学习(reinforcement learning,RL) 讨论的问题是智能体(agent)怎么在复杂、不确定的环境(environment)中最大化它能获得的奖励。如图 1.1 所示,强化学习由两部分组成:智能体和环境。在强化学习过程中,智能体与环境一直在交互。智能体在环境中获取某个状态后,它会利用该状态输出一个动作 (action),这个动作也称为决https://blog.csdn.net/qq_39312146/article/details/134478135
2.一文看懂什么是强化学习?(基本概念+应用嘲+主流算法)强化学习是机器学习的一种学习方式,它跟监督学习、无监督学习是对应的。本文将详细介绍强化学习的基本概念、应用场景和主流的强化学习算法及分类。 什么是强化学习? 强化学习并不是某一种特定的算法,而是一类算法的统称。 如果用来做对比的话,他跟监督学习,无监督学习 是类似的,是一种统称的学习方式。 https://easyai.tech/ai-definition/reinforcement-learning/
3.强化学习之原理与应用机器之心强化学习特别是深度强化学习近年来取得了令人瞩目的成就,除了应用于模拟器和游戏领域,在工业领域也正取得长足的进步。百度是较早布局强化学习的公司之一。这篇文章系统地介绍强化学习算法基础知识,强化学习在百度的应用,以及百度近期发布的基于PaddlePaddle深度学习框架的强化学习工具PARL。 https://www.jiqizhixin.com/articles/2019-02-20-8
4.一文了解强化学习虽然是周末,也保持充电,今天来看看强化学习,不过不是要用它来玩游戏,而是觉得它在制造业,库存,电商,广告,推荐,金融,医疗等与我们生活息息相关的领域也有很好的应用,当然要了解一下了。 本文结构: 定义 和监督式学习, 非监督式学习的区别 主要算法和类别 https://www.jianshu.com/p/f4409a8b7f71
5.什么是强化学习强化学习简介强化学习的优势以及应用嘲强化学习是一种机器学习的方法,它通过试错的方式学习如何做出最优的决策。强化学习的基本思想是将一个智能体放置在一个环境中,通过与环境的交互来学习如何做出最优的行动。在强化学习中,智能体通过观察环境的反馈来不断调整自己的行为,以获得最大的奖励。 https://cloud.tencent.com/developer/techpedia/1750
6.强化学习(一):概述51CTO博客最近,强化学习非常的火爆,不论在科研界还是工业界,强化学习一直作为一个新兴的领域,在计算机学科范畴内发挥重要的作用。强化学习(Reinforcement Learning),属于一种机器学习架构(范式)。我们知道机器学习一般分为监督和无监督,所谓监督即是否有外在的标准来约束样本,也就是所谓的标签;无监督则是没有标签的样本。https://blog.51cto.com/u_15919249/5962296
7.深度强化学习深度强化学习是机器学习的一个子领域,结合了强化学习(RL)和深度学习。强化学习考虑的是一个计算代理学习通过试验和错误做出决定的问题。深度RL将深度学习纳入解决方案,允许代理从非结构化的输入数据中做出决定,而不需要对状态空间进行人工设计。深度RL算法能够接受非常大的输入,并决定执行什么行动来优化目标(例如,最大化https://vibaike.com/176843/
8.清华大学出版社图书详情本书构建了一个完整的强化学习入门路径,深入浅出地介绍了强化学习算法的基本原理和实现方法。本书 首先回顾了相关预备知识,包括数学基础和机器学习基础,然后先介绍强化学习的基本概念,给出强化学习的 数学框架(马尔可夫决策过程),随后介绍强化学习的求解算法,包括表格求解法(动态规划法、蒙特卡洛法 和时序差分法),以及近http://www.tup.tsinghua.edu.cn/booksCenter/book_08672301.html
9.强化学习算法与应用综述摘要:强化学习是机器学习领域的研究热点, 是考察智能体与环境的相互作用, 做出序列决策、优化策略并最大化累积回报的过程. 强化学习具有巨大的研究价值和应用潜力, 是实现通用人工智能的关键步骤. 本文综述了强化学习算法与应用的研究进展和发展动态, 首先介绍强化学习的基本原理, 包括马尔可夫决策过程、价值函数、探索-https://c-s-a.org.cn/html/2020/12/7701.html
10.强化学习(ReinforcementLearning)莫烦Python1.1 什么是强化学习 1.2 强化学习方法汇总 1.3 为什么用强化学习 Why? 1.4 课程要求 Q-learning 2.1 什么是 Q Leaning 2.2 小例子 2.3 Q-learning 算法更新 2.4 Q-learning 思维决策 Sarsa 3.1 什么是 Sarsa 3.2 Sarsa 算法更新 3.3 Sarsa 思维决策 3.4 什么是 Sarsa(lambda) 3.5 Sarsa-lambdhttps://mofanpy.com/tutorials/machine-learning/reinforcement-learning/