强化学习(一):简介——什么是强化学习?

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2023.12.12云南

本文将介绍强化学习的基本含义,了解什么是强化学习、强化学习的概念与基本框架以及强化学习中常见的问题类型。

强化学习(ReinforcementLearning,RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

以上是百度百科中对强化学习的描述,从这样一句话中我们能捕捉到几点信息:

换句话说,强化学习是一种学习如何从状态映射到行为以使得获取的奖励最大的学习机制。这样的一个agent需要不断地在环境中进行实验,通过环境给予的反馈(奖励)来不断优化状态-行为的对应关系。因此,反复实验(trialanderror)和延迟奖励(delayedreward)是强化学习最重要的两个特征。

这里其他机器学习方法主要是监督学习和无监督学习,也是我们在理解强化学习的过程中最容易发生混淆的地方。

监督学习是机器学习领域研究最多的方法,已经十分成熟,在监督学习的训练集中,每一个样本都含有一个标签,在理想情况下,这个标签通常指代正确的结果。监督学习的任务即是让系统在训练集上按照每个样本所对应的标签推断出应有的反馈机制,进而在未知标签的样本上能够计算出一个尽可能正确的结果,例如我们熟悉的分类与回归问题。在强化学习中的交互问题中却并不存在这样一个普适正确的“标签”,智能体只能从自身的经验中去学习。

但是强化学习与同样没有标签的无监督学习也不太一样,无监督学习是从无标签的数据集中发现隐藏的结构,典型的例子就是聚类问题。但是强化学习的目标是最大化奖励而非寻找隐藏的数据集结构,尽管用无监督学习的方法寻找数据内在结构可以对强化学习任务起到帮助,但并未从根本上解决最大化奖励的问题。

因此,强化学习是除了监督学习和无监督学习之外的第三种机器学习范式。

注:当然还有让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能的半监督学习,它与强化学习也有着本质的差别。

基于前面的介绍,我们将强化学习的特点总结为以下四点:

强化学习系统一般包括四个要素:策略(policy),奖励(reward),价值(value)以及环境或者说是模型(model)。接下来我们对这四个要素分别进行介绍。

策略定义了智能体对于给定状态所做出的行为,换句话说,就是一个从状态到行为的映射,事实上状态包括了环境状态和智能体状态,这里我们是从智能体出发的,也就是指智能体所感知到的状态。因此我们可以知道策略是强化学习系统的核心,因为我们完全可以通过策略来确定每个状态下的行为。我们将策略的特点总结为以下三点:

最后说说外界环境,也就是模型(Model),它是对环境的模拟,举个例子来理解,当给出了状态与行为后,有了模型我们就可以预测接下来的状态和对应的奖励。但我们要注意的一点是并非所有的强化学习系统都需要有一个模型,因此会有基于模型(Model-based)、不基于模型(Model-free)两种不同的方法,不基于模型的方法主要是通过对策略和价值函数分析进行学习。我们将模型的特点总结为以下两点:

我们用这样一幅图来理解一下强化学习的整体架构,大脑指代智能体agent,地球指代环境environment,从当前的状态StaS^a_tSta出发,在做出一个行为AtA_tAt之后,对环境产生了一些影响,它首先给agent反馈了一个奖励信号RtR_tRt,接下来我们的agent可以从中发现一些信息,此处用OtO_tOt表示,进而进入一个新的状态,再做出新的行为,形成一个循环。强化学习的基本流程就是遵循这样一个架构。

强化学习的基本问题按照两种原则进行分类。

我们用下面的韦恩图来清晰地对这些方法做一个展示:

最后在强化学习的问题这里谈一下探索和利用的问题。强化学习理论受到行为主义心理学启发,侧重在线学习并试图在探索-利用(exploration-exploitation)间保持平衡,不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数。

一方面,为了从环境中获取尽可能多的知识,我们要让agent进行探索,另一方面,为了获得较大的奖励,我们要让agent对已知的信息加以利用。鱼与熊掌不可兼得,我们不可能同时把探索和利用都做到最优,因此,强化学习问题中存在的一个重要挑战即是如何权衡探索-利用之间的关系。

强化学习是一种理解和自动化目标导向学习和决策的计算方法,它强调个体通过与环境的直接交互来学习,而不需要监督或是完整的环境模型。

可以认为,强化学习是第一个有效解决从与环境交互中学习以实现长期目标的方法,而这种模式是所有形式的机器学习中最接近人类和其他动物学习的方法,也是目前最符合人工智能发展终极目标的方法。

THE END
1.教育的软件:开启智慧学习的新篇章便捷性:教育软件打破了时间和空间的限制,学习者可以随时随地进行学习,大大提高了学习的便捷性。 互动性:许多教育软件都具备互动功能,如在线讨论、实时答疑等,这些功能增强了学习者之间的互动和交流,提高了学习效果。 个性化:通过大数据和人工智能技术,教育软件能够为学习者提供个性化的学习路径和推荐,帮助学习者更加高效https://www.pbids.com/aboutUs/pbidsNews/1861300105820344320
2.学习笔记在线强化学习是强化学习的一种形式,其中智能体(agent)通过与环境的实时交互来学习。在这个过程中,智能体根据当前观察状态(state)采取行动(action),并从环境那里接收奖励(reward)和下一个状态(next state)。智能体使用这些反馈来更新其策略(policy),即在定状态下选择行动的规则。在线学习的特点是智能体在每一时刻都基https://blog.csdn.net/hzlalb/article/details/136870080
3.手把手教你强化学习(一)什么是强化学习?与机器学习有什么区别?与无监督学习的区别:无监督学习是学习数据本身的规律、模式。强化学习是最大化期望收益。就像你去看电影,无监督学习学习你以前的观影记录,然后开始分析,给你推荐电影。强化学习相当于从用户那获得反馈,学习的是用户偏好,而不是数据本身,然后建立自己的知识框架,再来给你推荐电影。 https://developer.aliyun.com/article/1293995
4.什么是强化学习强化学习简介强化学习的优势以及应用嘲强化学习在制造业领域中也有广泛的应用,可以用来优化生产流程和降低成本。 强化学习与监督学习和无监督学习有什么区别? 监督学习是在有标签数据的情况下进行学习的,目标是学习一个从输入到输出的映射关系。无监督学习是在没有标签数据的情况下进行学习的,目标是学习数据中的内在结构和模式。强化学习则是在与环境交互的https://cloud.tencent.com/developer/techpedia/1750
5.持续学习与在线强化学习.pptx2.通过持续学习和在线强化学习,可以实现更智能、更自主的系统,提高生产效率和服务质量。3.未来,持续学习与强化学习将成为人工智能领域的重要研究方向之一。在线强化学习的基本原理持续学习与在线强化学习在线强化学习的基本原理在线强化学习的定义1.在线强化学习是在线学习和强化学习的结合,通过实时的反馈和数据进行模型优化https://m.renrendoc.com/paper/297429452.html
6.机器学习中在线学习批量学习迁移学习主动学习的区别按wiki上所描述的看,主动学习也属于半监督学习的范畴了,但实际上是不一样的,半监督学习和直推学习(transductive learning)以及主动学习,都属于利用未标记数据的学习技术,但基本思想还是有区别的。如上所述,主动学习的“主动”,指的是主动提出标注请求,也就是说,还是需要一个外在的能够对其请求进行标注的实体(通常http://eetrend.com/node/100016949
7.强化学习和监督式学习,非监督式学习的区别强化学习和监督式学习, 非监督式学习的区别 描述 今天来看看强化学习,不过不是要用它来玩游戏,而是觉得它在制造业,库存,电商,广告,推荐,金融,医疗等与我们生活息息相关的领域也有很好的应用,当然要了解一下了。 本文结构: 定义 和监督式学习, 非监督式学习的区别https://m.elecfans.com/article/734441.html
8.强化学习的基本概念在线学习和离线学习针对的是在强化学习模型在训练过程中交互数据的使用方式。在线学习的强化学习模型,会在一个交互之后,立即用本次交互得到的经验进行训练。而离线学习的强化学习模型,往往是先将多个交互的经验存储起来,然后在学习的时候,从存储的经验中取出一批交互经验来学习。 https://www.jianshu.com/p/28625d3a60e6
9.在线学习力:结构特征及影响因素然而,由于在线学习准时空分离特性,学习者易产生孤独、无助等情绪,实际学习效果尚未达到预期。探究远程学习者的在线学习力,辨析学习的内在机制与规律,可帮助学习者克服消极体验,提升学习水平,实现可持续发展。本研究首先通过理论研究,提出包含内驱力、认识力、意志力以及应用力四个维度的在线学习力理论框架,而后开展问卷https://maimai.cn/article/detail?fid=1527297080&efid=XUDmn34HY91HTKNshubb-A
10.在线网课学习课堂《人工智能(北理)》单元测试考核答案(1分)自组织特征映射网络的学习方法为()A非监督学习B监督学习C强化学习D半监督学习王确智家A第22题单选题(1分)自组织特征映射网络中的竞争方式是()A权值最大的神经元为获胜神经元B权值最小的神经元为获胜神经元C权值与输入向量最接近的神经元为获胜神经元D权值离输入向量最远的神经元为获胜神经元正确鲁索tC第https://www.yxfsz.com/view/1673214771380457473
11.叶志豪:介绍强化学习及其在NLP上的应用分享总结雷峰网接下来,讲一下强化学习和监督学习的区别,主要的区别可以归纳为两点。和监督学习比较,强化学习的信号是一个奖励信号,有样本、有标签,然后就是输入的不同。因为我们常见的,像我们的输入模型,它们都是独立分布的,但是对强化学习来说,一般它是一个序列,也就是说它的每一个动作的输出和它的输入是有关系的,它两次的https://www.leiphone.com/news/201807/sbyafpzV4BgvjLT1.html
12.GitHubWDWSD/easy强化学习中文教程(蘑菇书),在线阅读地址:https://datawhalechina.github.io/easy-rl/ - WDWSD/easy-rlhttps://github.com/WDWSD/easy-rl
13.2022在线网课学习课堂《人工智能(北理)》单元测试考核答案.pdf在线网课学习课堂《人工智能(北理 )》单元测试考核答案.pdf,注:不含主观题 第 1 题 单选题 (1分) 变化是学习的()。 A 基础 B 结果 C 条件 D 目标 第 2 题 单选题 (1分) 群智能对应于人的()。 A 学习能力 B 行为能力 C 语言能力 D 社交能力 第 3 题 单选题 (1分) 进化https://m.book118.com/html/2022/0913/8126126014004137.shtm
14.科学网—[转载]强化学习在资源优化领域的应用根据智能体在与环境交互过程中具体学习的内容,可以把无须对环境进行建模(即model-free)的强化学习算法分为两大类:直接学习动作执行策略的策略优化算法(如REINFORCE)和通过学习一个值函数进而做出动作执行决策的值优化算法(如Q-learning)。 在策略优化这类算法中,主要学习对象是动作执行策略πθ,其中,θ表示当前策略的https://blog.sciencenet.cn/blog-3472670-1312677.html
15.行为策略与目标策略Onpolicy与Offpolicy51CTO博客行为策略与目标策略、On-policy与Off-policy,在强化学习中,行为策略和目标策略的区别在于,行为策略是智能体在环境中实际采取的策略,而目标策略是智能体希望https://blog.51cto.com/sddai/6151204
16.AI深度强化学习落地方法七步曲2——状态空间篇回报函数篇由于强化学习的优化目标是折扣累加的长期收益,这使得reward起作用的方式较为间接,无法像有监督学习那样为神经网络的feature extraction提供很好的指导,这也是DRL训练效率低下的根本原因。因此,我们在状态空间上多下一点功夫,DRL学习的难度就降低一点。在资源有限的情况下这很有可能就是训不出来和训得出来的区别,也有可能https://www.shangyexinzhi.com/article/4228946.html
17.多智能体强化学习及其在游戏AI上的应用与展望根据反馈信号的不同,通常可以将机器学习分为监督学习,半监督学习,无监督学习和强化学习。其中,强化学习的训练没有现成的样本,而是智能体在与环境的交互中收集相应的(状态,动作,奖赏)的样本进行试错学习,从而不断地改善自身策略来获取最大的累积奖赏11 12。https://www.gameres.com/890381.html
18.面向连续8.动作表征的核心优势是对原始的复杂动作空间进行了本质语义关联的刻画,因而在得到的表征空间中影响或者含义相近的排列更紧密,进而带来的了学习过程中动作空间的泛化,提升强化学习学习任务的学习效率。然而,目前的动作表征方法都没有考虑混合动作空间。如何对离散和连续动作根据语义进行表征(embedding)学习以及如何基于动作表https://www.xjishu.com/zhuanli/55/202110958527.html
19.监理工作方案(通用17篇)3.教学辅导:教师要制定教学计划,根据录播课程确定教学重难点,配套教学案;围绕学生网络录播课的学习,进行学习辅导;教师布置课堂作业及课后作业,及时讲解,强化学习效果。 4.习题课:主科教师每周要利用上午时间,开设一节习题课,可利用在线直播的形式,归纳一周学习要点,讲解学生在作业中出现的普遍问题和难点。 https://www.diyifanwen.com/word/jianligongzuofangan.html