动手学强化学习(一):初探强化学习jasonzhangxianrong

亲爱的读者,欢迎来到强化学习的世界。初探强化学习,你是否充满了好奇和期待呢?我们想说,首先感谢你的选择,学习本书不仅能够帮助你理解强化学习的算法原理,提高代码实践能力,更能让你了解自己是否喜欢决策智能这个方向,从而更好地决策未来是否从事人工智能方面的研究和实践工作。人生中充满选择,每次选择就是一次决策,我们正是从一次次决策中,把自己带领到人生的下一段旅程中。在回忆往事时,我们会对生命中某些时刻的决策印象深刻:“还好我当时选择了读博,我在那几年找到了自己的兴趣所在,现在我能做自己喜欢的工作!”“唉,当初我要是去那家公司实习就好了,在那里做的技术研究现在带来了巨大的社会价值。”通过这些反思,我们或许能领悟一些道理,变得更加睿智和成熟,以更积极的精神来迎接未来的选择和成长。

本章主要讨论强化学习的基本概念和思维方式。希望通过本章的讨论,读者能了解强化学习在解决什么任务,其基本的数学刻画是什么样的,学习的目标是什么,以及它和预测型的有监督学习方法有什么根本性的区别。而关于如何设计强化学习算法,我们会在接下来的章节里面细细讨论。

广泛地讲,强化学习是机器通过与环境交互来实现目标的一种计算方法。机器和环境的一轮交互是指,机器在环境的一个状态下做一个动作决策,把这个动作作用到环境当中,这个环境发生相应的改变并且将相应的奖励反馈和下一轮状态传回机器。这种交互是迭代进行的,机器的目标是最大化在多轮交互过程中获得的累积奖励的期望。强化学习用智能体(agent)这个概念来表示做决策的机器。相比于有监督学习中的“模型”,强化学习中的“智能体”强调机器不但可以感知周围的环境信息,还可以通过做决策来直接改变这个环境,而不只是给出一些预测信号。

智能体和环境之间具体的交互方式如图1-1所示。在每一轮交互中,智能体感知到环境目前所处的状态,经过自身的计算给出本轮的动作,将其作用到环境中;环境得到智能体的动作后,产生相应的即时奖励信号并发生相应的状态转移。智能体则在下一轮交互中感知到新的环境状态,依次类推。

这里,智能体有3种关键要素,即感知、决策和奖励。

从以上分析可以看出,面向决策任务的强化学习和面向预测任务的有监督学习在形式上是有不少区别的。首先,决策任务往往涉及多轮交互,即序贯决策;而预测任务总是单轮的独立任务。如果决策也是单轮的,那么它可以转化为“判别最优动作”的预测任务。其次,因为决策任务是多轮的,智能体就需要在每轮做决策时考虑未来环境相应的改变,所以当前轮带来最大奖励反馈的动作,在长期来看并不一定是最优的。

我们从1.2节可以看到,强化学习的智能体是在和一个动态环境的交互中完成序贯决策的。我们说一个环境是动态的,意思就是它会随着某些因素的变化而不断演变,这在数学和物理中往往用随机过程来刻画。其实,生活中几乎所有的系统都在进行演变,例如一座城市的交通、一片湖中的生态、一场足球比赛、一个星系等。对于一个随机过程,其最关键的要素就是状态以及状态转移的条件概率分布。这就好比一个微粒在水中的布朗运动可以由它的起始位置以及下一刻的位置相对当前位置的条件概率分布来刻画。

如果在环境这样一个自身演变的随机过程中加入一个外来的干扰因素,即智能体的动作,那么环境的下一刻状态的概率分布将由当前状态和智能体的动作来共同决定,用最简单的数学公式表示则是

根据上式可知,智能体决策的动作作用到环境中,使得环境发生相应的状态改变,而智能体接下来则需要在新的状态下进一步给出决策。

由此我们看到,与面向决策任务的智能体进行交互的环境是一个动态的随机过程,其未来状态的分布由当前状态和智能体决策的动作来共同决定,并且每一轮状态转移都伴随着两方面的随机性:一是智能体决策的动作的随机性,二是环境基于当前状态和智能体动作来采样下一刻状态的随机性。通过对环境的动态随机过程的刻画,我们能清楚地感受到,在动态随机过程中学习和在一个固定的数据分布下学习是非常不同的。

价值的计算有些复杂,因为需要对交互过程中每一轮智能体采取动作的概率分布和环境相应的状态转移的概率分布做积分运算。强化学习和有监督学习的学习目标其实是一致的,即在某个数据分布下优化一个分数值的期望。不过,经过后面的分析我们会发现,强化学习和有监督学习的优化途径是不同的。

接下来我们从数据层面谈谈有监督学习和强化学习的区别。

有监督学习的任务建立在从给定的数据分布中采样得到的训练数据集上,通过优化在训练数据集中设定的目标函数(如最小化预测误差)来找到模型的最优参数。这里,训练数据集背后的数据分布是完全不变的。

在强化学习中,数据是在智能体与环境交互的过程中得到的。如果智能体不采取某个决策动作,那么该动作对应的数据就永远无法被观测到,所以当前智能体的训练数据来自之前智能体的决策结果。因此,智能体的策略不同,与环境交互所产生的数据分布就不同,如图1-2所示。

具体而言,强化学习中有一个关于数据分布的概念,叫作占用度量(occupancymeasure),其具体的数学定义和性质会在第3章讨论,在这里我们只做简要的陈述:归一化的占用度量用于衡量在一个智能体决策与一个动态环境的交互过程中,采样到一个具体的状态动作对(state-actionpair)的概率分布。

占用度量有一个很重要的性质:给定两个策略及其与一个动态环境交互得到的两个占用度量,那么当且仅当这两个占用度量相同时,这两个策略相同。也就是说,如果一个智能体的策略有所改变,那么它和环境交互得到的占用度量也会相应改变。

根据占用度量这一重要的性质,我们可以领悟到强化学习本质的思维方式。

通过前面5节的讲解,读者现在应该已经对强化学习的基本数学概念有了一定的了解。这里我们回过头来再看看一般的有监督学习和强化学习的区别。

对于一般的有监督学习任务,我们的目标是找到一个最优的模型函数,使其在训练数据集上最小化一个给定的损失函数。在训练数据独立同分布的假设下,这个优化目标表示最小化模型在整个数据分布上的泛化误差(generalizationerror),用简要的公式可以概括为:

相比之下,强化学习任务的最终优化目标是最大化智能体策略在和动态环境交互过程中的价值。根据1.5节的分析,策略的价值可以等价转换成奖励函数在策略的占用度量上的期望,即:

观察以上两个优化公式,我们可以回顾1.4节,总结出两者的相似点和不同点。

综上所述,一般有监督学习和强化学习的范式之间的区别为:

本章通过简短的篇幅,大致介绍了强化学习的样貌,梳理了强化学习和有监督学习在范式以及思维方式上的相似点和不同点。在大多数情况下,强化学习任务往往比一般的有监督学习任务更难,因为一旦策略有所改变,其交互产生的数据分布也会随之改变,并且这样的改变是高度复杂、不可追踪的,往往不能用显式的数学公式刻画。这就好像一个混沌系统,我们无法得到其中一个初始设置对应的最终状态分布,而一般的有监督学习任务并没有这样的混沌效应。

好了,接下来该是我们躬身入局,通过理论学习和代码实践来学习强化学习的时候了。你准备好了吗?我们开始吧!

THE END
1.动手学强化学习强化学习基础篇有监督学习和强化学习的优化目标相似,即都是在优化某个数据分布下的一个分数值的期望。 二者优化的途径是不同的,有监督学习直接通过优化模型对于数据特征的输出来优化目标,即修改目标函数而数据分布不变;强化学习则通过改变策略来调整智能体和环境交互数据的分布,进而优化目标,即修改数据分布而目标函数不变。 https://blog.csdn.net/weixin_44766491/article/details/129231690
2.动手学强化学习张伟楠老师强化学习网课视频材料已经在伯禹学习平台完全免费开放。若大家想要观看视频学习,可以点击右上角“视频课程”前往。 动手学强化学习(Hands-on RL)旨在为国内学生和研究者提供一个友好的 RL 学习环境。在这里,我们希望读者能够真正学习到强化学习的知识,并且对代码实现过程有更加清晰的认识。该动手学强化学习项目https://hrl.boyuai.com/
3.有哪些强化学习的书值得推荐?***University of Alberta的Richard Sutton教授,强化学习创立者之一,他的书籍是业内公认的经典入门教材https://www.zhihu.com/question/593480029
4.动手学强化学习第 一部分 强化学习基础 第1 章 初探强化学习 2 1.1 简介 2 1.2 什么是强化学习 2 1.3 强化学习的环境 4 1.4 强化学习的目标 4 1.5 强化学习中的数据 5 1.6 强化学习的独特性 6 1.7 小结 6 第2 章 多臂老虎机问题 7 2.1 简介 7 2.2 问题介绍 7 https://w.ptpress.cn/bookDetails?id=UB7d4a1fc362a4a
5.动手学强化学习强化学习是一种面向决策型人工智能的方法,将更多权力交给机器,让机器在各种任务中直接完成决策,不再以辅助的角色为人或者其他下游逻辑服务。本书系统地介绍了强化学习的原理和实现,理论与实践并重,在介绍强化学习理论的同时,辅之以线上代码实践平台,帮助读者通过实践加深对理论的理解。本书适合对强化学习感兴趣的高校学https://lib.qztc.edu.cn/2024/0912/c4682a276702/page.htm
6.动手学强化学习《动手学强化学习》是由张伟楠所著,将理论知识和可运行代码块融合的教辅书籍。《动手学强化学习》是由张伟楠所著,将理论知识和可运行代码块融合https://localsite.baidu.com/site/wjzsorv8/8cd47d9a-7797-42f3-9306-b902ded71161?qaId=1443450&categoryLv1=%E6%95%99%E8%82%B2%E5%9F%B9%E8%AE%AD&efs=1&ch=54&srcid=10014&source=natural&category=%E6%89%8B%E5%B7%A5%E5%88%B6%E4%BD%9C&eduFrom=136&botSourceType=46
7.动手学强化学习(豆瓣)"动手学强化学习"试读· ··· 亲爱的读者,欢迎来到强化学习的世界。初探强化学习,你是否充满了好奇和期待呢?我们想说,首先感谢你的选择,学习本书不仅能够帮助你理解强化学习的算法原理,提高代码实践能力,更能让你了解自己是否喜欢决策智能这个方向,从而更好地决策未来是否从事人工智能方面的研究和实践工作。人生中https://book.douban.com/subject/35818782/
8.动手学强化学习首页 馆藏纸本 图书详情 动手学强化学习 出版社:人民邮电出版社 ISBN:9787115584519 出版年:2022 作者:张伟楠 学科:电技术、电子技术 资源类型:图书 细分类型:中文文献 收藏单位馆藏地在架状态索书号 成都文献中心在架上73.917/ 1224 宁波材料技术与工程所阅微楼二层西侧202在架上TP181/70 https://www.las.ac.cn/front/book/detail?id=91ecb86bc8c396c5c3a1a04b3b53cf89
9.《动手学强化学习》(张伟楠沈键俞勇)简介书评品牌 人民邮电出版社 分册名 深度学习 动手学深度学习 动手学深度学习 PyTorch版 动手学机器学习 动手学强化学习 动手学自然语言处理 加入购物车 人民邮电出版社 当当自营 进入店铺 收藏店铺 商品详情 开本:128开 纸张:胶版纸 包装:平装-胶订 是否套装:否 国际标准书号ISBN:9787115584519 所属分类:图书>计算机/http://product.dangdang.com/29391150.html
10.动手学强化学习pdf,mobi,epub,txt,百度云盘百度网盘免费下载.多位业内大咖力荐:字节跳动人工智能实验室总监李航、1986年图灵奖得主John Hopcroft、北京大学数学科学学院统计学教授张志华、伦敦大学学院计算机科学系讲席教授汪军、亚马逊资深科学家、《动手学深度学习》作者李沐 目录 第 一部分 强化学习基础 第1 章 初探强化学习 2 https://read678.com/JdBook/index/32449
11.GitHubybguo/Handson欢迎来到《动手学强化学习》(Hands-on Reinforcement Learning)的地带。该系列从强化学习的定义等基础讲起,一步步由浅入深,介绍目前一些主流的强化学习算法。每一章内容都是一个Jupyter Notebook,内含详细的图文介绍和代码讲解。 由于GitHub上渲染notebook效果有限,我们推荐读者前往Hands-on RL主页进行浏览,我们在此提供https://github.com/yb-guo/Hands-on-RL
12.欢迎来到动手学强化学习最新电视剧、最新电影、动漫番剧、学习课程,蓝光视频免费在线观看服务,无广告不卡,每天第一时间更新! 收藏 LIBVIO影视 聚合海外超清在线视频站 收藏 FreeOK - 追剧也很卷 追剧FreeOK为您提供2023最新电视剧、最新电影、动漫番剧、学习课程,蓝光视频免费在线观看服务,无广告不卡,每天第一时间更新! https://www.bidianer.com/site/313527
13.《动手学强化学习(上交大ACM班俞勇团队作品,chatgpt背后理论剖析动手学强化学习(上交大ACM班俞勇团队作品,chatgpt背后理论剖析)(异步图书出品)自营 人民邮电出版社京东自营官方旗舰店 登录查看更多图片 > 动手学强化学习(上交大ACM班俞勇团队作品,chatgpt背 张伟楠,沈键,俞勇 著 京东价 ¥ 促销 展开促销 配送至 --请选择-- 支持 加入购物车 https://item.jd.com/13129509.html
14.资源帖丨字节跳动技术Leader们推荐的学习资源抖音推荐团队Leader William同学推荐了5本书,基本都是深度学习、机器学习方面非常经典的书。《Deep Learning深度学习》作者:Ian Goodfellow、Yoshua Bengio、Aaron Courville这本书就是业内知名的「花书」,是深度学习领域奠基性的经典教材。《动手学深度学习》作者:李沐 等William说,这是他见过最好的机器学习、深度学习https://maimai.cn/article/detail?fid=1589935106&efid=ROE93ZNmM8sYE6S4rjpy5w
15.动手强化学习(十):ActorCritic算法文章转于伯禹学习平台-动手学强化学习(强推) 本文所有代码均可在jupyternotebook运行 与君共勉,一起学习。 1. 简介 在之前的内容中,我们学习了基于值函数的方法(DQN)和基于策略的方法(REINFORCE),其中基于值函数的方法只学习一个价值函数,而基于策略的方法只学习一个策略函数。那么一个很自然的问题,有没有什么方法https://developer.aliyun.com/article/1210803
16.探讨教育理论在课堂教学中应用的教育理论论文(精选11篇)3.元认知理论培养学生自主学习的能力。 通过进行元认知理论在课堂中的训练,使中学生在理性地认知自己、认清他人的情况下,保持一个正常、乐观的心态。通过元认知理论的训练,使中学生发现学科的特点,以及培养中学生对学科的兴趣,让学生从之前的“要我学”向“我要学”的过程转变。把兴趣作为教学的最终培养目标,在根本上https://biyelunwen.yjbys.com/fanwen/jiaoyu/726058.html
17.课程介绍KMI全脑开发课程,每个孩子都是操作小能手自主学习与自我管理的习惯 让孩子养成良好的学习习惯和生活习惯,在未来竞争中将更具优势与竞争力。 课程介绍 训练孩子: 自己看(观察) 自己找(思考) 自己想(判断) 自己动手做(执行) 自己检验(检验) 五大特色 特色一:个别化学习 特色二:反复操作,强化学习印象 https://www.meipian.cn/28vcf1yv
18.圆的面积教学设计(通用13篇)1.请同学们拿出准备好的圆,用手摸一摸,引导说说关于圆,都知道了什么,为学新知做好铺垫。 2.引导确定新的学习目标:还想知道圆的什么知识,适时揭示课题,(板书课题:圆的面积) 3.引导简单回忆平行四边形、三角形、梯形面积公式的推导方法,鼓励学生自己动手,运用转化法探索圆面积的计算方法。 http://www.xiao.ruiwen.com/jiaoxuesheji/108596.html
19.如何培养学生自学能力(通用6篇)同时教师在定理、公式的应用方面应要求学生不死记硬背,要做到随时会推导,这样学生既不易忘记所学的定理、公式,又能够应用自如,提高学习效率,长久坚持,使之成为一种习惯,在潜移默化中培养学生的'自学能力。 四、激发学习兴趣,强化学习动机 我们知道兴趣是激发学生学习最好的老师,培养学生学习兴趣能把学生潜在学习https://www.jy135.com/edu/61465.html