一文看懂什么是强化学习?(基本概念应用场景主流算法案例)

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2024.04.08广西

主要内容包括:

1.强化学习算法

2.强化学习经典算法—DQN算法

3.强化学习推荐算法提升短视频留存

4.强化学习未来挑战

黄世宇博士前第四范式强化学习科学家

编辑整理|王振甲

内容校对|李瑶

出品社区|DataFun

01

强化学习算法

1.强化学习的目标:通用人工智能

强化学习的目标是打造通用人工智能。这意味着通过智能体与环境的持续交互,利用动作、奖励和观测结果来逐步更新和优化智能体的训练过程。其核心思想是通过最大化环境奖励来实现通用人工智能的目标。这一过程中,智能体不断地从与环境的交互中学习并调整其行为策略,以期望达到更高的智能水平。

2.基础数学模型:马尔可夫决策过程(MDP)

从数学角度看,强化学习被建模为一个马尔可夫决策过程。在这个过程中,智能体(agent)与环境在每个步骤(step)进行交互。智能体执行一个动作(action),环境则返回当前的立即奖励(reward)和下一个状态(state)。这个过程持续进行,形成一个状态-动作-奖励的序列。

在强化学习中,状态是状态集合中的一个元素,动作是动作集合中的一个元素。状态转移假设符合马尔可夫性,即下一个状态的概率仅依赖于当前状态和当前动作。奖励则由当前状态、当前动作以及下一个状态联合决定。

此外,还有一个重要的概念是γ值,它用于平衡即时奖励与未来潜在奖励的重要性。通过调整γ值,可以控制智能体在决策时是更侧重于即时奖励还是未来的长期奖励。

这种建模方式使得强化学习能够在不确定环境中通过试错学习最优策略,逐步提升性能并逼近最优解。

强化学习作为机器学习的一个子类,与监督学习和无监督学习并列。监督学习侧重于分类或拟合回归,而无监督学习则处理无标签的样本。强化学习独具特色,既包含有监督的部分,又着重于优化长期价值。其数据样本的获取遵循在线学习的范式,从而呈现出与众不同的特点。强化学习领域与经济学、心理学、神经科学等多个领域紧密相连,甚至在哲学层面上存在一定的交叉。此外,强化学习与控制论、奖励系统以及运筹学等领域也存在一定的重叠。

强化算法的优化目标可以聚焦于长期奖励或当前步骤的奖励,这涉及到马尔可夫决策过程和多智能体问题。在处理赌博机问题时,可以采用动作-价值方法或基于梯度的赌博机方法。

马尔可夫决策过程可以根据是否使用环境模型分为基于模型和无模型两类。基于模型的算法可以通过学习环境的认知建模,利用状态转移函数和奖励函数来做出最优决策,如使用MuZero和蒙特卡洛搜索等算法。无模型算法可以分为基于价值和基于策略两类强化学习算法。基于价值的强化学习算法仅学习一个价值函数,即估计当前状态下采取动作后的Q值,代表性的算法有DQN。DQN进一步演化出了C51等算法,适用于离散空间,并扩展到连续空间的DDPG算法。DDPG算法采用近似最大化,并衍生出了解决连续空间决策问题的TD3、SAC等算法。

在基于策略的强化学习算法中,可以分为无梯度和有梯度两类。无梯度算法采用进化策略等演化计算类似的算法。有梯度算法则包括TRPO算法、PPO算法等,其中PPO算法在MOBA游戏AI和大语言模型的RLHF训练中得到了广泛应用。

3.强化学习的应用

强化学习的线上应用涵盖了多个领域。在游戏AI方面,强化学习被广泛应用于围棋和星际争霸等游戏中。此外,在工艺控制、金融量化、机器人控制、运筹优化和交通灯调度等方面,强化学习也发挥着重要作用。同时,强化学习还在大模型对齐等任务中展现出其独特的价值。这些应用展示了强化学习在解决实际问题中的广泛适用性和重要性。

02

强化学习经典算法—DQN算法

在强化学习领域,DQN算法是一种广受欢迎的经典方法,它基于价值函数进行学习。

1.强化学习:基于样本的Q值迭代

与Q-learning类似,DQN致力于估计在给定状态下执行某个动作的长期回报。为实现这一目标,DQN利用贝尔曼方程来构建一个目标值,该目标值由当前状态的即时奖励和从下一个状态到序列结束的最大可能价值组成。在此过程中,DQN采用max算子来选择下一个状态中具有最大Q值的动作。一旦确定了目标值,DQN会采用软更新的方式来逐步调整其Q值估计。其中,学习率α扮演着至关重要的角色,它控制着更新的步长。值得一提的是,DQN算法在理论上具有一定的收敛性保证。具体来说,当所有的状态-动作对都被无限次地访问,并且学习率满足一定条件时,DQN可以逐渐收敛到最优的价值函数。

为了将评估方法扩展到连续的状态空间,需要结合深度神经网络来实现。具体而言,首先通过卷积神经网络对状态进行表征,随后利用全连接层输出每个动作的信用值。最终,我们选择具有最高置信度的动作进行执行。这种方法使我们能够在连续状态空间中有效地进行决策和评估。

2.DeepQ-Networks–目标网络

尽管神经网络在函数近似方面表现出色,但其应用仍存在一些问题。特别是,当使用神经网络来表征动作价值时,随着价值网络参数的变化,模型预估的目标值也会动态地变化。这种现象构成了一个“movingtarget”问题,增加了算法的复杂性。为了缓解这个问题,可以引入一个targetnetwork,这是一个独立的、学习速度较慢的网络。作为原始神经网络的慢拷贝,targetnetwork的学习速度更慢,从而防止目标变更过快。这种方法可以一定程度上提高算法的稳定性。

03

强化学习推荐算法提升短视频留存

在短视频推荐系统中,强化学习的应用显得尤为重要。这是因为短视频推荐的核心目标是提升用户满意度,而用户满意度的关键指标则是留存率。

1.短视频推荐中的用户留存

2.基于无限域请求的马尔可夫决策过程

3.用户留存算法的强化学习

然而,当涉及到即时响应时,情况变得更为复杂。为了超越仅仅学习立即互动、转发时长等信号,我们引入了一个RND网络。这一网络源自强化学习中的探索方法,用于计算每个样本的探索价值,并将其作为内在奖励来增强样本。

在实际应用中,行动者(actor)会根据每个请求的输入状态输出一个K维的动作向量。这一向量与监督学习模型的打分进行内积运算,最终得到一个排名分数(rankingscore)。基于这一排名分数,我们会选出前6名的视频呈现给用户。

通过这一综合方法,能够更精准地满足用户需求,提升用户体验,并在推荐系统中实现更高效和个性化的内容推荐。

4.离线和在线实验

04

强化学习未来挑战

此外,强化学习模型的泛化性能也是一个重要议题。可以借鉴多任务学习和终身学习的算法,尝试提升模型在不同环境和任务间的适应能力。同时,多智能体环境下的合作问题以及非完全信息博弈中的多智能强化学习问题,也是未来研究的重要方向。

THE END
1.AlphaGo背后的秘密——深度增强学习(DRL)前沿算法解析2016年AlphaGo计算机围棋系统战胜顶尖职业棋手李世石,引起了全世界的广泛关注,人工智能进一步被推到了风口浪尖。而其中的深度增强学习算法是AlphaGo的核心,也是通用人工智能的实现关键。本文将带领大家了解深度增强学习的前沿算法思想,领略人工智能的核心奥秘。 前言 https://cloud.tencent.com/developer/article/1144210
2.一种增强深度学习算法鲁棒性的优化方法和系统与流程技术实现要素:本发明旨在解决现有技术中利用训练数据学习得到的模型可能难以适用于测试数据的技术问题,提供一种增强深度学习算法鲁棒性的优化方法和系统。本发明的实施例提供一种增强深度学习算法鲁棒性的优化方法,所述优化方法包括以下步骤:根据预设的卷积核维度对样本数据的卷积核进行特征提取,得到卷积结果;对所述卷积结果https://www.xjishu.com/zhuanli/55/201610542650.html
3.增强学习ReinforcementLearning经典算法梳理1:policyandvalue本文深入探讨了增强学习中的两种经典算法——Policy Iteration和Value Iteration,详细阐述了它们的工作原理、迭代过程以及在策略评估与改进上的区别。文章还提及异步更新的重要性,并介绍了其在深度强化学习中的应用。 摘要由CSDN通过智能技术生成 前言 就目前来看,深度增强学习(DeepReinforcement Learning)中的很多方法都是基https://blog.csdn.net/songrotek/article/details/51378582
4.图像增强算法机器学习图像增强算法研究jiecho的技术博客不同于传统的图像增强算法,如线性、非线性变换、图像锐化等只能增强图像的某一类特征,如压缩图像的动态范围,或增强图像的边缘等,Retinex可以在动态范围压缩、边缘增强和颜色恒常三方面达到平衡,可以对各种不同类型的图像进行自适应性地增强,在很多方面得到了广泛的应用。https://blog.51cto.com/u_12902/8023281
5.增强学习(一)要怎么做呢? 这时就可以给它设计一个增强学习算法,然后让小鸟不断的进行游戏,如果小鸟撞到柱子了,那就获得-1的回报,否则获得0回报。通过这样的若干次训练,我们最终可以得到一只飞行技能高超的小鸟,它知道在什么情况下采取什么动作来躲避柱子。 增强学习和监督学习的区别是:https://www.jianshu.com/p/7a9f9225e2b2
6.强化学习之父RichardSutton给出一个简单思路,大幅增强所有RL算法但这些强化学习方法仍有改进空间。近日,强化学习之父、阿尔伯塔大学教授 Richard Sutton 的团队低调更新了一篇论文,其中提出了一种新的通用思想 Reward Centering,并称该思想适用于几乎所有强化学习算法。这里我们将其译为「奖励聚中」。 该论文是首届强化学习会议(RLC 2024)的入选论文之一。一作 Abhishek Naik 刚刚从https://m.thepaper.cn/newsDetail_forward_29213147
7.基于深度学习的低照度图像增强算法研究因此,增强低照度图像对后续的目标识别、语义分割等任务有着重要意义。深度学习算法是通过建立类似人脑信息处理机制的网络模型,采取高效的学习策略逐级提取数据特征,拟合复杂的非线性函数。近年来,深度学习算法在图像处理领域得到广泛应用。本文将深度学习应用于低照度图像增强上,提出了三种低照度图像增强算法。针对低照度图像https://cdmd.cnki.com.cn/Article/CDMD-10703-1021819042.htm
8.AlphaZero加强版AlphaTensor问世,发现史上最快矩阵乘法算法例如研究人员提出了一种序列增强学习技术,用于在乳房X光片中使用SVM检测微钙化(MC)簇时提高性能等。ML和模式识别算法对大脑成像有重大影响,从长远来看,ML领域的技术发展和放射学可以互惠互利。深度学习(DL)是ML的一个分支,它处理的是受大脑的生物和功能启发的算法(即ANN)。DL已经迅速成为医学影像领域评估医学图像的https://www.medsci.cn/article/show_article.do?id=97c6e419443f
9.科学网—[转载]进化集成学习算法综述【摘 要】进化集成学习结合了集成学习和进化算法两方面的优势,并在机器学习、数据挖掘和模式识别等领域被广泛应用。首先对进化集成学习算法的理论基础、组成结构及分类情况进行了概述。然后根据进化算法在集成学习中的优化任务,从样本选择、特征选择、集成模型参数组合优化、集成模型结构优化以及集成模型融合策略优化几个方面https://wap.sciencenet.cn/blog-951291-1312816.html
10.人工智能产业名词解释机器学习的有关术语。指的是在机器学习或人工智能领域,训练好的机器完成目标工作的过程。 四、人工智能流行应用技术相关名词解释 1.图像识别 利用计算机对图像进行处理、分析和理解,让机器能够识别图像内容的技术,是应用深度学习算法的一种实践应用。 2.增强现实、AR http://www.zbrd.gov.cn/e/action/ShowInfo.php?classid=34&id=10317
11.BoostKit大数据业界趋势鲲鹏大数据组件增强特性和典型配置原生机器学习/图算法深度优化 Spark性能倍级提升 (3)HDFS性能加速 IO智能预取,高效取数 Spark/Hbase性能提升20% 3、鲲鹏BoostKit大数据方案架构及优势 从大数据的发展趋势可以看出,大数据对于计算能力的要求越来越高,需要有更适配大数据技术特征的计算硬件来提供更高的计算能力。TaiShan服务器的鲲鹏916系列处理器提供32核https://developer.huawei.com/consumer/cn/blog/topic/03898238728230088
12.IEEEIV2018丨徐昕:基于机器学习算法的自动驾驶汽车决策与控制三、跟大家介绍一下我们进行的一些研究的成果,也是来自我们大学的,也涉及到自动化学习的算法,用于控制和决策当中,讲到IV讲到控制和离散的状态,以及需要高效的线上学习的速度,这样才能满足表现的需求。 主要就是应用到智能车上的增强学习面对的一些挑战,首先是尾数,尾数过多,如果我们找到最好的表征,必须紧凑型的这种https://mp.ofweek.com/ai/a545673225236
13.2021届计算机科学方向毕业设计(论文)阶段性汇报基于多智能体增强学习的交互式图像分割算法研究 本课题旨在利用强化学习算法,将与人类的不断交互的信息引入到图像分割的过程中,从而实现交互式的图像分割,增加分割的准确率和收敛速度,最终降低分割所需要的标注成本。 目前现已基于开源的ppo强化学习算法进行修改,完成了算法主体部分的代码框架搭建,并且完善了数据处理、https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3943
14.多模态学习情感计算:动因框架与建议前沿领域进入2010年后,情感计算被广泛应用于教育领域[1],期间各类学习系统利用情感计算技术发展起来,代表性的有情感导学系统(ATS)。该类系统通过采集学习者面部、语音等数据,利用机器学习算法分析与处理情感信息,以识别与反馈情感状态,进而为学习者提供个性化导学策略。此外,学习情感计算也从单模态走向多模态数据融合,其中,深度学https://www.eduwest.com/html/2022/qianyanlingyu_0301/678.html
15.强化学习算法与应用综述(2)构建更智能的强化学习表示与问题表述方式. 关注算法的数学本质, 设计具有可解释性、简单的强化学习策略, 摒弃单纯“调参”手段, 从根源上拓展算法的适用性, 降低算法复杂度, 突破强化学习中探索与应用、稀疏回报和样本效率等核心问题. (3)添加记忆模块, 利用上下文信息增强强化学习的自主学习能力. 在强化学习模型https://c-s-a.org.cn/html/2020/12/7701.html