深度强化学习算法与应用研究现状综述

智能科学与技术学报,2020,2(4):314-326doi:10.11959/j.issn.2096-6652.202034

专刊:深度强化学习

刘朝阳1,穆朝絮1,孙长银21天津大学电气自动化与信息工程学院,天津300072

2东南大学自动化学院,江苏南京210096

LIUZhaoyang1,MUChaoxu1,SUNChangyin21SchoolofElectricalandInformationEngineering,TianjinUniversity,Tianjin300072,China

2SchoolofAutomation,SoutheastUniversity,Nanjing210096,China

修回日期:2020-12-03网络出版日期:2020-12-15

Revised:2020-12-03Online:2020-12-15

作者简介Aboutauthors

刘朝阳(1996-),男,天津大学电气自动化与信息工程学院博士生,主要研究方向为强化学习、多智能体强化学习。。

穆朝絮(1984-),女,博士,天津大学电气自动化与信息工程学院教授,主要研究方向为强化学习、自适应学习系统、非线性控制和优化。。

孙长银(1975-),男,博士,东南大学自动化学院教授,中国自动化学会会士,中国自动化学会人工智能与机器人教育专业委员会主任。主要研究方向为智能控制与优化、强化学习、神经网络、数据驱动控制。担任IEEETransactionsonNeuralNetworksandLearningSystems、IEEE/CAAJournalofAutomaticaSinica、《自动化学报》《控制理论与应用》《智能科学与技术学报》等高质量学术期刊编委。2011年获得国家杰出青年科学基金。“智能机器人感知与控制”江苏高等学校优秀科技创新团队带头人,2016年全国优秀科技工作者,第三批国家“万人计划”科技创新领军人才,中国科学技术协会第九次全国代表大会代表,“自主无人系统协同控制理论及应用”国家自然科学基金委员会创新研究群体学术带头人,科学技术部科技创新2030—“新一代人工智能”重大项目“人在回路的混合增强智能”首席科学家,江苏省前沿引领技术基础研究专项领衔科学家。。

关键词:人工智能;深度强化学习;值函数;策略梯度;导航;协作;复杂环境;泛化性;鲁棒性

Deepreinforcementlearning(DRL)ismainlyappliedtosolvetheperception-decisionproblem,andhasbecomeanimportantresearchbranchinthefieldofartificialintelligence.TwokindsofDRLalgorithmsbasedonvaluefunctionandpolicygradientweresummarized,includingdeepQnetwork,policygradientaswellasrelateddevelopedalgorithms.Inaddition,theapplicationsofDRLinvideogames,navigation,multi-agentcooperationandrecommendationfieldwereintensivelyreviewed.Finally,aprospectforthefutureresearchofDRLwasmade,andsomeresearchsuggestionsweregiven.

Keywords:artificialintelligence;deepreinforcementlearning;valuefunction;policygradient;navigation;cooperation;complexenvironment;generalization;robustness

本文引用格式

刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述.智能科学与技术学报[J],2020,2(4):314-326doi:10.11959/j.issn.2096-6652.202034

LIUZhaoyang.Anoverviewonalgorithmsandapplicationsofdeepreinforcementlearning.ChineseJournalofIntelligentScienceandTechnology[J],2020,2(4):314-326doi:10.11959/j.issn.2096-6652.202034

图1DQN的网络结构

图2DQN算法更新流程

同时,神经网络的参数采用梯度下降的方式进行更新。实验表明,DQN不仅在多种Atari2600游戏中达到人类玩家的水平,还显示出很强的适应性和通用性。

DDQN采用与DQN相同的更新方式。实验结果表明,DDQN能在大部分Atari2600游戏上取得比DQN更好的表现,并且得到更加稳定的策略。

图3DuelingDQN的网络结构

在实际中,一般要将优势函数减去当前状态下所有动作优势函数的平均值,获得的动作值函数如下:

基于策略梯度的DRL算法主要包括策略梯度算法、AC算法以及基于AC的各种改进算法,如深度确定性策略梯度(deepdeterministicpolicygradient,DDPG)算法、异步优势AC(asynchronousadvantageAC,A3C)算法和近端策略优化(proximalpolicyoptimization,PPO)算法等。

策略梯度算法直接对智能体的策略进行优化,它需要收集一系列完整的序列数据τ来更新策略。在DRL中,对序列数据进行收集往往很困难,并且以序列的方式对策略进行更新会引入很大的方差。一种可行的方案是将传统强化学习中的AC结构应用到DRL中。AC结构主要包括执行器和评价器两部分,其中执行器基于策略梯度算法更新动作,评价器则基于值函数法对动作进行评价。AC结构的优点是将策略梯度中的序列更新变为单步更新,不用等序列结束后再对策略进行评估和改进,这样可以减少数据收集的难度,同时可以减小策略梯度算法的方差。

对于值函数部分,也可以用优势函数来代替。优势函数可以表示为:

图4A2C的基本结构

SAC算法通过使熵最大化来激励智能体探索,一方面可以避免智能体收敛到次优策略,另一方面可以提升算法的鲁棒性,并且SAC算法能够在多种连续控制的任务中取得比DDPG算法和PPO算法更好的表现。

表1几类DRL的应用领域及研究意义

图5Atari2600典型游戏环境

导航是DRL的另一个重要应用,它的目标是使智能体找到一条从起点到目标点的最优路径,同时,在导航中还需要完成各种任务,如避障、搜集物品以及导航到多个目标等。近年来,利用DRL在迷宫导航、室内导航、街景导航的研究取得了一系列的成果。

图6DRL导航环境

图7MADDPG算法结构

现阶段,关于DRL的研究已经取得了较大的进步,但在算法上仍存在采样效率不足、奖励值设置困难、探索困境等问题。在应用方面,对DRL的研究主要集中在虚拟环境中,无模型DRL算法很难应用于现实环境中。这是因为DRL算法需要大量的采样数据进行训练,而现实中的样本很难通过试错进行获取。此外,DRL算法还存在泛化能力不足、鲁棒性不强等问题,这也限制了DRL在实际生活中的应用。据此,未来对DRL的研究可以从以下方面展开。

SUTTONRS,BARTOAG.Reinforcementlearning:anintroduction

LECUNY,BENGIOY,HINTONG.Deeplearning

赵冬斌,邵坤,朱圆恒,等.深度强化学习综述:兼论计算机围棋的发展

ZHAODB,SHAOK,ZHUYH,etal.ReviewofdeepreinforcementlearninganddiscussionsonthedevelopmentofcomputerGo

万里鹏,兰旭光,张翰博,等.深度强化学习理论及其应用综述

WANLP,LANXG,ZHANGHB,etal.Areviewofdeepreinforcementlearningtheoryandapplication

MNIHV,KAVUKCUOGLUK,SILVERD,etal.Human-levelcontrolthroughdeepreinforcementlearning

SILVERD,HUANGA,MADDISONCJ,etal.MasteringthegameofGowithdeepneuralnetworksandtreesearch

SILVERD,SCHRITTWIESERJ,SIMONYANK,etal.Masteringthegameofgowithouthumanknowledge

BERNERC,BROCKMANG,CHANB,etal.Dota2withlargescaledeepreinforcementlearning

VINYALSO,BABUSCHKINI,CZARNECKIWM,etal.GrandmasterlevelinStarCraftIIusingmulti-agentreinforcementlearning

刘全,翟建伟,章宗长,等.深度强化学习综述

LIUQ,ZHAIJW,ZHANGZZ,etal.Asurveyondeepreinforcementlearning

刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述

LIUJW,GAOF,LUOXL.Surveyofdeepreinforcementlearningbasedonvaluefunctionandpolicygradient

SUTTONRS.Learningtopredictbythemethodsoftemporaldifferences

WATKINSCJCH,DAYANP.Q-learning

VANHASSELTH,GUEZA,SILVERD,etal.DeepreinforcementlearningwithdoubleQ-learning

SCHAULT,QUANJ,ANTONOGLOUI,etal.Prioritizedexperiencereplay

WANGZ,SCHAULT,HESSELM,etal.Duelingnetworkarchitecturesfordeepreinforcementlearning

NAIRA,SRINIVASANP,BLACKWELLS,etal.Massivelyparallelmethodsfordeepreinforcementlearning

SLIVERD,LEVERG,HEESSN,etal.Deterministicpolicygradientalgorithms

LILLICRAPPT,HUNTJJ,PRITZELA,etal.Continuouscontrolwithdeepreinforcementlearning

MNIHV,BADIAAP,MIRZAM,etal.Asynchronousmethodsfordeepreinforcementlearning

SCHULMANJ,WOLSKIF,DHARIWALP,etal.Proximalpolicyoptimizationalgorithms

HAARNOJAT,ZHOUA,ABBEELP,etal.Softactor-critic:off-policymaximumentropydeepreinforcementlearningwithastochasticactor

沈宇,韩金朋,李灵犀,等.游戏智能中的AI——从多角色博弈到平行博弈

SHENY,HANJP,LILX,etal.AIingameintelligence—frommulti-rolegametoparallelgame

BADIAAP,PIOTB,KAPTUROWSKIS,etal.Agent57:outperformingtheatarihumanbenchmark

KEMPKAM,WYDMUCHM,RUNCG,etal.Vizdoom:adoom-basedAIresearchplatformforvisualreinforcementlearning

LAMPLEG,CHAPLOTDS.PlayingFPSgameswithdeepreinforcementlearning

DOSOVITSKIYA,KOLTUNV.Learningtoactbypredictingthefuture

PATHAKD,AGRAWALP,EFROSAA,etal.Curiosity-drivenexplorationbyself-supervisedprediction

WUY,ZHANGW,SONGK.Master-slavecurriculumdesignforreinforcementlearning

VINYALSO,EWALDST,BARTUNOVS,etal.StarcraftII:anewchallengeforreinforcementlearning

ZAMBALDIV,RAPOSOD,SANTOROA,etal.Relationaldeepreinforcementlearning

VASWANIA,SHAZEERN,PARMARN,etal.Attentionisallyouneed

RASHIDT,SAMVELYANM,DEWITTCS,etal.QMIX:monotonicvaluefunctionfactorisationfordeepmulti-agentreinforcementlearning

YED,LIUZ,SUNM,etal.MasteringcomplexcontrolinMOBAgameswithdeepreinforcementlearning

OHJ,CHOCKALINGAMV,SINGHS,etal.Controlofmemory,activeperception,andactioninminecraft

JADERBERGM,MNIHV,CZARNECKIWM,etal.Reinforcementlearningwithunsupervisedauxiliarytasks

MIROWSKIP,PASCANUR,VIOLAF,etal.Learningtonavigateincomplexenvironments

WANGY,HEH,SUNC.Learningtonavigatethroughcomplexdynamicenvironmentwithmodulardeepreinforcementlearning

SHIH,SHIL,XUM,etal.End-to-endnavigationstrategywithdeepreinforcementlearningformobilerobots

SAVINOVN,RAICHUKA,MARINIERR,etal.Episodiccuriositythroughreachability

ZHUY,MOTTAGHIR,KOLVEE,etal.Target-drivenvisualnavigationinindoorscenesusingdeepreinforcementlearning

TAIL,LIUM.Towardscognitiveexplorationthroughdeepreinforcementlearningformobilerobots

TAIL,PAOLOG,LIUM.Virtual-to-realdeepreinforcementlearning:continuouscontrolofmobilerobotsformaplessnavigation

WUY,RAOZ,ZHANGW,etal.Exploringthetaskcooperationinmulti-goalvisualnavigation

ZHANGW,ZHANGY,LIUN.Map-lessnavigation:asingleDRL-basedcontrollerforrobotswithvarieddimensions

MIROWSKIP,GRIMESMK,MALINOWSKIM,etal.Learningtonavigateincitieswithoutamap

LIA,HUH,MIROWSKIP,etal.Cross-viewpolicylearningforstreetnavigation

HERMANNKM,MALINOWSKIM,MIROWSKIP,etal.Learningtofollowdirectionsinstreetview

CHANCáNM,MILFORDM.CityLearn:diversereal-worldenvironmentsforsample-efficientnavigationpolicylearning

孙长银,穆朝絮.多智能体深度强化学习的若干关键科学问题

SUNCY,MUCX.Importantscientificproblemsofmulti-agentdeepreinforcementlearning

OROOJLOOYJADIDA,HAJINEZHADD.Areviewofcooperativemulti-agentdeepreinforcementlearning

OMIDSHAFIEIS,PAZISJ,AMATOC,etal.Deepdecentralizedmulti-taskmulti-agentreinforcementlearningunderpartialobservability

MATIGNONL,LAURENTGJ,LEFORT-PIATN.HystereticQ-learning:analgorithmfordecentralizedreinforcementlearningincooperativemulti-agentteams

FOERSTERJ,NARDELLIN,FARQUHARG,etal.Stabilisingexperiencereplayfordeepmulti-agentreinforcementlearning

PALMERG,TUYLSK,BLOEMBERGEND,etal.Lenientmulti-agentdeepreinforcementlearning

EVERETTR,ROBERTSS.Learningagainstnon-stationaryagentswithopponentmodellinganddeepreinforcementlearning

JINY,WEIS,YUANJ,etal.Stabilizingmulti-agentdeepreinforcementlearningbyimplicitlyestimatingotheragents’behaviors

LIUX,TANY.Attentiverelationalstaterepresentationindecentralizedmultiagentreinforcementlearning

GUPTAJK,EGOROVM,KOCHENDERFERM.Cooperativemulti-agentcontrolusingdeepreinforcementlearning

LOWER,WUY,TAMARA,etal.Multi-agentactor-criticformixedcooperative-competitiveenvironments

FOERSTERJ,FARQUHARG,AFOURAST,etal.Counterfactualmulti-agentpolicygradients

SUNEHAGP,LEVERG,GRUSLYSA,etal.Value-decompositionnetworksforcooperativemulti-agentlearning

MAOH,ZHANGZ,XIAOZ,etal.Modellingthedynamicjointpolicyofteammateswithattentionmulti-agentDDPG

IQBALS,SHAF.Actor-attention-criticformulti-agentreinforcementlearning

FOERSTERJN,ASSAELYM,DEFREITASN,etal.Learningtocommunicatewithdeepmulti-agentreinforcementlearning

SUKHBAATARS,SZLAMA,FERGUSR.Learningmultiagentcommunicationwithbackpropagation

JIANGJ,LUZ.Learningattentionalcommunicationformulti-agentcooperation

KIMD,MOONS,HOSTALLEROD,etal.Learningtoschedulecommunicationinmulti-agentreinforcementlearning

DASA,GERVETT,ROMOFFJ,etal.TarMAC:targetedmulti-agentcommunication

SHANIG,HECKERMAND,BRAFMANRI,etal.AnMDP-basedrecommendersystem

ZHAOX,XIAL,TANGJ,etal.Deepreinforcementlearningforsearch,recommendation,andonlineadvertising:asurvey

ZHAOX,XIAL,ZHANGL,etal.Deepreinforcementlearningforpage-wiserecommendations

ZHENGG,ZHANGF,ZHENGZ,etal.DRN:adeepreinforcementlearningframeworkfornewsrecommendation

THE END
1.深度学习算法的一些发展趋势多标签学习趋势小样本学习和零样本学习:致力于提高模型从少量数据中学习的能力,以及在没有见过特定类别数据时的泛化能力,通过迁移学习、元学习等技术,使模型能够快速适应新任务和新数据,对于数据稀缺或标注成本高昂的场景具有重要意义。 3.模型性能优化 高效训练与推理:研究更高效的训练算法和优化技巧,以加快模型的收敛速度,减少训练时https://blog.csdn.net/weixin_47362565/article/details/144280516
2.人工智能论文探索深度学习与智能算法的前沿应用人工智能论文探索:深度学习与智能算法的前沿应用 人工智能研究的新纪元 ai论文中的深度学习技术如何重新塑造数据处理和模式识别领域? 在过去几年中,人工智能(AI)研究经历了一个飞速发展的阶段,这主要归功于深度学习技术。这种基于神经网络的机器学习方法已经被证明能够处理复杂任务,如图像识别、自然语言处理以及决策支持系https://www.jvahvb5c.cn/zhi-neng/497383.html
3.智能算法与学术创新:AI在论文写作中的应用语法文章文献AI 中的智能算法在论文写作中有着广泛的应用,以下是千笔 AI 在论文写作中的一些主要应用: 内容生成与创新 快速生成初稿:千笔 AI 能够依据用户输入的关键词或主题,在短时间内生成逻辑连贯的论文初稿,为研究人员节省大量构思和撰写的时间。比如,输入 “人工智能在医疗影像诊断中的应用”,它可以迅速生成包含研究背景、https://www.163.com/dy/article/JJ4VJHKB0556B30Q.html
4.毕业论文神经网络优化学习算法综述经管文库(原毕业论文神经网络优化学习算法综述 https://bbs.pinggu.org/thread-13136271-1-1.html
5.“我把4500多篇NeurIPS2024论文,做成了AI搜索”新的优化方法、强化学习用来帮助机器人的技术等等,然后很快就能给出搜索结果。 在结果中,它有显示论文题目、摘要、作者以及此次海报展示位置,可以说是很细致了。 进一步地,你可以选择一篇或者多篇论文进行进一步的“盘问”。 实测可以选择10篇左右的论文,再多服务器就支撑不住了。 https://www.thepaper.cn/newsDetail_forward_29604749
6.面向流数据分类的在线学习综述?流式数据中增量学习一个从输入变量到类标变量的映射函数,以便对 随时到达的测试数据进行准确分类.在线学习范式作为一种增量式的机器学习技术,是流数据分类的有效工具.主要 从在线学习的角度对流数据分类算法的研究现状进行综述.具体地,首先介绍在线学习的基本框架和性能评估方法, 然后着重介绍在线学习算法在一般流数据上https://jos.org.cn/jos/article/pdf/5916
7.深度学习跟踪算法综述跟踪方法学深度学习跟踪算法综述 跟踪方法学 以前写过一个“自动驾驶中的目标跟踪”介绍,这次重点放在深度学习和摄像头数据方面吧。 先提一下以前说的那篇综述: "Survey on Leveraging Deep Neural Networks for Object Tracking" Daimler公司研发组2017年写的一篇综述,主要总结当时深度学习如何在多目标跟踪应用的工作。https://blog.51cto.com/u_16099218/11767614
8.TCCT通讯Newsletter2017No.01时间序列数据挖掘的相似性度量研究综述 控制与决策, 2017 Vol. 32 (01): 1-11 Abstract | PDF 论文 亓祥波 朱云龙 张丁一 求解PFSP的双种群协同学习算法 控制与决策, 2017 Vol. 32 (01): 12-20 Abstract | PDF 李滔 王士同 适合大规模数据集且基于LLM的0阶TSK模糊分类器 控制与决策, 2017 Vol. 32https://tcct.amss.ac.cn/newsletter/2017/201701/journal.html
9.深度学习+度量学习的综述本文约6000字,建议阅读10分钟本综述探讨了深度度量学习的意义、问题、背景、最新改进和与深度学习的关系,详述了其问题、样本选择和度量损失函数,以及现状和未来。 1 介绍 如今,机器学习的应用广泛,包括人脸识别、医疗诊断等,为复杂问题和大量数据提供解决方案。机器学习算法能基于数https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247635390&idx=1&sn=e8d9df6f2dacc23beb336e181a88a2d8&chksm=e9efd835de985123f8596dcdfbc6eaca9dce3c93f4999b58669e9c2c4d84ba46104e3687fe0a&scene=27
10.[转载]基于强化学习的数据驱动多智能体系统最优一致性综述这种控制算法采用策略迭代(policy iteration, PI)技术,仅要求对系统动力学有部分了解。2009年, Doya K提出了将强化学习技术应用到求解连续时间系统的控制器中。参考文献提出了利用积分强化学习(integral reinforcement learning,IRL)的在线学习算法,用于解决系统模型部分未知的线性或非线性系统的最优跟踪控制问题。强化学习https://wap.sciencenet.cn/blog-951291-1276281.html
11.目标跟踪入门——目标跟踪算法综述电子创新网Imgtec社区目标跟踪入门——目标跟踪算法综述 最近需要学习计算机视觉中的目标跟踪方面的内容,在学习前做了个调研,对该领域的主要发展做下总结。 介绍 目标跟踪是计算机视觉领域的一个重要分支,是模式识别,图像处理,计算机视觉,机器学习等学科的交叉研究,有着广泛的应用,如视频监控,虚拟现实,人机交互,图像理解,无人驾驶等。https://imgtec.eetrend.com/blog/2019/100017436.html
12.深度学习(Deeplearning)综述卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一 。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification),因此也被称为https://www.jianshu.com/p/c8a46f00b06d
13.高分遥感驱动的精准土地利用与土地覆盖变化信息智能计算模型与的属性信息,而“建”、“水”、“土”、“生”、“地”等各类地理图斑又明显地具有多尺度空间粒特点,因此以图斑为记录对象的属性表天然具有鲜明的多粒度特性与层次化特征,可遵循粒计算的原理约简X(降维),并以较大的泛化力提炼X与y间的映射关系,从而在目标空间Y中构建形成针对不同求解目标y的迁移学习算法集http://www.jors.cn/jrs/article/html/202107001
14.机器学习算法的分布式实现研究综述.docxMapReduce以及Spark.它们实现了不同的并行编程模型:消息传递或者数据并行.本文首先介绍了分布式计算和机器学习的基本概念,并以逻辑回归为例说明了一般迭代算法的求解过程.然后分别介绍了各种分布式框架的体系设计,编程接口,以及迭代算发在其中实现的过程.最后比较了三种框架的异同,并未来展望了分布式框架在机器学习中的应用https://www.renrendoc.com/paper/227177230.html
15.深度学习算法简要综述译站深度学习正在吞食这个世界。 这个炒作再大约2012年开始,那是神经网络再图像识别任务上达到了超越人类的表现,但只有少部分人预测到了将会发生什么。 在过去的十年,越来越多的算法涌现出来。越来越多的公司将他们运用在他们的日常业务中。 在这里,我试图覆盖这些年出现的所有重要的深度学习算法和架构,它们在许多方面有着https://www.yanxishe.com/TextTranslation/2456
16.从起源到具体算法,这篇深度学习综述论文送给你从起源到具体算法,这篇深度学习综述论文送给你 来源:机器之心 本文为大家从最基础的角度来为大家解读什么是深度学习,以及深度学习的一些前沿发展。 自2012 年多伦多大学 Alex Krizhevsky 等人提出 AlexNet 以来,深度学习作为一种机器学习的强大方法逐渐引发了今天的 AI 热潮。随着这种技术被应用到各种不同领域,人们https://cloud.tencent.com/developer/article/1070477
17.基于优化理论的支持向量机学习算法研究【摘要】: 支持向量机是借助优化方法解决机器学习问题的新工具.近年来,支持向量机越来越受到人们的广泛关注,在其理论研究和算法实现方面都取得了重大进展,下载全文 更多同类文献 个人查重>> 个人AIGC检测>> 文献综述>> (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询) CAJViewer阅读器支持CAJ、https://cdmd.cnki.com.cn/Article/CDMD-10701-2009195330.htm
18.从传统方法到深度学习,人脸关键点检测方法综述原标题:从传统方法到深度学习,人脸关键点检测方法综述 机器之心专栏 作者:余霆嵩 人脸关键点检测是人脸识别和分析领域中的关键一步,它是诸如自动人脸识别、表情分析、三维人脸重建及三维动画等其它人脸相关问题的前提和突破口。近些年来,深度学习方法由于其自动学习及持续学习能力,已被成功应用到了图像识别与分析、语音识https://tech.ifeng.com/a/20171217/44807875_0.shtml
19.Nature综述:国内顶尖课题组都在用,科研成果取得大的突破!1 机器学习简介 1.1 机器学习四要素 1.2 数据模块 1.3 核心和高级 API 2 回归算法与应用 2.1线性回归 2.2 Lasso 回归 2.3 Ridge 回归 2.4 ElasticNset 弹性网络 3 分类算法与应用 3.1 逻辑回归 3.2 朴素贝叶斯 3.3 KNN 3.4 SVC 3.5决策树 3.6 随机森林 https://www.biodiscover.com/reaseach/742102.html