深度强化学习算法与应用研究现状综述

智能科学与技术学报,2020,2(4):314-326doi:10.11959/j.issn.2096-6652.202034

专刊:深度强化学习

刘朝阳1,穆朝絮1,孙长银21天津大学电气自动化与信息工程学院,天津300072

2东南大学自动化学院,江苏南京210096

LIUZhaoyang1,MUChaoxu1,SUNChangyin21SchoolofElectricalandInformationEngineering,TianjinUniversity,Tianjin300072,China

2SchoolofAutomation,SoutheastUniversity,Nanjing210096,China

修回日期:2020-12-03网络出版日期:2020-12-15

Revised:2020-12-03Online:2020-12-15

作者简介Aboutauthors

刘朝阳(1996-),男,天津大学电气自动化与信息工程学院博士生,主要研究方向为强化学习、多智能体强化学习。。

穆朝絮(1984-),女,博士,天津大学电气自动化与信息工程学院教授,主要研究方向为强化学习、自适应学习系统、非线性控制和优化。。

孙长银(1975-),男,博士,东南大学自动化学院教授,中国自动化学会会士,中国自动化学会人工智能与机器人教育专业委员会主任。主要研究方向为智能控制与优化、强化学习、神经网络、数据驱动控制。担任IEEETransactionsonNeuralNetworksandLearningSystems、IEEE/CAAJournalofAutomaticaSinica、《自动化学报》《控制理论与应用》《智能科学与技术学报》等高质量学术期刊编委。2011年获得国家杰出青年科学基金。“智能机器人感知与控制”江苏高等学校优秀科技创新团队带头人,2016年全国优秀科技工作者,第三批国家“万人计划”科技创新领军人才,中国科学技术协会第九次全国代表大会代表,“自主无人系统协同控制理论及应用”国家自然科学基金委员会创新研究群体学术带头人,科学技术部科技创新2030—“新一代人工智能”重大项目“人在回路的混合增强智能”首席科学家,江苏省前沿引领技术基础研究专项领衔科学家。。

关键词:人工智能;深度强化学习;值函数;策略梯度;导航;协作;复杂环境;泛化性;鲁棒性

Deepreinforcementlearning(DRL)ismainlyappliedtosolvetheperception-decisionproblem,andhasbecomeanimportantresearchbranchinthefieldofartificialintelligence.TwokindsofDRLalgorithmsbasedonvaluefunctionandpolicygradientweresummarized,includingdeepQnetwork,policygradientaswellasrelateddevelopedalgorithms.Inaddition,theapplicationsofDRLinvideogames,navigation,multi-agentcooperationandrecommendationfieldwereintensivelyreviewed.Finally,aprospectforthefutureresearchofDRLwasmade,andsomeresearchsuggestionsweregiven.

Keywords:artificialintelligence;deepreinforcementlearning;valuefunction;policygradient;navigation;cooperation;complexenvironment;generalization;robustness

本文引用格式

刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述.智能科学与技术学报[J],2020,2(4):314-326doi:10.11959/j.issn.2096-6652.202034

LIUZhaoyang.Anoverviewonalgorithmsandapplicationsofdeepreinforcementlearning.ChineseJournalofIntelligentScienceandTechnology[J],2020,2(4):314-326doi:10.11959/j.issn.2096-6652.202034

图1DQN的网络结构

图2DQN算法更新流程

同时,神经网络的参数采用梯度下降的方式进行更新。实验表明,DQN不仅在多种Atari2600游戏中达到人类玩家的水平,还显示出很强的适应性和通用性。

DDQN采用与DQN相同的更新方式。实验结果表明,DDQN能在大部分Atari2600游戏上取得比DQN更好的表现,并且得到更加稳定的策略。

图3DuelingDQN的网络结构

在实际中,一般要将优势函数减去当前状态下所有动作优势函数的平均值,获得的动作值函数如下:

基于策略梯度的DRL算法主要包括策略梯度算法、AC算法以及基于AC的各种改进算法,如深度确定性策略梯度(deepdeterministicpolicygradient,DDPG)算法、异步优势AC(asynchronousadvantageAC,A3C)算法和近端策略优化(proximalpolicyoptimization,PPO)算法等。

策略梯度算法直接对智能体的策略进行优化,它需要收集一系列完整的序列数据τ来更新策略。在DRL中,对序列数据进行收集往往很困难,并且以序列的方式对策略进行更新会引入很大的方差。一种可行的方案是将传统强化学习中的AC结构应用到DRL中。AC结构主要包括执行器和评价器两部分,其中执行器基于策略梯度算法更新动作,评价器则基于值函数法对动作进行评价。AC结构的优点是将策略梯度中的序列更新变为单步更新,不用等序列结束后再对策略进行评估和改进,这样可以减少数据收集的难度,同时可以减小策略梯度算法的方差。

对于值函数部分,也可以用优势函数来代替。优势函数可以表示为:

图4A2C的基本结构

SAC算法通过使熵最大化来激励智能体探索,一方面可以避免智能体收敛到次优策略,另一方面可以提升算法的鲁棒性,并且SAC算法能够在多种连续控制的任务中取得比DDPG算法和PPO算法更好的表现。

表1几类DRL的应用领域及研究意义

图5Atari2600典型游戏环境

导航是DRL的另一个重要应用,它的目标是使智能体找到一条从起点到目标点的最优路径,同时,在导航中还需要完成各种任务,如避障、搜集物品以及导航到多个目标等。近年来,利用DRL在迷宫导航、室内导航、街景导航的研究取得了一系列的成果。

图6DRL导航环境

图7MADDPG算法结构

现阶段,关于DRL的研究已经取得了较大的进步,但在算法上仍存在采样效率不足、奖励值设置困难、探索困境等问题。在应用方面,对DRL的研究主要集中在虚拟环境中,无模型DRL算法很难应用于现实环境中。这是因为DRL算法需要大量的采样数据进行训练,而现实中的样本很难通过试错进行获取。此外,DRL算法还存在泛化能力不足、鲁棒性不强等问题,这也限制了DRL在实际生活中的应用。据此,未来对DRL的研究可以从以下方面展开。

SUTTONRS,BARTOAG.Reinforcementlearning:anintroduction

LECUNY,BENGIOY,HINTONG.Deeplearning

赵冬斌,邵坤,朱圆恒,等.深度强化学习综述:兼论计算机围棋的发展

ZHAODB,SHAOK,ZHUYH,etal.ReviewofdeepreinforcementlearninganddiscussionsonthedevelopmentofcomputerGo

万里鹏,兰旭光,张翰博,等.深度强化学习理论及其应用综述

WANLP,LANXG,ZHANGHB,etal.Areviewofdeepreinforcementlearningtheoryandapplication

MNIHV,KAVUKCUOGLUK,SILVERD,etal.Human-levelcontrolthroughdeepreinforcementlearning

SILVERD,HUANGA,MADDISONCJ,etal.MasteringthegameofGowithdeepneuralnetworksandtreesearch

SILVERD,SCHRITTWIESERJ,SIMONYANK,etal.Masteringthegameofgowithouthumanknowledge

BERNERC,BROCKMANG,CHANB,etal.Dota2withlargescaledeepreinforcementlearning

VINYALSO,BABUSCHKINI,CZARNECKIWM,etal.GrandmasterlevelinStarCraftIIusingmulti-agentreinforcementlearning

刘全,翟建伟,章宗长,等.深度强化学习综述

LIUQ,ZHAIJW,ZHANGZZ,etal.Asurveyondeepreinforcementlearning

刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述

LIUJW,GAOF,LUOXL.Surveyofdeepreinforcementlearningbasedonvaluefunctionandpolicygradient

SUTTONRS.Learningtopredictbythemethodsoftemporaldifferences

WATKINSCJCH,DAYANP.Q-learning

VANHASSELTH,GUEZA,SILVERD,etal.DeepreinforcementlearningwithdoubleQ-learning

SCHAULT,QUANJ,ANTONOGLOUI,etal.Prioritizedexperiencereplay

WANGZ,SCHAULT,HESSELM,etal.Duelingnetworkarchitecturesfordeepreinforcementlearning

NAIRA,SRINIVASANP,BLACKWELLS,etal.Massivelyparallelmethodsfordeepreinforcementlearning

SLIVERD,LEVERG,HEESSN,etal.Deterministicpolicygradientalgorithms

LILLICRAPPT,HUNTJJ,PRITZELA,etal.Continuouscontrolwithdeepreinforcementlearning

MNIHV,BADIAAP,MIRZAM,etal.Asynchronousmethodsfordeepreinforcementlearning

SCHULMANJ,WOLSKIF,DHARIWALP,etal.Proximalpolicyoptimizationalgorithms

HAARNOJAT,ZHOUA,ABBEELP,etal.Softactor-critic:off-policymaximumentropydeepreinforcementlearningwithastochasticactor

沈宇,韩金朋,李灵犀,等.游戏智能中的AI——从多角色博弈到平行博弈

SHENY,HANJP,LILX,etal.AIingameintelligence—frommulti-rolegametoparallelgame

BADIAAP,PIOTB,KAPTUROWSKIS,etal.Agent57:outperformingtheatarihumanbenchmark

KEMPKAM,WYDMUCHM,RUNCG,etal.Vizdoom:adoom-basedAIresearchplatformforvisualreinforcementlearning

LAMPLEG,CHAPLOTDS.PlayingFPSgameswithdeepreinforcementlearning

DOSOVITSKIYA,KOLTUNV.Learningtoactbypredictingthefuture

PATHAKD,AGRAWALP,EFROSAA,etal.Curiosity-drivenexplorationbyself-supervisedprediction

WUY,ZHANGW,SONGK.Master-slavecurriculumdesignforreinforcementlearning

VINYALSO,EWALDST,BARTUNOVS,etal.StarcraftII:anewchallengeforreinforcementlearning

ZAMBALDIV,RAPOSOD,SANTOROA,etal.Relationaldeepreinforcementlearning

VASWANIA,SHAZEERN,PARMARN,etal.Attentionisallyouneed

RASHIDT,SAMVELYANM,DEWITTCS,etal.QMIX:monotonicvaluefunctionfactorisationfordeepmulti-agentreinforcementlearning

YED,LIUZ,SUNM,etal.MasteringcomplexcontrolinMOBAgameswithdeepreinforcementlearning

OHJ,CHOCKALINGAMV,SINGHS,etal.Controlofmemory,activeperception,andactioninminecraft

JADERBERGM,MNIHV,CZARNECKIWM,etal.Reinforcementlearningwithunsupervisedauxiliarytasks

MIROWSKIP,PASCANUR,VIOLAF,etal.Learningtonavigateincomplexenvironments

WANGY,HEH,SUNC.Learningtonavigatethroughcomplexdynamicenvironmentwithmodulardeepreinforcementlearning

SHIH,SHIL,XUM,etal.End-to-endnavigationstrategywithdeepreinforcementlearningformobilerobots

SAVINOVN,RAICHUKA,MARINIERR,etal.Episodiccuriositythroughreachability

ZHUY,MOTTAGHIR,KOLVEE,etal.Target-drivenvisualnavigationinindoorscenesusingdeepreinforcementlearning

TAIL,LIUM.Towardscognitiveexplorationthroughdeepreinforcementlearningformobilerobots

TAIL,PAOLOG,LIUM.Virtual-to-realdeepreinforcementlearning:continuouscontrolofmobilerobotsformaplessnavigation

WUY,RAOZ,ZHANGW,etal.Exploringthetaskcooperationinmulti-goalvisualnavigation

ZHANGW,ZHANGY,LIUN.Map-lessnavigation:asingleDRL-basedcontrollerforrobotswithvarieddimensions

MIROWSKIP,GRIMESMK,MALINOWSKIM,etal.Learningtonavigateincitieswithoutamap

LIA,HUH,MIROWSKIP,etal.Cross-viewpolicylearningforstreetnavigation

HERMANNKM,MALINOWSKIM,MIROWSKIP,etal.Learningtofollowdirectionsinstreetview

CHANCáNM,MILFORDM.CityLearn:diversereal-worldenvironmentsforsample-efficientnavigationpolicylearning

孙长银,穆朝絮.多智能体深度强化学习的若干关键科学问题

SUNCY,MUCX.Importantscientificproblemsofmulti-agentdeepreinforcementlearning

OROOJLOOYJADIDA,HAJINEZHADD.Areviewofcooperativemulti-agentdeepreinforcementlearning

OMIDSHAFIEIS,PAZISJ,AMATOC,etal.Deepdecentralizedmulti-taskmulti-agentreinforcementlearningunderpartialobservability

MATIGNONL,LAURENTGJ,LEFORT-PIATN.HystereticQ-learning:analgorithmfordecentralizedreinforcementlearningincooperativemulti-agentteams

FOERSTERJ,NARDELLIN,FARQUHARG,etal.Stabilisingexperiencereplayfordeepmulti-agentreinforcementlearning

PALMERG,TUYLSK,BLOEMBERGEND,etal.Lenientmulti-agentdeepreinforcementlearning

EVERETTR,ROBERTSS.Learningagainstnon-stationaryagentswithopponentmodellinganddeepreinforcementlearning

JINY,WEIS,YUANJ,etal.Stabilizingmulti-agentdeepreinforcementlearningbyimplicitlyestimatingotheragents’behaviors

LIUX,TANY.Attentiverelationalstaterepresentationindecentralizedmultiagentreinforcementlearning

GUPTAJK,EGOROVM,KOCHENDERFERM.Cooperativemulti-agentcontrolusingdeepreinforcementlearning

LOWER,WUY,TAMARA,etal.Multi-agentactor-criticformixedcooperative-competitiveenvironments

FOERSTERJ,FARQUHARG,AFOURAST,etal.Counterfactualmulti-agentpolicygradients

SUNEHAGP,LEVERG,GRUSLYSA,etal.Value-decompositionnetworksforcooperativemulti-agentlearning

MAOH,ZHANGZ,XIAOZ,etal.Modellingthedynamicjointpolicyofteammateswithattentionmulti-agentDDPG

IQBALS,SHAF.Actor-attention-criticformulti-agentreinforcementlearning

FOERSTERJN,ASSAELYM,DEFREITASN,etal.Learningtocommunicatewithdeepmulti-agentreinforcementlearning

SUKHBAATARS,SZLAMA,FERGUSR.Learningmultiagentcommunicationwithbackpropagation

JIANGJ,LUZ.Learningattentionalcommunicationformulti-agentcooperation

KIMD,MOONS,HOSTALLEROD,etal.Learningtoschedulecommunicationinmulti-agentreinforcementlearning

DASA,GERVETT,ROMOFFJ,etal.TarMAC:targetedmulti-agentcommunication

SHANIG,HECKERMAND,BRAFMANRI,etal.AnMDP-basedrecommendersystem

ZHAOX,XIAL,TANGJ,etal.Deepreinforcementlearningforsearch,recommendation,andonlineadvertising:asurvey

ZHAOX,XIAL,ZHANGL,etal.Deepreinforcementlearningforpage-wiserecommendations

ZHENGG,ZHANGF,ZHENGZ,etal.DRN:adeepreinforcementlearningframeworkfornewsrecommendation

THE END
1.神经网络算法BP 神经网络算法在理论上可以逼近任意函数,基本的结构由非线性变化单元组成,具有很强的非线性映射能力。而且网络的中间层数、各层的处理单元数及网络的学习系数等参数可根据具体情况设定,灵活性很大,在优化、信号处理与模式识别、智能控制、故障诊断等许 多领域都有着广泛的应用前景。工作原理 人工神经元的研究起https://baike.baidu.com/item/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E7%AE%97%E6%B3%95/1252235
2.人工神经网络是什么,其应用有哪些?人工神经网络应用人工神经网络是什么,其应用有哪些? 当你阅读这篇文章时,你身体的哪个器官正在考虑它?当然是大脑!但是你知道大脑是如何工作的吗?嗯,它有神经元或神经细胞,它们是大脑和神经系统的主要单位。这些神经元接收来自外部世界的感觉输入,它们对其进行处理,然后提供输出,这些输出可能充当下一个神经元的输入。 https://blog.csdn.net/2401_85782938/article/details/140009671
3.深度学习:从人工神经网络的基础原理到循环神经网络的先进技术本文将深入探讨深度学习中的三种主要神经网络架构:基础人工神经网络(ANN)、卷积神经网络(Convolutional Neural Network, CNN)和循环神经网络(Recurrent Neural Network, RNN)。我们将通过大量的Python代码示例,展示如何构建和训练这些模型,并应用于不同的任务,包括图像分类、文本生成和时间序列预测。https://cloud.tencent.com/developer/article/2471196
4.人工智能与深度学习科研项目:卷积神经网络算法及其在NLP等人工智能领域项目将首先回顾包含分类与回归的传统机器学习算法及初步神经网络,而后教授将会介绍用于优化神经网络的数学原理及代码技术。在确保学生具备扎实的理论及编程基础后,项目将进入到关于卷积神经网络原理、架构、优化及应用的核心阶段,学生将根据自身兴趣选择个性化研究课题进行深入研究,在项目结束时提交项目报告,进行成果展示。 https://www.eol.cn/waiyu/news/2022122099527.html
5.粒子群改进算法及在混合神经网络中的应用研究粒子群改进算法及在混合神经网络中的应用研究,粒子群,混合算法,模拟退火,人工神经网络,混沌自适应,外贸出口,随着学科间的相互交叉、相互渗透和相互促进,研究者开始将各类智能优化算法应用于人工神经网络(ANN)训练。其中,粒子群优化(PShttps://wap.cnki.net/lunwen-1014264041.html
6.基于人工鱼群BP神经网络算法的压力传感器温度补偿研究AET摘要:为实现压力传感器的温度补偿,采用BP神经网络作为压力传感器软件补偿系统的核心算法,但由于BP神经网络算法易陷入局部极值,因此采用具有全局搜索能力的算法—人工鱼群算法(AFSA)进行优化,得到的结果是压力传感器的线性度提升1个数量级,温度灵敏度系数降低2个数量级,得到了很好的补偿效果。 http://www.chinaaet.com/article/3000019793
7.进化算法在人工神经网络中的应用研究会议进化算法在人工神经网络中的应用研究 万琼姚望舒王金根陈世福谢俊元 南京大学计算机软件新技术国家重点实验室 210093 引用 收藏 分享 打印 摘要:本文综述了进化算法与人工神经络结合技术现状的研究,主要包括优化网络设计、输入数据预处理、网络集成等方面内容,并对研究过程中出现的主要问题及未来发展趋势进行了讨论。https://d.wanfangdata.com.cn/Conference/6737541
8.人工神经网络:模型算法及应用PPT课件(全)(406页)人工神经网络:模型、算法及应用-PPT课件(全).pptx,人工神经网络: 模型、算法及应用;2;3;4;1.1 人工神经网络的概念 ;6;1.2 人工神经网络的发展 ;8;1.3 人脑;1.3 人脑;11;1.4 Hebb法则;13;1.5 神经元模型;15;1.6 神经网络的拓扑结构;1.6 神经网络的拓扑结构;18;1.7 知识表https://m.book118.com/html/2022/1222/6140135132005031.shtm
9.大数据在审计中的应用——基于人工神经网络的财务报告舞弊识别因此本文旨在利用大数据技术与人工神经网络算法捕获与目标企业舞弊相关的财务信息和非财务信息,梳理基于数据挖掘的舞弊识别框架,为资本市场注入信心。 1.2 研究意义 大数据在财务领域较多地应用于财务共享服务中心的构建、风险预警、管理决策等方面,并取得了较为丰富的研究成果,但是大数据在财务报告舞弊识别方面的应用研究还处https://www.fx361.com/page/2021/0624/11343477.shtml
10.人工智能心得体会(精选13篇)由于网络技术特别是国际互连网的技术发展,人工智能开始由单个智能主体研究转向基于网络环境下的分布式人工智能研究。不仅研究基于同一目标的分布式问题求解,而且研究多个智能主体的多目标问题求解,将人工智能更面向实用。另外,由于hopfield多层神经网络模型的提出,使人工神经网络研究与应用出现了欣欣向荣的景象。人工智能已深入到https://www.oh100.com/a/202212/5696010.html
11.现代工学院郝玉峰课题组:利用人工神经网络算法识别和表征原子级厚度材料现代工学院郝玉峰教授课题组近期将人工神经网络算法与二维材料研究相结合,实现了仅通过光学显微镜照片即可对二维材料的类型、层数、异质结构、缺陷浓度进行快速识别和表征,为二维材料提供了一种高效、无损的检测分析技术。 二维材料是一类仅有原子级厚度的新型薄膜材料。目前二维材料成员已多达几百种,并且各种二维材料会组合https://www.nju.edu.cn/info/3201/116731.htm
12.人工智能论文人工智能;电气工程;自动化控制;应用 当前是一个科学技术时代,电气工程发展要与时俱进,跟上时代前进的脚步。电气工程行业要想有效实现电气自动化控制和管理,就必须充分发挥出人工智能技术的作用。人工智能的研究范围不仅涵盖了图像语言识别和自动化控制,还包括了专家系统和人工神经网络等内容。因此,电力企业必须通过合理利https://www.ruiwen.com/lunwen/6395408.html
13.JeffDean撰文:谷歌AI2018研究成果汇总我们也探讨了强化学习如何应用于神经网络架构搜索之外的其他问题,我们的研究证明它可用于1)自动生成图像变换序列,以提高各种图像模型的准确性。 以及寻找新的符号优化表达式,比常用的优化更新规则更有效。我们在AdaNet上的工作展示了如何得到具有学习能力的快速灵活的AutoML算法。 https://36kr.com/p/1723150434305
14.2022年度陕西省重点研发计划项目申报指南目录2.1 超大规模复数稠密矩阵方程直接求解算法库 2.2 超大规模复数稀疏矩阵方程直接求解算法库 2.3 工业仿真软件架构关键技术 2.4 三维几何建模技术研究 2.5 面网格生成技术 2.6 体网格生成技术 2.7 高性能三维图形渲染技术 2.8 航空大规模并行 CFD 计算技术及应用示范 http://www.kt180.com/html/sxs/9889.html
15.人工智能学习心得(通用28篇)在大多数数学科中存在着几个不同的研究领域,每个领域都有着特有的感兴趣的研究课题、研究技术和术语。在人工智能中,这样的领域包括自然语言处理、自动定理证明、自动程序设计、智能检索、智能调度、机器学习、专家系统、机器人学、智能控制、模式识别、视觉系统、神经网络、agent、计算智能、问题求解、人工生命、人工智能https://www.yjbys.com/xindetihui/fanwen/3342600.html
16.第三代神经网络模型:面向AI应用的脉冲神经网络澎湃号·湃客在这篇文章中,我想从四个方向对生物启发SNN设计的一些实例和思想进行介绍,包括神经元模型、编码方式、学习算法、网络结构,最后总结并展望类脑启发对于面向AI应用的SNN研究的意义。 1. 神经元模型 为了模拟生物神经元的活动模式,计算神经科学提出了一系列脉冲神经元模型。与使用激活函数的人工神经元相比,脉冲神经元普遍https://www.thepaper.cn/newsDetail_forward_27289221