深度强化学习算法与应用研究现状综述

智能科学与技术学报,2020,2(4):314-326doi:10.11959/j.issn.2096-6652.202034

专刊:深度强化学习

刘朝阳1,穆朝絮1,孙长银21天津大学电气自动化与信息工程学院,天津300072

2东南大学自动化学院,江苏南京210096

LIUZhaoyang1,MUChaoxu1,SUNChangyin21SchoolofElectricalandInformationEngineering,TianjinUniversity,Tianjin300072,China

2SchoolofAutomation,SoutheastUniversity,Nanjing210096,China

修回日期:2020-12-03网络出版日期:2020-12-15

Revised:2020-12-03Online:2020-12-15

作者简介Aboutauthors

刘朝阳(1996-),男,天津大学电气自动化与信息工程学院博士生,主要研究方向为强化学习、多智能体强化学习。。

穆朝絮(1984-),女,博士,天津大学电气自动化与信息工程学院教授,主要研究方向为强化学习、自适应学习系统、非线性控制和优化。。

孙长银(1975-),男,博士,东南大学自动化学院教授,中国自动化学会会士,中国自动化学会人工智能与机器人教育专业委员会主任。主要研究方向为智能控制与优化、强化学习、神经网络、数据驱动控制。担任IEEETransactionsonNeuralNetworksandLearningSystems、IEEE/CAAJournalofAutomaticaSinica、《自动化学报》《控制理论与应用》《智能科学与技术学报》等高质量学术期刊编委。2011年获得国家杰出青年科学基金。“智能机器人感知与控制”江苏高等学校优秀科技创新团队带头人,2016年全国优秀科技工作者,第三批国家“万人计划”科技创新领军人才,中国科学技术协会第九次全国代表大会代表,“自主无人系统协同控制理论及应用”国家自然科学基金委员会创新研究群体学术带头人,科学技术部科技创新2030—“新一代人工智能”重大项目“人在回路的混合增强智能”首席科学家,江苏省前沿引领技术基础研究专项领衔科学家。。

关键词:人工智能;深度强化学习;值函数;策略梯度;导航;协作;复杂环境;泛化性;鲁棒性

Deepreinforcementlearning(DRL)ismainlyappliedtosolvetheperception-decisionproblem,andhasbecomeanimportantresearchbranchinthefieldofartificialintelligence.TwokindsofDRLalgorithmsbasedonvaluefunctionandpolicygradientweresummarized,includingdeepQnetwork,policygradientaswellasrelateddevelopedalgorithms.Inaddition,theapplicationsofDRLinvideogames,navigation,multi-agentcooperationandrecommendationfieldwereintensivelyreviewed.Finally,aprospectforthefutureresearchofDRLwasmade,andsomeresearchsuggestionsweregiven.

Keywords:artificialintelligence;deepreinforcementlearning;valuefunction;policygradient;navigation;cooperation;complexenvironment;generalization;robustness

本文引用格式

刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述.智能科学与技术学报[J],2020,2(4):314-326doi:10.11959/j.issn.2096-6652.202034

LIUZhaoyang.Anoverviewonalgorithmsandapplicationsofdeepreinforcementlearning.ChineseJournalofIntelligentScienceandTechnology[J],2020,2(4):314-326doi:10.11959/j.issn.2096-6652.202034

图1DQN的网络结构

图2DQN算法更新流程

同时,神经网络的参数采用梯度下降的方式进行更新。实验表明,DQN不仅在多种Atari2600游戏中达到人类玩家的水平,还显示出很强的适应性和通用性。

DDQN采用与DQN相同的更新方式。实验结果表明,DDQN能在大部分Atari2600游戏上取得比DQN更好的表现,并且得到更加稳定的策略。

图3DuelingDQN的网络结构

在实际中,一般要将优势函数减去当前状态下所有动作优势函数的平均值,获得的动作值函数如下:

基于策略梯度的DRL算法主要包括策略梯度算法、AC算法以及基于AC的各种改进算法,如深度确定性策略梯度(deepdeterministicpolicygradient,DDPG)算法、异步优势AC(asynchronousadvantageAC,A3C)算法和近端策略优化(proximalpolicyoptimization,PPO)算法等。

策略梯度算法直接对智能体的策略进行优化,它需要收集一系列完整的序列数据τ来更新策略。在DRL中,对序列数据进行收集往往很困难,并且以序列的方式对策略进行更新会引入很大的方差。一种可行的方案是将传统强化学习中的AC结构应用到DRL中。AC结构主要包括执行器和评价器两部分,其中执行器基于策略梯度算法更新动作,评价器则基于值函数法对动作进行评价。AC结构的优点是将策略梯度中的序列更新变为单步更新,不用等序列结束后再对策略进行评估和改进,这样可以减少数据收集的难度,同时可以减小策略梯度算法的方差。

对于值函数部分,也可以用优势函数来代替。优势函数可以表示为:

图4A2C的基本结构

SAC算法通过使熵最大化来激励智能体探索,一方面可以避免智能体收敛到次优策略,另一方面可以提升算法的鲁棒性,并且SAC算法能够在多种连续控制的任务中取得比DDPG算法和PPO算法更好的表现。

表1几类DRL的应用领域及研究意义

图5Atari2600典型游戏环境

导航是DRL的另一个重要应用,它的目标是使智能体找到一条从起点到目标点的最优路径,同时,在导航中还需要完成各种任务,如避障、搜集物品以及导航到多个目标等。近年来,利用DRL在迷宫导航、室内导航、街景导航的研究取得了一系列的成果。

图6DRL导航环境

图7MADDPG算法结构

现阶段,关于DRL的研究已经取得了较大的进步,但在算法上仍存在采样效率不足、奖励值设置困难、探索困境等问题。在应用方面,对DRL的研究主要集中在虚拟环境中,无模型DRL算法很难应用于现实环境中。这是因为DRL算法需要大量的采样数据进行训练,而现实中的样本很难通过试错进行获取。此外,DRL算法还存在泛化能力不足、鲁棒性不强等问题,这也限制了DRL在实际生活中的应用。据此,未来对DRL的研究可以从以下方面展开。

SUTTONRS,BARTOAG.Reinforcementlearning:anintroduction

LECUNY,BENGIOY,HINTONG.Deeplearning

赵冬斌,邵坤,朱圆恒,等.深度强化学习综述:兼论计算机围棋的发展

ZHAODB,SHAOK,ZHUYH,etal.ReviewofdeepreinforcementlearninganddiscussionsonthedevelopmentofcomputerGo

万里鹏,兰旭光,张翰博,等.深度强化学习理论及其应用综述

WANLP,LANXG,ZHANGHB,etal.Areviewofdeepreinforcementlearningtheoryandapplication

MNIHV,KAVUKCUOGLUK,SILVERD,etal.Human-levelcontrolthroughdeepreinforcementlearning

SILVERD,HUANGA,MADDISONCJ,etal.MasteringthegameofGowithdeepneuralnetworksandtreesearch

SILVERD,SCHRITTWIESERJ,SIMONYANK,etal.Masteringthegameofgowithouthumanknowledge

BERNERC,BROCKMANG,CHANB,etal.Dota2withlargescaledeepreinforcementlearning

VINYALSO,BABUSCHKINI,CZARNECKIWM,etal.GrandmasterlevelinStarCraftIIusingmulti-agentreinforcementlearning

刘全,翟建伟,章宗长,等.深度强化学习综述

LIUQ,ZHAIJW,ZHANGZZ,etal.Asurveyondeepreinforcementlearning

刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述

LIUJW,GAOF,LUOXL.Surveyofdeepreinforcementlearningbasedonvaluefunctionandpolicygradient

SUTTONRS.Learningtopredictbythemethodsoftemporaldifferences

WATKINSCJCH,DAYANP.Q-learning

VANHASSELTH,GUEZA,SILVERD,etal.DeepreinforcementlearningwithdoubleQ-learning

SCHAULT,QUANJ,ANTONOGLOUI,etal.Prioritizedexperiencereplay

WANGZ,SCHAULT,HESSELM,etal.Duelingnetworkarchitecturesfordeepreinforcementlearning

NAIRA,SRINIVASANP,BLACKWELLS,etal.Massivelyparallelmethodsfordeepreinforcementlearning

SLIVERD,LEVERG,HEESSN,etal.Deterministicpolicygradientalgorithms

LILLICRAPPT,HUNTJJ,PRITZELA,etal.Continuouscontrolwithdeepreinforcementlearning

MNIHV,BADIAAP,MIRZAM,etal.Asynchronousmethodsfordeepreinforcementlearning

SCHULMANJ,WOLSKIF,DHARIWALP,etal.Proximalpolicyoptimizationalgorithms

HAARNOJAT,ZHOUA,ABBEELP,etal.Softactor-critic:off-policymaximumentropydeepreinforcementlearningwithastochasticactor

沈宇,韩金朋,李灵犀,等.游戏智能中的AI——从多角色博弈到平行博弈

SHENY,HANJP,LILX,etal.AIingameintelligence—frommulti-rolegametoparallelgame

BADIAAP,PIOTB,KAPTUROWSKIS,etal.Agent57:outperformingtheatarihumanbenchmark

KEMPKAM,WYDMUCHM,RUNCG,etal.Vizdoom:adoom-basedAIresearchplatformforvisualreinforcementlearning

LAMPLEG,CHAPLOTDS.PlayingFPSgameswithdeepreinforcementlearning

DOSOVITSKIYA,KOLTUNV.Learningtoactbypredictingthefuture

PATHAKD,AGRAWALP,EFROSAA,etal.Curiosity-drivenexplorationbyself-supervisedprediction

WUY,ZHANGW,SONGK.Master-slavecurriculumdesignforreinforcementlearning

VINYALSO,EWALDST,BARTUNOVS,etal.StarcraftII:anewchallengeforreinforcementlearning

ZAMBALDIV,RAPOSOD,SANTOROA,etal.Relationaldeepreinforcementlearning

VASWANIA,SHAZEERN,PARMARN,etal.Attentionisallyouneed

RASHIDT,SAMVELYANM,DEWITTCS,etal.QMIX:monotonicvaluefunctionfactorisationfordeepmulti-agentreinforcementlearning

YED,LIUZ,SUNM,etal.MasteringcomplexcontrolinMOBAgameswithdeepreinforcementlearning

OHJ,CHOCKALINGAMV,SINGHS,etal.Controlofmemory,activeperception,andactioninminecraft

JADERBERGM,MNIHV,CZARNECKIWM,etal.Reinforcementlearningwithunsupervisedauxiliarytasks

MIROWSKIP,PASCANUR,VIOLAF,etal.Learningtonavigateincomplexenvironments

WANGY,HEH,SUNC.Learningtonavigatethroughcomplexdynamicenvironmentwithmodulardeepreinforcementlearning

SHIH,SHIL,XUM,etal.End-to-endnavigationstrategywithdeepreinforcementlearningformobilerobots

SAVINOVN,RAICHUKA,MARINIERR,etal.Episodiccuriositythroughreachability

ZHUY,MOTTAGHIR,KOLVEE,etal.Target-drivenvisualnavigationinindoorscenesusingdeepreinforcementlearning

TAIL,LIUM.Towardscognitiveexplorationthroughdeepreinforcementlearningformobilerobots

TAIL,PAOLOG,LIUM.Virtual-to-realdeepreinforcementlearning:continuouscontrolofmobilerobotsformaplessnavigation

WUY,RAOZ,ZHANGW,etal.Exploringthetaskcooperationinmulti-goalvisualnavigation

ZHANGW,ZHANGY,LIUN.Map-lessnavigation:asingleDRL-basedcontrollerforrobotswithvarieddimensions

MIROWSKIP,GRIMESMK,MALINOWSKIM,etal.Learningtonavigateincitieswithoutamap

LIA,HUH,MIROWSKIP,etal.Cross-viewpolicylearningforstreetnavigation

HERMANNKM,MALINOWSKIM,MIROWSKIP,etal.Learningtofollowdirectionsinstreetview

CHANCáNM,MILFORDM.CityLearn:diversereal-worldenvironmentsforsample-efficientnavigationpolicylearning

孙长银,穆朝絮.多智能体深度强化学习的若干关键科学问题

SUNCY,MUCX.Importantscientificproblemsofmulti-agentdeepreinforcementlearning

OROOJLOOYJADIDA,HAJINEZHADD.Areviewofcooperativemulti-agentdeepreinforcementlearning

OMIDSHAFIEIS,PAZISJ,AMATOC,etal.Deepdecentralizedmulti-taskmulti-agentreinforcementlearningunderpartialobservability

MATIGNONL,LAURENTGJ,LEFORT-PIATN.HystereticQ-learning:analgorithmfordecentralizedreinforcementlearningincooperativemulti-agentteams

FOERSTERJ,NARDELLIN,FARQUHARG,etal.Stabilisingexperiencereplayfordeepmulti-agentreinforcementlearning

PALMERG,TUYLSK,BLOEMBERGEND,etal.Lenientmulti-agentdeepreinforcementlearning

EVERETTR,ROBERTSS.Learningagainstnon-stationaryagentswithopponentmodellinganddeepreinforcementlearning

JINY,WEIS,YUANJ,etal.Stabilizingmulti-agentdeepreinforcementlearningbyimplicitlyestimatingotheragents’behaviors

LIUX,TANY.Attentiverelationalstaterepresentationindecentralizedmultiagentreinforcementlearning

GUPTAJK,EGOROVM,KOCHENDERFERM.Cooperativemulti-agentcontrolusingdeepreinforcementlearning

LOWER,WUY,TAMARA,etal.Multi-agentactor-criticformixedcooperative-competitiveenvironments

FOERSTERJ,FARQUHARG,AFOURAST,etal.Counterfactualmulti-agentpolicygradients

SUNEHAGP,LEVERG,GRUSLYSA,etal.Value-decompositionnetworksforcooperativemulti-agentlearning

MAOH,ZHANGZ,XIAOZ,etal.Modellingthedynamicjointpolicyofteammateswithattentionmulti-agentDDPG

IQBALS,SHAF.Actor-attention-criticformulti-agentreinforcementlearning

FOERSTERJN,ASSAELYM,DEFREITASN,etal.Learningtocommunicatewithdeepmulti-agentreinforcementlearning

SUKHBAATARS,SZLAMA,FERGUSR.Learningmultiagentcommunicationwithbackpropagation

JIANGJ,LUZ.Learningattentionalcommunicationformulti-agentcooperation

KIMD,MOONS,HOSTALLEROD,etal.Learningtoschedulecommunicationinmulti-agentreinforcementlearning

DASA,GERVETT,ROMOFFJ,etal.TarMAC:targetedmulti-agentcommunication

SHANIG,HECKERMAND,BRAFMANRI,etal.AnMDP-basedrecommendersystem

ZHAOX,XIAL,TANGJ,etal.Deepreinforcementlearningforsearch,recommendation,andonlineadvertising:asurvey

ZHAOX,XIAL,ZHANGL,etal.Deepreinforcementlearningforpage-wiserecommendations

ZHENGG,ZHANGF,ZHENGZ,etal.DRN:adeepreinforcementlearningframeworkfornewsrecommendation

THE END
1.人工智能原理实验四:智能算法与机器学习本实验课程是计算机、智能、物联网等专业学生的一门专业课程,通过实验,帮助学生更好地掌握人工智能相关概念、技术、原理、应用等;通过实验提高学生编写实验报告、总结实验结果的能力;使学生对智能程序、智能算法等有比较深入的认识。要掌握的知识点如下: 掌握人工智能中涉及的相关概念、算法; https://blog.csdn.net/m0_64146991/article/details/144395968
2.赛桨PaddleSciencev1.0正式版发布,飞桨科学计算能力全面升级!百度飞桨作为拥有国内最大开源用户群体的深度学习平台,一直致力于将 AI 方法应用于基础科研,通过不断提升飞桨框架对科学问题的求解机制,并建设端到端的科学计算工具组件来加速 AI 与传统科学研究的融合。在过去的一年中,飞桨框架通过全量支持开源科学计算工具 DeepXDE 以及对大量科学领域论文代码的重构,进一步完善了https://baijiahao.baidu.com/s?id=1771997232125044980&wfr=spider&for=pc
3.基于在线字典学习算法的地震数据去噪研究与应用基于在线字典学习算法的地震数据去噪研究与应用 王量 开通知网号 【摘要】: 在地震数据处理领域,地震资料的去噪质量直接影响到后续处理工作的有效性和可靠性,并且随着地震勘探的发展越来越偏向于复杂油气藏,干净的地震资料难以获得,因此对于地震资料的去噪应用是地震数据处理领域中一项重要的持续研究内容。基于地震数据与https://cdmd.cnki.com.cn/Article/CDMD-10616-1019216086.htm
4.等生成模型的深度学习算法综合研究与应用大三及以上组菁英科研项目:人工智能与数据科学专题:基于LSTM等序列模型、GAN等生成模型的深度学习算法综合研究与应用【大三及以上组】https://www.eol.cn/waiyu/news/20230103103205.html
5.图机器学习峰会复杂图的研究与应用探索2022 年 6 月 23 日 图与推荐 背景介绍 6月 25 日,9:00 - 13:30,在 DataFunSummit 2022:图机器学习在线峰会上,由京东 纪厚业博士 出品的 复杂图论坛 ,将邀请来自亚马逊云科技、北京交通大学、UIUC、美团、天津大学、中国科学技术大学的6位专家学者,针对复杂图的发展趋势和应用实践进行深度分享,欢迎大家一https://www.zhuanzhi.ai/document/7219bfaf72699d982df8786ad4fbe2a3
6.人工智能深度学习算法优化与数据增强技术在图像识别领域的协同应用案例 以物体识别为例,通过采用深度学习算法优化和数据增强技术相结合的方法,可以显著提高模型在复杂场景下的识别准确率,例如在交通场景下的车辆识别、人脸识别等方面取得了良好的效果。 结语 通过以上介绍,我们了解了人工智能深度学习算法优化与数据增强技术在图像识别领域的协同应用研究。这种技术的发展将极大地提高图https://www.jianshu.com/p/2de25c9c4d0d
7.TCCT通讯Newsletter2017No.01快速在线模型预测及在三自由度直升机中的应用 系统科学与数学, 2016 Vol. 36 (10): 1618-1629 Abstract | PDF 李旭军,刘业政,荆科,何军 节点的时间异质性对信息传播的影响 系统科学与数学, 2016 Vol. 36 (10): 1630-1642 Abstract | PDF 刘秀丽,邹庆荣 我国用水总量预测研究 系统科学与数学, 2016 Volhttps://tcct.amss.ac.cn/newsletter/2017/201701/journal.html
8.科学网—[转载]强化学习在资源优化领域的应用当业务环境发生变化时,智能体能够及时地利用数据中蕴含的变化信号,从而更加迅速和敏锐地通过与业务环境的交互重新找到合适的优化方案。鉴于这些特点,近年来强化学习算法结合行业大数据的解决方案在资源优化领域得到越来越多的应用,并取得了一系列优秀的成果。 基于这种行业趋势,本文针对强化学习算法在资源优化领域的应用展开https://blog.sciencenet.cn/blog-3472670-1312677.html
9.2022年度陕西省重点研发计划项目申报指南目录2.高性能计算与工业软件 2.1 超大规模复数稠密矩阵方程直接求解算法库 2.2 超大规模复数稀疏矩阵方程直接求解算法库 2.3 工业仿真软件架构关键技术 2.4 三维几何建模技术研究 2.5 面网格生成技术 2.6 体网格生成技术 2.7 高性能三维图形渲染技术 2.8 航空大规模并行 CFD 计算技术及应用示范 http://www.kt180.com/html/sxs/9889.html
10.基于学习投入的混合式教学预警模型研究——以大学物理为例近年来,学习预警是教育数据挖掘研究和应用一个热点领域,国外学习预警的研究与实践始于 20 世纪 90 年代初,通过对国内文献的研究,发现国内最早研究学习预警的是华金秋,其《台湾高校学习预警制度及其借鉴》文献发表于 2007 年。学习预警普遍采用的算法有回归分析、并通过准率、召回率与 F 值等,本文使用了召回率、F 值https://www.thepaper.cn/newsDetail_forward_20481255
11.转:2024年展望:未来十大最吃香最具前景专业分析1.1 深度学习算法研究 神经网络架构优化:开发更高效、更强大的神经网络模型。 迁移学习:研究如何将一个领域的学习成果应用到另一个相关领域。 强化学习:探索AI如何通过与环境互动来学习最优策略。 联邦学习:研究如何在保护数据隐私的同时进行分布式机器学习。 https://maimai.cn/article/detail?fid=1851243312&efid=XSQx0hfK7u4CsISU06jfRw
12.智谱·AI人工智能发展月报(2021年1月)华盛顿大学和加州大学洛杉矶分校的研究人员与深度科技创业公司 Optelligence LLC 共同开发出一种光学卷积神经网络加速器,每秒能够处理拍字节(1 拍字节 = 250 字节)级的大量信息。这项创新利用了光的巨量并行性,预示着用于机器学习的光学信号处理新时代的到来,应用领域包括无人驾驶汽车、5G 网络、数据中心、生物医学诊断https://www.ofweek.com/ai/2021-01/ART-201717-8140-30484174_3.html
13.2022信息科技课程标准全文最新版(二) 信息隐私与安全 (三) 跨学科主题数字设备体验 第二学段(3?4年级) (-)在线学习与生活 (二) 数据与编码 (三) 跨学科主题 数据编码探秘 第三学段(5?6年级) (一)身边的算法 (―)过程与控制 (三)跨学科主题 小型系统模拟 第四学段(7?9年级) (一) 互联网应用与创新 (二) 物联网实践与探https://www.liuxue86.com/a/4254721.html
14.[量化]万字综述,94篇论文分析股市预测的深度学习技术一些实验探索了RNN与其他机器学习的混合应用。[108]提出了一种新颖且稳健的混合预测模型(HPM),它是三种预测模型的组合:RNN、指数平滑(ES)[11]和自回归移动平均模型(ARMA)[7]。遗传算法通过提供显著提高预测精度的最优权重来优化模型。[155]提出了基于RNN的状态频率记忆(StateFrequencyMemory,SFM)算法,该算法能够从http://www.360doc.com/content/23/0519/03/1081259395_1081259395.shtml
15.打破常规!R与机器学习在医学领域中针对测序数据的分析和可视化机器学习模型在生物医学应用中具有巨大的潜力。一个名为GradioHub的新平台为临床医生和生物医学研究人员提供了一种交互式和直观的方式来试用模型,并在真实世界的训练外数据上测试其可靠性。机器学习(ML)研究人员越来越多地成为跨学科合作的一部分,他们与领域专家密切合作,以应对高影响力的临床和生物医学挑战。例如,已经https://www.360doc.cn/mip/1105263022.html