深度强化学习算法与应用研究现状综述

智能科学与技术学报,2020,2(4):314-326doi:10.11959/j.issn.2096-6652.202034

专刊:深度强化学习

刘朝阳1,穆朝絮1,孙长银21天津大学电气自动化与信息工程学院,天津300072

2东南大学自动化学院,江苏南京210096

LIUZhaoyang1,MUChaoxu1,SUNChangyin21SchoolofElectricalandInformationEngineering,TianjinUniversity,Tianjin300072,China

2SchoolofAutomation,SoutheastUniversity,Nanjing210096,China

修回日期:2020-12-03网络出版日期:2020-12-15

Revised:2020-12-03Online:2020-12-15

作者简介Aboutauthors

刘朝阳(1996-),男,天津大学电气自动化与信息工程学院博士生,主要研究方向为强化学习、多智能体强化学习。。

穆朝絮(1984-),女,博士,天津大学电气自动化与信息工程学院教授,主要研究方向为强化学习、自适应学习系统、非线性控制和优化。。

孙长银(1975-),男,博士,东南大学自动化学院教授,中国自动化学会会士,中国自动化学会人工智能与机器人教育专业委员会主任。主要研究方向为智能控制与优化、强化学习、神经网络、数据驱动控制。担任IEEETransactionsonNeuralNetworksandLearningSystems、IEEE/CAAJournalofAutomaticaSinica、《自动化学报》《控制理论与应用》《智能科学与技术学报》等高质量学术期刊编委。2011年获得国家杰出青年科学基金。“智能机器人感知与控制”江苏高等学校优秀科技创新团队带头人,2016年全国优秀科技工作者,第三批国家“万人计划”科技创新领军人才,中国科学技术协会第九次全国代表大会代表,“自主无人系统协同控制理论及应用”国家自然科学基金委员会创新研究群体学术带头人,科学技术部科技创新2030—“新一代人工智能”重大项目“人在回路的混合增强智能”首席科学家,江苏省前沿引领技术基础研究专项领衔科学家。。

关键词:人工智能;深度强化学习;值函数;策略梯度;导航;协作;复杂环境;泛化性;鲁棒性

Deepreinforcementlearning(DRL)ismainlyappliedtosolvetheperception-decisionproblem,andhasbecomeanimportantresearchbranchinthefieldofartificialintelligence.TwokindsofDRLalgorithmsbasedonvaluefunctionandpolicygradientweresummarized,includingdeepQnetwork,policygradientaswellasrelateddevelopedalgorithms.Inaddition,theapplicationsofDRLinvideogames,navigation,multi-agentcooperationandrecommendationfieldwereintensivelyreviewed.Finally,aprospectforthefutureresearchofDRLwasmade,andsomeresearchsuggestionsweregiven.

Keywords:artificialintelligence;deepreinforcementlearning;valuefunction;policygradient;navigation;cooperation;complexenvironment;generalization;robustness

本文引用格式

刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述.智能科学与技术学报[J],2020,2(4):314-326doi:10.11959/j.issn.2096-6652.202034

LIUZhaoyang.Anoverviewonalgorithmsandapplicationsofdeepreinforcementlearning.ChineseJournalofIntelligentScienceandTechnology[J],2020,2(4):314-326doi:10.11959/j.issn.2096-6652.202034

图1DQN的网络结构

图2DQN算法更新流程

同时,神经网络的参数采用梯度下降的方式进行更新。实验表明,DQN不仅在多种Atari2600游戏中达到人类玩家的水平,还显示出很强的适应性和通用性。

DDQN采用与DQN相同的更新方式。实验结果表明,DDQN能在大部分Atari2600游戏上取得比DQN更好的表现,并且得到更加稳定的策略。

图3DuelingDQN的网络结构

在实际中,一般要将优势函数减去当前状态下所有动作优势函数的平均值,获得的动作值函数如下:

基于策略梯度的DRL算法主要包括策略梯度算法、AC算法以及基于AC的各种改进算法,如深度确定性策略梯度(deepdeterministicpolicygradient,DDPG)算法、异步优势AC(asynchronousadvantageAC,A3C)算法和近端策略优化(proximalpolicyoptimization,PPO)算法等。

策略梯度算法直接对智能体的策略进行优化,它需要收集一系列完整的序列数据τ来更新策略。在DRL中,对序列数据进行收集往往很困难,并且以序列的方式对策略进行更新会引入很大的方差。一种可行的方案是将传统强化学习中的AC结构应用到DRL中。AC结构主要包括执行器和评价器两部分,其中执行器基于策略梯度算法更新动作,评价器则基于值函数法对动作进行评价。AC结构的优点是将策略梯度中的序列更新变为单步更新,不用等序列结束后再对策略进行评估和改进,这样可以减少数据收集的难度,同时可以减小策略梯度算法的方差。

对于值函数部分,也可以用优势函数来代替。优势函数可以表示为:

图4A2C的基本结构

SAC算法通过使熵最大化来激励智能体探索,一方面可以避免智能体收敛到次优策略,另一方面可以提升算法的鲁棒性,并且SAC算法能够在多种连续控制的任务中取得比DDPG算法和PPO算法更好的表现。

表1几类DRL的应用领域及研究意义

图5Atari2600典型游戏环境

导航是DRL的另一个重要应用,它的目标是使智能体找到一条从起点到目标点的最优路径,同时,在导航中还需要完成各种任务,如避障、搜集物品以及导航到多个目标等。近年来,利用DRL在迷宫导航、室内导航、街景导航的研究取得了一系列的成果。

图6DRL导航环境

图7MADDPG算法结构

现阶段,关于DRL的研究已经取得了较大的进步,但在算法上仍存在采样效率不足、奖励值设置困难、探索困境等问题。在应用方面,对DRL的研究主要集中在虚拟环境中,无模型DRL算法很难应用于现实环境中。这是因为DRL算法需要大量的采样数据进行训练,而现实中的样本很难通过试错进行获取。此外,DRL算法还存在泛化能力不足、鲁棒性不强等问题,这也限制了DRL在实际生活中的应用。据此,未来对DRL的研究可以从以下方面展开。

SUTTONRS,BARTOAG.Reinforcementlearning:anintroduction

LECUNY,BENGIOY,HINTONG.Deeplearning

赵冬斌,邵坤,朱圆恒,等.深度强化学习综述:兼论计算机围棋的发展

ZHAODB,SHAOK,ZHUYH,etal.ReviewofdeepreinforcementlearninganddiscussionsonthedevelopmentofcomputerGo

万里鹏,兰旭光,张翰博,等.深度强化学习理论及其应用综述

WANLP,LANXG,ZHANGHB,etal.Areviewofdeepreinforcementlearningtheoryandapplication

MNIHV,KAVUKCUOGLUK,SILVERD,etal.Human-levelcontrolthroughdeepreinforcementlearning

SILVERD,HUANGA,MADDISONCJ,etal.MasteringthegameofGowithdeepneuralnetworksandtreesearch

SILVERD,SCHRITTWIESERJ,SIMONYANK,etal.Masteringthegameofgowithouthumanknowledge

BERNERC,BROCKMANG,CHANB,etal.Dota2withlargescaledeepreinforcementlearning

VINYALSO,BABUSCHKINI,CZARNECKIWM,etal.GrandmasterlevelinStarCraftIIusingmulti-agentreinforcementlearning

刘全,翟建伟,章宗长,等.深度强化学习综述

LIUQ,ZHAIJW,ZHANGZZ,etal.Asurveyondeepreinforcementlearning

刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述

LIUJW,GAOF,LUOXL.Surveyofdeepreinforcementlearningbasedonvaluefunctionandpolicygradient

SUTTONRS.Learningtopredictbythemethodsoftemporaldifferences

WATKINSCJCH,DAYANP.Q-learning

VANHASSELTH,GUEZA,SILVERD,etal.DeepreinforcementlearningwithdoubleQ-learning

SCHAULT,QUANJ,ANTONOGLOUI,etal.Prioritizedexperiencereplay

WANGZ,SCHAULT,HESSELM,etal.Duelingnetworkarchitecturesfordeepreinforcementlearning

NAIRA,SRINIVASANP,BLACKWELLS,etal.Massivelyparallelmethodsfordeepreinforcementlearning

SLIVERD,LEVERG,HEESSN,etal.Deterministicpolicygradientalgorithms

LILLICRAPPT,HUNTJJ,PRITZELA,etal.Continuouscontrolwithdeepreinforcementlearning

MNIHV,BADIAAP,MIRZAM,etal.Asynchronousmethodsfordeepreinforcementlearning

SCHULMANJ,WOLSKIF,DHARIWALP,etal.Proximalpolicyoptimizationalgorithms

HAARNOJAT,ZHOUA,ABBEELP,etal.Softactor-critic:off-policymaximumentropydeepreinforcementlearningwithastochasticactor

沈宇,韩金朋,李灵犀,等.游戏智能中的AI——从多角色博弈到平行博弈

SHENY,HANJP,LILX,etal.AIingameintelligence—frommulti-rolegametoparallelgame

BADIAAP,PIOTB,KAPTUROWSKIS,etal.Agent57:outperformingtheatarihumanbenchmark

KEMPKAM,WYDMUCHM,RUNCG,etal.Vizdoom:adoom-basedAIresearchplatformforvisualreinforcementlearning

LAMPLEG,CHAPLOTDS.PlayingFPSgameswithdeepreinforcementlearning

DOSOVITSKIYA,KOLTUNV.Learningtoactbypredictingthefuture

PATHAKD,AGRAWALP,EFROSAA,etal.Curiosity-drivenexplorationbyself-supervisedprediction

WUY,ZHANGW,SONGK.Master-slavecurriculumdesignforreinforcementlearning

VINYALSO,EWALDST,BARTUNOVS,etal.StarcraftII:anewchallengeforreinforcementlearning

ZAMBALDIV,RAPOSOD,SANTOROA,etal.Relationaldeepreinforcementlearning

VASWANIA,SHAZEERN,PARMARN,etal.Attentionisallyouneed

RASHIDT,SAMVELYANM,DEWITTCS,etal.QMIX:monotonicvaluefunctionfactorisationfordeepmulti-agentreinforcementlearning

YED,LIUZ,SUNM,etal.MasteringcomplexcontrolinMOBAgameswithdeepreinforcementlearning

OHJ,CHOCKALINGAMV,SINGHS,etal.Controlofmemory,activeperception,andactioninminecraft

JADERBERGM,MNIHV,CZARNECKIWM,etal.Reinforcementlearningwithunsupervisedauxiliarytasks

MIROWSKIP,PASCANUR,VIOLAF,etal.Learningtonavigateincomplexenvironments

WANGY,HEH,SUNC.Learningtonavigatethroughcomplexdynamicenvironmentwithmodulardeepreinforcementlearning

SHIH,SHIL,XUM,etal.End-to-endnavigationstrategywithdeepreinforcementlearningformobilerobots

SAVINOVN,RAICHUKA,MARINIERR,etal.Episodiccuriositythroughreachability

ZHUY,MOTTAGHIR,KOLVEE,etal.Target-drivenvisualnavigationinindoorscenesusingdeepreinforcementlearning

TAIL,LIUM.Towardscognitiveexplorationthroughdeepreinforcementlearningformobilerobots

TAIL,PAOLOG,LIUM.Virtual-to-realdeepreinforcementlearning:continuouscontrolofmobilerobotsformaplessnavigation

WUY,RAOZ,ZHANGW,etal.Exploringthetaskcooperationinmulti-goalvisualnavigation

ZHANGW,ZHANGY,LIUN.Map-lessnavigation:asingleDRL-basedcontrollerforrobotswithvarieddimensions

MIROWSKIP,GRIMESMK,MALINOWSKIM,etal.Learningtonavigateincitieswithoutamap

LIA,HUH,MIROWSKIP,etal.Cross-viewpolicylearningforstreetnavigation

HERMANNKM,MALINOWSKIM,MIROWSKIP,etal.Learningtofollowdirectionsinstreetview

CHANCáNM,MILFORDM.CityLearn:diversereal-worldenvironmentsforsample-efficientnavigationpolicylearning

孙长银,穆朝絮.多智能体深度强化学习的若干关键科学问题

SUNCY,MUCX.Importantscientificproblemsofmulti-agentdeepreinforcementlearning

OROOJLOOYJADIDA,HAJINEZHADD.Areviewofcooperativemulti-agentdeepreinforcementlearning

OMIDSHAFIEIS,PAZISJ,AMATOC,etal.Deepdecentralizedmulti-taskmulti-agentreinforcementlearningunderpartialobservability

MATIGNONL,LAURENTGJ,LEFORT-PIATN.HystereticQ-learning:analgorithmfordecentralizedreinforcementlearningincooperativemulti-agentteams

FOERSTERJ,NARDELLIN,FARQUHARG,etal.Stabilisingexperiencereplayfordeepmulti-agentreinforcementlearning

PALMERG,TUYLSK,BLOEMBERGEND,etal.Lenientmulti-agentdeepreinforcementlearning

EVERETTR,ROBERTSS.Learningagainstnon-stationaryagentswithopponentmodellinganddeepreinforcementlearning

JINY,WEIS,YUANJ,etal.Stabilizingmulti-agentdeepreinforcementlearningbyimplicitlyestimatingotheragents’behaviors

LIUX,TANY.Attentiverelationalstaterepresentationindecentralizedmultiagentreinforcementlearning

GUPTAJK,EGOROVM,KOCHENDERFERM.Cooperativemulti-agentcontrolusingdeepreinforcementlearning

LOWER,WUY,TAMARA,etal.Multi-agentactor-criticformixedcooperative-competitiveenvironments

FOERSTERJ,FARQUHARG,AFOURAST,etal.Counterfactualmulti-agentpolicygradients

SUNEHAGP,LEVERG,GRUSLYSA,etal.Value-decompositionnetworksforcooperativemulti-agentlearning

MAOH,ZHANGZ,XIAOZ,etal.Modellingthedynamicjointpolicyofteammateswithattentionmulti-agentDDPG

IQBALS,SHAF.Actor-attention-criticformulti-agentreinforcementlearning

FOERSTERJN,ASSAELYM,DEFREITASN,etal.Learningtocommunicatewithdeepmulti-agentreinforcementlearning

SUKHBAATARS,SZLAMA,FERGUSR.Learningmultiagentcommunicationwithbackpropagation

JIANGJ,LUZ.Learningattentionalcommunicationformulti-agentcooperation

KIMD,MOONS,HOSTALLEROD,etal.Learningtoschedulecommunicationinmulti-agentreinforcementlearning

DASA,GERVETT,ROMOFFJ,etal.TarMAC:targetedmulti-agentcommunication

SHANIG,HECKERMAND,BRAFMANRI,etal.AnMDP-basedrecommendersystem

ZHAOX,XIAL,TANGJ,etal.Deepreinforcementlearningforsearch,recommendation,andonlineadvertising:asurvey

ZHAOX,XIAL,ZHANGL,etal.Deepreinforcementlearningforpage-wiserecommendations

ZHENGG,ZHANGF,ZHENGZ,etal.DRN:adeepreinforcementlearningframeworkfornewsrecommendation

THE END
1.离线强化学习算法集锦BCQ是一种离线行为克隆算法,从离线数据中学习策略,并通过Q值校正来改进性能。 2、BEAR (Bootstrapping Error Accumulation Reduction) BEAR是一种离线强化学习算法,通过利用离线数据进行训练,并使用自举方法来减少误差积累。 3、TD3-BC (Twin Delayed Deep Deterministic Policy Gradient with Behavior Cloning) https://blog.csdn.net/weixin_45616285/article/details/136629915
2.强化学习离线模型离线模型和在线模型强化学习离线模型 离线模型和在线模型 在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。 本文尝试列举一些常见的原因,为大家排查问题提供一点思路。 1. 离线、在线特征不一致https://blog.51cto.com/u_14499/11815202
3.离线强化学习(OfflineRL)总结(原理数据集算法复杂性分析离线强化学习(Offline RL)作为深度强化学习的子领域,其不需要与模拟环境进行交互就可以直接从数据中学习一套策略来完成相关任务,被认为是强化学习落地的重要技术之一。本文详细的阐述了强化学习到离线强化学习的发展过程,并就一些经典的问题进行了解释和说明。 https://cloud.tencent.com/developer/article/2119884
4.人工智能团队研究成果在TKDE发表:样本高效的离线转在线强化学习算法实验室人工智能团队在D4RL基准测试上进行了大量实验来说明本研究中提出的算法的优越性。实验结果表明,本研究提出的算法在样本效率方面显著优于最先进的离线转在线强化学习算法。 相关的研究成果近期发表在TKDE上,文章第一作者为吉林大学未来科学国际合作联合实验室博士生郭思源,通讯作者为吉林大学陈贺昌教授和常毅教授。http://icfs.jlu.edu.cn/info/1007/3101.htm
5.离线强化学习因此,离线强化学习(offline reinforcement learning)的目标是,在智能体不和环境交互的情况下,仅从已经收集好的确定的数据集中,通过强化学习算法得到比较好的策略。离线强化学习和在线策略算法、离线策略算法的区别如图 18-1 所示。图18-1 离线强化学习和在线策略算法、离线策略算法的区别https://hrl.boyuai.com/chapter/3/%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/
6.在对齐AI时,为什么在线方法总是优于离线方法?澎湃号·湃客AI 对齐是否必需在线强化学习? 对于这个问题,人们希望既知道其理论上的答案,也希望明晰实验给出的解答。 从实证角度看,相比于大家常用的在线 RLHF(由偏好建模和从模型采样组成),离线算法实现起来要简单得多,成本也低得多。因此,收集有关离线算法的充分性的证据可让 AI 对齐变得更加简单。另一方面,如果能明晰常用在https://www.thepaper.cn/newsDetail_forward_27434433
7.科学网—[转载]强化学习在资源优化领域的应用基于这种行业趋势,本文针对强化学习算法在资源优化领域的应用展开调研,帮助读者了解该领域最新的进展,学习如何利用数据驱动的方式解决资源优化问题。鉴于资源优化问题场景众多、设定繁杂,划分出3类应用广泛的资源优化问题,即资源平衡问题、资源分配问题、装箱问题,集中进行调研。在每个领域阐述问题的特性,并根据具体的问题特性https://blog.sciencenet.cn/blog-3472670-1312677.html
8.强化学习的基本概念在线学习和离线学习针对的是在强化学习模型在训练过程中交互数据的使用方式。在线学习的强化学习模型,会在一个交互之后,立即用本次交互得到的经验进行训练。而离线学习的强化学习模型,往往是先将多个交互的经验存储起来,然后在学习的时候,从存储的经验中取出一批交互经验来学习。 https://www.jianshu.com/p/28625d3a60e6
9.一种用于医学数据的强化学习算法模型构建方法和设备专利在线阅读 下载 引用 收藏 分享 打印 摘要:本发明涉及医学数据技术领域,具体涉及一种用于医学数据的强化学习算法模型构建方法和设备,在本申请中,结合了BCQ和CQL两种算法的优势,减少了离线强化学习中的外推误差,使得强化学习模型生成更合理的动作;并且为强化学习算法模型建立了损失函数,提升了原始动作的评分,降低了生成动https://d.wanfangdata.com.cn/patent/CN202311576836.1
10.NeurIPS2022赋能产业界的人工智能研究新趋势图1:自动强化学习算法框架(上);搜索过程可视化图(下) 自提升离线强化学习 论文链接:https://www.microsoft.com/en-us/research/publication/bootstrapped-transformer-for-offline-reinforcement-learning/ 项目主页:https://seqml.github.io/bootorl/ 随着强化学习在真实世界场景中的需求逐渐增大,作为一种新的强化学习https://www.msra.cn/zh-cn/news/features/neurips-2022-industry-ai
11.基于深度强化学习的水面无人艇路径跟踪方法4.为此,公开号为cn113625725a的中国专利就公开了《一种水面无人艇路径跟踪控制方法》,包括:设定期望跟踪路径,将期望跟踪路径离散化形成期望路径点阵;判断无人艇距离期望路径点阵的起始点的距离;根据设计参数和无人艇位置确定参考点的位置,根据路径曲率信息求得参考点处的曲率,然后根据制导算法公式求得加速度:计算由加https://www.xjishu.com/zhuanli/54/202210772926.html/
12.万字长文总结如何解决"稀疏奖励(SparseReward)"下的强化学习本文是对强化学习中行为克隆(Behavioral Cloning,BC)方法的改进,最新接收于 ICLR2020。本文使用了一个简单、稳定的奖励:将与示范状态下的示范动作相匹配的动作奖励 + 1,而其它动作奖励为 0,引入 Soft-Q-Learning 算法,提出了适用于高维、连续、动态环境的模仿学习算法。 https://www.zhuanzhi.ai/document/7f6d15f412639a573254a0f80300779a
13.一种基于深度强化学习的三维装箱方法.pdf想预览更多内容,点击免费在线预览全文 免费在线预览全文 本发明涉及一种基于深度强化学习的三维装箱方法,属于物流及物品装箱技术领域。该方法包括训练和使用两个阶段,在训练阶段通过DoubleDQN算法使用训练数据训练模型,从历史经验中学习;在使用阶段利用训练好的模型作为动作评判标准进行决策,产生具体的装箱方案。该方法将大https://max.book118.com/html/2023/0830/6152000235005221.shtm
14.仙启POLIXIR REVIVE SDK是一款数据驱动的强化学习(RL)工具包,它集成了南栖仙策的通用智能决策算法,专注于解决离线强化学习问题。该工具包利用历史数据来学习最优策略, 而无需与真实环境进行额外交互,从而实现决策过程的自动化并率先实现真实业务的落地。 商业版 https://revive.cn/sdk
15.基于可变保守程度离线强化学习的机器人运动控制方法为了解决以保守Q学习(Conservative Q-Learning, CQL)为代表的离线强化学习算法保守程度固定不变,导致学习到的策略过于保守的问题,文中提出了一种名为可变保守程度Q学习(Variable Conservativeness Q-Learning, VCQL)的离线强化学习算法。VCQL算法在CQL算法的基础上引入了对于状态动作对偏离数据集的程度衡量,并能够根据偏https://wap.cnki.net/touch/web/Journal/Article/JZDF20240510007.html