CICC原创面向智能博弈的决策Transformer方法综述算法模态智能体大模型|在线强化学习和离线强化学习区别_在线学习

引用格式罗俊仁,张万鹏,苏炯铭,等.面向智能博弈的决策Transformer方法综述[J].指挥与控制学报,2023,9（1）:9-22.

LUOJR,ZHANGWP,SUJM,etal.Ondecision-makingtransformermethodsforintelligentgaming[J].JournalofCommandandControl,2023,9（1）:9-22.

摘要

如何为规划与决策领域的智能博弈问题设计新型求解框架仍充满挑战。本文围绕智能博弈问题展开,梳理各类问题的博弈模型,创新性构建智能博弈认知模型,探索性给出智能博弈问题的求解范式；重点梳理面向智能博弈问题求解的决策Transformer方法。

智能博弈与规划决策

1.1智能博弈简述

图1智能博弈标志性突破

Fig.1Remarkablebreakthroughsofintelligentgaming

1.2军事智能博弈

从早前的空战AlphaAI[12]至AlphaDogfight[13],美军在军事智能博弈领域展开了相当多的项目。2016年，美国辛辛那提大学与空军研究实验室合作开发了一个叫“AlphaAI”的机器飞行员，控制虚拟环境中的无人作战飞机完成飞行和打击等空战任务。2018年，美空军下一代自主无人战斗机智能平台Skyborg，计划2023年末之前实现自主无人战斗机的早期自主决策和作战能力；2019年5月宣布启动“空战演进”（aircombatevolution，ACE）项目，ACE项目旨在以人机协同“Dogfight”为挑战问题，进而开发可信、可扩展、人类水平、AI驱动的空战自主能力。

此外,2018年美国国防部高级研究计划局（DefenseAdvancedResearchProjectsAgency,DARPA）发起“面向复杂军事决策的非完美信息博弈序贯交互”项目,旨在自动化地利用呈指数增长的数据信息，将复杂系统的建模与推理相结合，从而辅助国防部快速认识、理解甚至是预测复杂国际和军事环境中的重要事件；2020年，DARPA通过其官网宣布为“打破游戏规则的人工智能探索”(Gamebreaker)项目，开发人工智能并将其应用于现有的即时策略海空战兵棋《指挥：现代作战》之中，以打破复杂的模型所造成的不平衡，旨在推动人工智能嵌入兵棋系统融合。2021年9月，由美国家安全创新网络办公室（NationalSecurityInnovationNetwork,NSIN）和美空军研究实验室（AirForceResearchLaboratory,AFRL）合作举办的人工智能指挥决策公开挑战赛落下帷幕，参赛选手们基于兵棋开发AI方法，实现各类指挥决策作战筹划快速生成。

1.3智能规划与决策

智能博弈问题求解

2.1智能博弈问题模型

图2智能博弈问题分类

Fig.2Classificationofintelligentgamingproblems

2.1.1协作式团队博弈

2.1.2竞争式零和博弈

2.1.3混合式一般和博弈

2.2智能博弈认知建模

从认知的角度分析，当前围绕智能博弈问题可建模成4类，如图3所示。

图3智能博弈认知建模模型

Fig.3Cognitivemodelingmodelsforintelligencegaming

1）基于完全/有限理性考虑的运筹型博弈模型：主要采用基于确定性机理模型的博弈搜索与在线优化方式提供智能。

2）面向经验匮乏的不确定性博弈模型：主要采用基于海量多源数据的高效学习与未知经验/知识习得。

3）挑战直觉和灵感的探索型博弈模型：主要采用基于平行数字孪生环境或元宇宙的试错（反馈）及迁移获得智能。

4）考量种群协同演化的群体交互型博弈模型：主要采用基于开放性群体多样性交互的种群演化。

2.3智能博弈求解方案

2.3.1智能博弈问题可信任解

围绕博弈问题的求解方法主要区分为离线与在线（训练与测试）两个阶段。对于多方博弈问题，由于环境（对手）的非平稳性、多解选择等问题使得博弈问题求解表现出“离线耦合、在线解耦”的状态。离线训练主要采用仿真环境模拟与对手的交互，获得离线采样数据，利用大规模计算方式得到蓝图策略或利用分布式强化学习方法得到预训练模型；在线博弈过程中，由于仅能控制己方策略，应对策略的生成处于解耦合状态，需要采用适应对手的反制策略。

从解概念的角度看，博弈问题的求解本质是设计高效的样本利用方法对问题的解空间进行探索，获得问题的可信任解，其中包括应对约束的安全解、应对不确定性扰动的鲁棒解、应对分布漂移考量泛化性的多样解，应对突发及意外情景的适变解，以及可解释解、公平解等。

2.3.2智能博弈策略训练平台

围绕如何将方法求解与分布式计算融合是学术界与工业界的共同聚焦点。受Alphastar启发，腾讯团队设计了基于启发式联赛训练的竞争式自对弈Tleague[24]，上海交通大学团队设计了基于策略评估的MALib[25]，这两类开源的分布式学习平台为求解大规模博弈问题提供了可参考的通用解决方案。随着智能体个数的增加，多样化的智能体种群表现出协同演化的性质。从种群视角看，分布式学习为种群的智能演进提供了超实时支持。

2.3.3智能博弈问题求解范式

1）基于知识与搜索

从绝对理性假设出发，充分利用专家知识、打分，设计启发式，外部知识等方式引导博弈树搜索，从早期的极小-极大搜索、蒙特卡洛树搜索（Montecarlotreesearch,MCTS）、信息集MCTS、分层任务网络MCTS等。

2）基于博弈理论学习

从交互的角度分析博弈多方策略之间的合作与竞争关系，通过构建考虑对手的策略迭代式学习、策略优化式学习等方法，利用模拟或在线交互场景样本数据优化策略。

围绕博弈问题的基准学习方法主要分为三大类：基于反事实后悔值最小化(counterfactualregretminimization,CFR)类方法[19]，基于虚拟自对弈(fictitiousselfplay,FSP)类方法[20]，基于元博弈的策略空间响应预言机(policyspaceresponseoracle,PSRO)类方法[21]。作为一类利用仿真器模拟的博弈策略学习方法，PSRO类方法将经验博弈论分析(empiricalgametheoreticanalysis,EGTA)方法[22]扩展成迭代式自动化方法，已然成为当前的研究基准方法范式，其本质上是一类基于种群的增量迭代式训练方法，其求解流程如图4所示[23]。此外，基于优先级的虚拟自对弈(PFSP)方法是当前工程实践过程中经常被采用的一种启发式范式[8]。

图4策略空间响应预言机方法

Fig.4Policyspaceresponseoraclemethods

3）基于模型与适变

由于真实博弈过程中，局中人策略通常处于非耦合状态，策略的学习展现出两阶段特点，训练（离线）—测试（在线）各阶段的聚焦点亦有所区别。从“预训练与微调”到“基石模型与情境学习”，基于模型与适变的求解范式为当前博弈问题的求解提供了指引。如图5所示，离线训练与学习和在线测试与适应框架。

图5离线训练与学习和在线测试与适应

Fig.5Offlinetraining&learningandonlinetest&adaptation

决策Transformer方法

本章主要从智能博弈问题求解的第3种范式切入,介绍决策Transformer的两种实现途径,重点对比分析架构增强类决策Transformer和序列建模类决策Transformer方法,分析面临的挑战并进行前沿展望。

3.1决策Transformer基础

3.1.1Transformer模型

Transformer采用了“编码-解码”结构,利用词嵌入与位置嵌入的方式将序列信息进行编码用于网络输入,内部利用多头注意力网络,其网络架构如图6所示.

图6Transformer网络架构Fig.6NetworkarchitectureforTransformer

由于采用了一次性输入一个序列的方式,仅用注意力而非卷积来做特征抽取,Transformer的出现在自然语言处理领域率先引发了变革,而后扩展至计算机视觉、智能博弈等领域。

3.1.2典型博弈Transformer方法

文本类：由于Transformer在自然语言领域取得了重大成就,一些研究尝试在文本类游戏中运用Transformer。XU等针对文字冒险类游戏,设计了基于Transformer的深度强化学习方法[29].ADHIKARI等针对文字类游戏,设计了一种基Transformer的动态信念图表示策略学习方法[30]。FURMAN等针对文字游戏中的问答问题,设计了基于GPT-2因果Transformer的序列建模方法[31]。

棋牌类：NOEVER等设计了掌握国际象棋玩法的生成语言模型[32]；面向围棋,CIOLINO等设计了基于Transformer的自然语言建模方法[33]。

视频类：BAKE等围绕Minecraft设计了基于视频的预训练模型,可以通过观看未标注在线视频来做动作[34].。WEI等围绕MPE环境设计了基于RNN与Transformer的层次MADDPG混合合作竞争策略学习方法[35]。REED等提出具身智能通才智能体Gato,嵌入多类标记化信息,具有同样权重的同样网络可以完成多类仿真控制、视觉与语言、机器人搭积木等任务[36]。

3.1.3Transformer架构变换

围绕Transformer的典型架构变换方法[37]如图7所示,与左侧标准Transformer架构不一样的是,中间TrXL-I架构将层正则化作为子模块的输入流,再加上剩余的连接,就有一个从输出流到输入的梯度路径,无需任何转换,右侧GTrXL架构,额外增加了一个门控层,以取代TrXL-I的残差连接。

图7Transformer变体网络架构Fig.7NetworkarchitectureforTransformervariants

3.1.4离线强化学习与轨迹优化

利用离线强化学习方法获得预训练模型是一类样本利用率高的策略学习方法。与在线强化学习与异策强化学习方法不同,离线强化学习得到的离线策略可通过微调的方式用于在线与异策强化学习,如图8所示。当前主要的离线强化学习方法可分为策略约束类、重要性采样类、正则化学习类、不确定性估计类、基于模型的方法、单步方法、模仿学习类和轨迹优化类[38]。

图8三类强化学习方法Fig.8Threekindsofreinforcementlearningmethods

3.2架构增强决策Transformer

架构增强决策Transformer方法是面向决策基石模型的表示学习类方法。

3.2.1表示学习

维基Transformer：REID等提出利用大规模现成的维基百科知识来辅助训练离线强化学习[40]。MINECLIP：FAN等提出利用大规模的互联网知识来构建开放式具身智能体[41]。TOV-VICReg：GOULAO等提出利用自监督学习来预训练视觉Transformer,可以捕捉连续帧之间的时序关系[42]。SwinTransformer：MENG等提出利用SwinTransformer的强化学习方法,尝试将智能体在环境中的规划输入改成视图输入[43]。视觉Transformer：TAO等提出利用视觉Transformer来处理图像（像素）输入和自监督学习方法来训练强化学习策略[44]。IRIS：MICHELI等提出利用Transformer来学习样本效率高的世界模型[45]。

3.2.2网络组合

DTQN：ESSLINGER等利用Transformer和自注意力来编码智能体的历史信息来求解部分可观强化学习问题[46]。Updet：HU等基于Transformer的模型,通过使用自注意力机制确定的重要性权重,将策略分布与交织的观测输入解耦,生成灵活的策略[47]。TransfQMix：GALLICI等利用Transformer来学习潜在图结构,可以从包含智能体内部和外部状态的大图中学习单调混合函数,具备团队规模扩展性[48]。TransMix：KHAN等提出基于Transformer的值函数分解方法,学习多个智能体的联合动作混合策略,具备可扩展性[49]。ATM：YANG等提出智能体Transformer记忆网络,可同时处理顺序工作记忆和其他空间实体信息,通过动作语义归纳偏差将实体嵌入与动作一一绑定[50]。T3OMVP：YUAN等引入Transformer处理观测序列来实现多车协同,无需策略解耦[51]。

3.2.3模型扩展

3.3序列建模决策Transformer

序列建模决策Transformer方法是面向决策基石模型的条件生成类方法。

3.3.1离线预训练

3.3.2在线适变

3.3.3模型扩展

表3序列建模决策Transformer的各类方法及特点Table3MethodsandfeaturesofdecisionTransformerwithsequencemodeling

3.4挑战及展望

3.4.1面临的挑战

环境模型：由于预训练与微调所对应的场景不同,分布偏移导致直接利用离线学习策略可能输出次优动作。如何应对随机环境[76]、最优偏差[77]、不确定[78]等都是当前面临的挑战。

博弈预训练：当前多类方法均从是决策理论、优化单方目标的角度设计的,多方（智能体）的连续（序贯）对抗场景均可采用基于交互的博弈理论建模,如何设计面向均衡解的离线博弈学习方法,考虑离线均衡搜寻[79]、离线博弈对抗数据分布[80]、分析离线博弈策略的可学习性[81]等仍是当前面临的挑战。

情境学习：从一般的小型预训练模型到大型的基石模型,如何提高模型的适应性仍是当前面临的挑战,利用情境学习方法[82],可以逐渐提高算法应对新场景新任务的能力。

3.4.2前沿发展

Transformer结构：随着各类基础模型的迭代更新,分布Transformer结构的重要性[83]，改进Transformer的结构模型是值得研究的方向。人工智能生成基石模型：与判别式人工智能不同,生成式人工智能模型探索未知策略空间提供了方法途径,条件生成建模[84]等生成式人工智能方向值得研究。

多模态交互决策：多种模态信息流转为交互式决策提出了挑战,如何利用好Transformer等架构,输入自然语言指令[85]和其他不同模态[86]信息值得探索。此外,多种模态的基石模型可用作“即插即用”（plugand-play）模块,辅助智能决策。

结论

博弈强对抗环境下，如何响应高动态性、不确定性、高复杂性对抗，给出自适应可信任应对策略，均是智能博弈问题求解的重要课题。方法的集成本质是为了提高问题求解的样本效率、策略的泛化性、鲁棒性、安全性、可信任性等，但如何自洽融合、模块适配求解智能博弈问题仍是一个开放性问题。人工智能算法与GPU算力的完美结合为各研究领域带了范式革命，基于云原生基础设施的决策预训练模型已然到来。

本文介绍了智能博弈问题的3类博弈模型、分析了4类博弈认知模型、给出了智能博弈求解方案，着力设计了智能博弈问题求解的集成框架，深入分析了决策Transformer预训练方法。可以为智能兵棋推演、智能战略博弈、智能蓝军、智能决策辅助等项目提供综合式策略集成学习解决方案。决策基石模型的生成与服务化是一种可行方案，可为分布式对抗场景下的智能指挥决策提供支撑。

References

[1]黄凯奇,兴军亮,张俊格,等.人机对抗智能技术[J].中国科学:信息科学,2020,50（4）:540-550.HUANGKQ,XINGJL,ZHANGJG,etal.Intelligenttechnologiesofhuman-computergaming[J].SCIENTIASINICAInformationis,2020,50（4）:540-550.

[3]DAIZ,YANGZ,YANGY,etal.Transformer-XL:attentivelanguagemodelsbeyondafixed-lengthcontext[C]//Proceedingsofthe57thAnnualMeetingoftheAssociationforComputationalLinguistics,2019:2978-2988.

[4]CHENL,LUK,RAJESWARANA,etal.Decisiontransformer:reinforcementlearningviasequencemodeling[C]//Thirty-FifthConferenceonNeuralInformationProcessingSystems,2021,34:15084-15097.

[8]SILVERD,SCHRITTWIESER,SIMONYANK,etal.MasteringthegameofGowithouthumanknowledge[J].Nature,2017,550（7676）:354-359.

[9]SILVERD,HUBERTT,SCHRITTWIESERJ,etal.Ageneralreinforcementlearningalgorithmthatmasterschess,shogi,andgothroughself-play[J].Science,2018,362（6419）:1140-1144.[10]ZHAOE,YANR,LIJ,etal.AlphaHoldem:high-performanceartificialintelligenceforheads-upno-limittexashold’emfromend-to-endreinforcementlearning[C]//ProceedingsoftheAAAIConferenceonArtificialIntelligence.2022,36（4）:4689-4697.

[11]VINYALSO,BABUSCHKINI,CZARNECKIWM,etal.GrandmasterlevelinStarCraftIIusingmulti-agentreinforcementlearing[J].Nature,2019,575（7782）:350-354.

[12]ERNESTND.Geneticfuzzytreesforintelligentcontrolofunmannedcombataerialvehicles[D].Cincinnati:UniversityofCincinnati,2015.

[14]ZACHARIASGL.Autonomoushorizons:thewayforward[R].WashingtonD.C.:OfficeoftheUSAirForceChiefScientist,2019.

[15]GEORGEIS.FirestormAIsystempreparesforjointrole[J].SignalMagzine,2021,33:6-22.

[16]MATTHEWW,LANCEM,EDWARDG,etal.Exploringthefeasibilityandutilityofmachinelearning-assistedcommandandcontrol[R].RANDCorporation,SantaMonica,Calif,2021.

[21]HUJ,WELLMANMP.NashQ-learningforgeneral-sumstochasticgames[J].JournalofMachineLearningResearch,2003,4:1039-1069.

[24]ZINKEVICHM,JOHANSONM,BOWLINGM,etal.Regretminimizationingameswithincompleteinformation[J].AdvancesinNeuralInformationProcessingSystems,2007（20）:1729-1736.

[25]HEINRICHJ,LANCTOTM,SILVERD.Fictiousself-playinextensive-formgames[C]//InternationalConferenceonMachineLearning.PMLR,2015:805-813.

[26]LANCTOTM,ZAMBALDIV,GRUSLYSA,etal.Aunifiedgame-theoreticapproachtomultiagentreinforcementlearning[C]//Proceedingsofthe31stInternationalConferenceonNeuralInformationProcessingSystems,2017:4193-4206.

[27]TUYLSK,PEROLATJ,LANCTOTM,etal.Ageneralizedmethodforempiricalgametheoreticanalysis[C]//Proceedingsofthe17thInternationalConferenceonAutonomousAgentsandMultiAgentSystems,Richland,SC,2018:77-85.

[28]MULLERP,OMIDSHAFIEIS,ROWLANDM,ETAL.Ageneralizedtrainingapproachformultiagentlearning[C]//InternationalConferenceonLearningRepresentations,2019.

[29]XUY,CHENY,FANGM,etalDeepreinforcementlearningwithtransformersfortextadventuregames[C]//IEEEConferenceonGames.Osaka,Japan,2020:65-72.

[30]ADHIKARIA,YUANX,MACT,etal.Learningdynamicbeliefgraphstogeneralizeontext-basedgames[C]//Thirty-FourthAnnualConferenceonNeuralInformationProcessingSystems.Vancouver,Canada,2020:3045-3057.

[31]FURMANG,TOLEDOE,SHOCKJ,etal.Asequencemodellingapproachtoquestionansweringintext-basedgames[C]//AssociationforComputationalLinguistics,GregoryFurman,2022.

[33]CIOLINOM,NOEVERD,KALINJ.Thegotransformer:naturallanguagemodelingforgameplay[C]//2020ThirdInternationalConferenceonArtificialIntelligenceforIndustries（AI4I）,Irvine,CA,USA,2020:23-26.

[34]BAKEB,AKKAYAI,ZHOKHOVP,etal.VideoPreTraining（VPT）:learningtoactbywatchingunlabeledonlinevideos[C]//Thirty-SixthAnnualConferenceonNeuralInformationProcessingSystems,NewOrleans,2022.

[35]WEIX,HUANGX,YANGLF,etal.HierarchicalRNNsbasedtransformersMADDPGformixedcooperative-competitiveenvironments[J].JournalofIntelligent&FuzzySystems,2022,43（1）:1011-1022.

[36]REEDS,ZOLNAK,PARISOTTOE,etal.Ageneralistagent[J].TransactionsonMachineLearningResearch,2022:2835-8856.

[37]PARISOTTOE,SONGF,RAEJ,etal.Stabilizingtransformersforreinforcementlearning[C]//InternationalConferenceonMachineLearning.PMLR,2020:7487-7498.

[41]FANL,WANGG,JIANGY,etal.Minedojo:buildingopen-endedembodiedagentswithinternet-scaleknowledge[C]//Thirty-sixthConferenceonNeuralInformationProcessingSystemsDatasetsandBenchmarksTrack,2022.

[42]GOULAOM,OLIVEIRAAL.Pretrainingthevisiontransformerusingself-supervisedmethodsforvisionbaseddeepreinforcementlearning[C]//DeepReinforcementLearningWorkshopNeurIPS,2022.

[45]MICHELIV,ALONSOE,FLEURETF.Transformersaresample-efficientworldmodels[C]//DeepReinforcementLearningWorkshopNeurIPS,2022.

[46]ESSLINGERK,PLATTR,AMATOC.DeeptransformerQ-networksforpartiallyobservablereinforcementlearning[C]//NeurIPS2022FoundationModelsforDecisionMakingWorkshop,2022.

[47]HUS,ZHUF,CHANGX,etal.UPDET:Universalmultiagentreinforcementlearningviapolicydecouplingwithtransformers[C]//InternationalConferenceonLearningRepresentations.Vienna,Austria,2021.

[49]KHANMJ,AHMEDSH,SUKTHANKARG.Transformer-basedvaluefunctiondecompositionforcooperativemulti-agentreinforcementlearninginstarcraft[C]//ProceedingsoftheAAAIConferenceonArtificialIntelligenceandInteractiveDigitalEntertainment,2022,18（1）:113-119.

[50]YANGY,CHENG,WANGW,etal.Transformer-basedworkingmemoryformultiagentreinforcementlearningwithactionparsing[C]//AdvancesinNeuralInformationProcessingSystems,2022.

[51]YUANZ,WUT,WANGQ,etal.T3OMVP:atransformerbasedtimeandteamreinforcementlearningschemeforobservation-constrainedmulti-vehiclepursuitinurbanarea[J].Electronics,2022,11（9）:1339.

[52]MELOLC.Transformersaremeta-reinforcementlearners[C]//InternationalConferenceonMachineLearning.PMLR,2022:15340-15359.

[54]JANNERM,LIQ,LEVINES.Offlinereinforcementlearningasonebigsequencemodelingproblem[J].AdvancesinNeuralInformationProcessingSystems,2021,34:1273-1286.

[55]WANGK,ZHAOH,LUOX,etal.Bootstrappedtransformerforofflinereinforcementlearning[C]//Thirty-SixthConferenceonNeuralInformationProcessingSystems.NewOrleans,2022.

[56]CARROLLM,LINJ,PARADISEO,etal.Towardsflexibleinferenceinsequentialdecisionproblemsviabidirectionaltransformers[C]//ICLR2022WorkshoponGeneralizablePolicyLearninginPhysicalWorld,2022.

[58]KONANSG,SERAJE,GOMBOLAYM.Contrastivedecisiontransformers[C]//6thAnnualConferenceonRobotLearning,2022.

[60]VILLAFLORAR,HUANGZ,PANDES,etal.Addressingoptimismbiasinsequencemodelingforreinforcementlearning[C]//InternationalConferenceonMachineLearning.PMLR,2022:22270-22283.

[63]ZHENGQ,ZHANGA,GROVERA.Onlinedecisiontransformer[C]//InternationalConferenceonMachineLearning.PMLR,2022:27042-27059.

[64]XUM,SHENY,ZHANGS,etal.Promptingdecisiontransformerforfew-shotpolicygeneralization[C]//InternationalConferenceonMachineLearning.PMLR,2022:24631-24645.

[66]XUM,LUY,SHENY,etal.Hyper-decisiontransformerforefficientonlinepolicyadaptation[C]//NeurIPS2022FoundationModelsforDecisionMakingWorkshop,2022.

[67]LINR,LIY,FENGX,etal.Contextualtransformerforofflinemetareinforcementlearning[C]//NeurIPS2022FoundationModelsforDecisionMakingWorkshop,2022.

[70]LEEKH,NACHUMO,YANGS,etal.Multi-Gamedecisiontransformers[C]//Thirty-SixthConferenceonNeuralInformationProcessingSystems.NewOrleans,2022.

[73]SHANGJ,LIX,KAHATAPITIYAK,etal.StARformer:transformerwithstate-action-rewardrepresentationsforrobotlearning[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2022,26:67-76.

[77]VILLAFLORAR,HUANGZ,PANDES,etal.Addressingoptimismbiasinsequencemodelingforreinforcementlearning[C]//InternationalConferenceonMachineLearning.PMLR,2022:22270-22283.

[78]NGUYENT,GROVERA.Transformerneuralprocesses:uncertainty-awaremetalearningviasequencemodeling[C]//InternationalConferenceonMachineLearning.PMLR,2022:16569-16594.

[80]ZHONGH,XIONGW,TANJ,etal.Pessimisticminimaxvalueiteration:provablyefficientequilibriumlearningfromofflinedatasets[C]//InternationalConferenceonMachineLearning.PMLR,2022:27117-27142.

[83]SIEBENBORNM,BELOUSOVB,HUANGJ,etal.Howcrucialistransformerindecisiontransformer[C]//NeurIPS2022FoundationModelsforDecisionMakingWorkshop,2022.

[85]LIX,ZHANGY,LUOJ,etal.Pre-trainedbertfornaturallanguageguidedreinforcementlearninginatarigame[C]//34thChineseControlandDecisionConference.IEEE,2022:5119-5124.[86]TAKAGIS.Ontheeffectofpre-trainingfortransformerindifferentmodalityonofflinereinforcementlearning[C]//Thirty-SixthConferenceonNeuralInformationProcessingSystems.NewOrleans,2022.

作者简介

罗俊仁（1989-）,男,博士研究生,主要研究方向为不完美信息博弈、多智能体学习。张万鹏（1981-）,男,博士,研究员,博士生导师,主要研究方向为大数据智能、智能演进。苏炯铭（1984-）,男,博士,副研究员,主要研究方向为智能博弈、可解释性学习。王尧（1996-）,男,硕士研究生,主要研究方向为演化强化学习。陈璟（1972-）,男,博士,教授,博士生导师,主要研究方向为认知决策博弈、分布式智能。

THE END

CICC原创面向智能博弈的决策Transformer方法综述算法模态智能体大模型

强化学习和在线学习的区别是什么?Worktile社区

强化学习图鉴｜你与最优策略之间，可能还差一本离线强化学习秘籍

今天来讨论下离线强化学习方法

大模型面经答案—强化学习：理论解释与讲解

AWAC：使用离线数据集加速在线强化学习技术博客技术支持京天机器人官网

机器学习中的集成在线批量迁移……各种学习的区别哆啦梦乐园

扩散模型如何构建新一代决策智能体？超越自回归，同时生成长序列规划轨迹智能体新浪科技

强化学习研究综述.docx

ADL120《深度强化学习》开始报名

资源学到了！UCBerkeleyCS294深度强化学习课程（附视频与PPT）

推特爆款：谷歌大脑工程师的深度强化学习劝退文

光盘行动的真正含义范文

CICC原创面向智能博弈的决策Transformer方法综述算法模态智能体大模型

ChatGPT发展历程原理技术架构详解和产业未来