面向智能博弈的决策Transformer方法综述

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2023.08.01北京

摘要

如何为规划与决策领域的智能博弈问题设计新型求解框架仍充满挑战。本文围绕智能博弈问题展开,梳理各类问题的博弈模型,创新性构建智能博弈认知模型,探索性给出智能博弈问题的求解范式;重点梳理面向智能博弈问题求解的决策Transformer方法。

1、智能博弈与规划决策

1.1智能博弈简述

图1智能博弈标志性突破

Fig.1Remarkablebreakthroughsofintelligentgaming

1.2军事智能博弈

从早前的空战AlphaAI至AlphaDogfight,美军在军事智能博弈领域展开了相当多的项目。2016年,美国辛辛那提大学与空军研究实验室合作开发了一个叫“AlphaAI”的机器飞行员,控制虚拟环境中的无人作战飞机完成飞行和打击等空战任务。2018年,美空军下一代自主无人战斗机智能平台Skyborg,计划2023年末之前实现自主无人战斗机的早期自主决策和作战能力;2019年5月宣布启动“空战演进”(aircombatevolution,ACE)项目,ACE项目旨在以人机协同“Dogfight”为挑战问题,进而开发可信、可扩展、人类水平、AI驱动的空战自主能力。

此外,2018年美国国防部高级研究计划局(DefenseAdvancedResearchProjectsAgency,DARPA)发起“面向复杂军事决策的非完美信息博弈序贯交互”项目,旨在自动化地利用呈指数增长的数据信息,将复杂系统的建模与推理相结合,从而辅助国防部快速认识、理解甚至是预测复杂国际和军事环境中的重要事件;2020年,DARPA通过其官网宣布为“打破游戏规则的人工智能探索”(Gamebreaker)项目,开发人工智能并将其应用于现有的即时策略海空战兵棋《指挥:现代作战》之中,以打破复杂的模型所造成的不平衡,旨在推动人工智能嵌入兵棋系统融合。2021年9月,由美国家安全创新网络办公室(NationalSecurityInnovationNetwork,NSIN)和美空军研究实验室(AirForceResearchLaboratory,AFRL)合作举办的人工智能指挥决策公开挑战赛落下帷幕,参赛选手们基于兵棋开发AI方法,实现各类指挥决策作战筹划快速生成。

1.3智能规划与决策

2、智能博弈问题求解

2.1智能博弈问题模型

图2智能博弈问题分类

Fig.2Classificationofintelligentgamingproblems

2.1.1协作式团队博弈

2.1.2竞争式零和博弈

2.1.3混合式一般和博弈

2.2智能博弈认知建模

从认知的角度分析,当前围绕智能博弈问题可建模成4类,如图3所示。

图3智能博弈认知建模模型

Fig.3Cognitivemodelingmodelsforintelligencegaming

1)基于完全/有限理性考虑的运筹型博弈模型:主要采用基于确定性机理模型的博弈搜索与在线优化方式提供智能。

2)面向经验匮乏的不确定性博弈模型:主要采用基于海量多源数据的高效学习与未知经验/知识习得。

3)挑战直觉和灵感的探索型博弈模型:主要采用基于平行数字孪生环境或元宇宙的试错(反馈)及迁移获得智能。

4)考量种群协同演化的群体交互型博弈模型:主要采用基于开放性群体多样性交互的种群演化。

2.3智能博弈求解方案

2.3.1智能博弈问题可信任解

围绕博弈问题的求解方法主要区分为离线与在线(训练与测试)两个阶段。对于多方博弈问题,由于环境(对手)的非平稳性、多解选择等问题使得博弈问题求解表现出“离线耦合、在线解耦”的状态。离线训练主要采用仿真环境模拟与对手的交互,获得离线采样数据,利用大规模计算方式得到蓝图策略或利用分布式强化学习方法得到预训练模型;在线博弈过程中,由于仅能控制己方策略,应对策略的生成处于解耦合状态,需要采用适应对手的反制策略。

从解概念的角度看,博弈问题的求解本质是设计高效的样本利用方法对问题的解空间进行探索,获得问题的可信任解,其中包括应对约束的安全解、应对不确定性扰动的鲁棒解、应对分布漂移考量泛化性的多样解,应对突发及意外情景的适变解,以及可解释解、公平解等。

2.3.2智能博弈策略训练平台

围绕如何将方法求解与分布式计算融合是学术界与工业界的共同聚焦点。受Alphastar启发,腾讯团队设计了基于启发式联赛训练的竞争式自对弈Tleague,上海交通大学团队设计了基于策略评估的MALib,这两类开源的分布式学习平台为求解大规模博弈问题提供了可参考的通用解决方案。随着智能体个数的增加,多样化的智能体种群表现出协同演化的性质。从种群视角看,分布式学习为种群的智能演进提供了超实时支持。

2.3.3智能博弈问题求解范式

1)基于知识与搜索

从绝对理性假设出发,充分利用专家知识、打分,设计启发式,外部知识等方式引导博弈树搜索,从早期的极小-极大搜索、蒙特卡洛树搜索(Montecarlotreesearch,MCTS)、信息集MCTS、分层任务网络MCTS等。

2)基于博弈理论学习

从交互的角度分析博弈多方策略之间的合作与竞争关系,通过构建考虑对手的策略迭代式学习、策略优化式学习等方法,利用模拟或在线交互场景样本数据优化策略。

围绕博弈问题的基准学习方法主要分为三大类:基于反事实后悔值最小化(counterfactualregretminimization,CFR)类方法,基于虚拟自对弈(fictitiousselfplay,FSP)类方法,基于元博弈的策略空间响应预言机(policyspaceresponseoracle,PSRO)类方法。作为一类利用仿真器模拟的博弈策略学习方法,PSRO类方法将经验博弈论分析(empiricalgametheoreticanalysis,EGTA)方法扩展成迭代式自动化方法,已然成为当前的研究基准方法范式,其本质上是一类基于种群的增量迭代式训练方法,其求解流程如图4所示。此外,基于优先级的虚拟自对弈(PFSP)方法是当前工程实践过程中经常被采用的一种启发式范式。

图4策略空间响应预言机方法

Fig.4Policyspaceresponseoraclemethods

3)基于模型与适变

由于真实博弈过程中,局中人策略通常处于非耦合状态,策略的学习展现出两阶段特点,训练(离线)—测试(在线)各阶段的聚焦点亦有所区别。从“预训练与微调”到“基石模型与情境学习”,基于模型与适变的求解范式为当前博弈问题的求解提供了指引。如图5所示,离线训练与学习和在线测试与适应框架。

图5离线训练与学习和在线测试与适应

Fig.5Offlinetraining&learningandonlinetest&adaptation

3、决策Transformer方法

本章主要从智能博弈问题求解的第3种范式切入,介绍决策Transformer的两种实现途径,重点对比分析架构增强类决策Transformer和序列建模类决策Transformer方法,分析面临的挑战并进行前沿展望。

3.1决策Transformer基础

3.1.1Transformer模型

Transformer采用了“编码-解码”结构,利用词嵌入与位置嵌入的方式将序列信息进行编码用于网络输入,内部利用多头注意力网络,其网络架构如图6所示.

图6Transformer网络架构

Fig.6NetworkarchitectureforTransformer

由于采用了一次性输入一个序列的方式,仅用注意力而非卷积来做特征抽取,Transformer的出现在自然语言处理领域率先引发了变革,而后扩展至计算机视觉、智能博弈等领域。

3.1.2典型博弈Transformer方法

文本类:由于Transformer在自然语言领域取得了重大成就,一些研究尝试在文本类游戏中运用Transformer。XU等针对文字冒险类游戏,设计了基于Transformer的深度强化学习方法.ADHIKARI等针对文字类游戏,设计了一种基Transformer的动态信念图表示策略学习方法。FURMAN等针对文字游戏中的问答问题,设计了基于GPT-2因果Transformer的序列建模方法。

棋牌类:NOEVER等设计了掌握国际象棋玩法的生成语言模型;面向围棋,CIOLINO等设计了基于Transformer的自然语言建模方法。

视频类:BAKE等围绕Minecraft设计了基于视频的预训练模型,可以通过观看未标注在线视频来做动作。WEI等围绕MPE环境设计了基于RNN与Transformer的层次MADDPG混合合作竞争策略学习方法。REED等提出具身智能通才智能体Gato,嵌入多类标记化信息,具有同样权重的同样网络可以完成多类仿真控制、视觉与语言、机器人搭积木等任务。

3.1.3Transformer架构变换

围绕Transformer的典型架构变换方法如图7所示,与左侧标准Transformer架构不一样的是,中间TrXL-I架构将层正则化作为子模块的输入流,再加上剩余的连接,就有一个从输出流到输入的梯度路径,无需任何转换,右侧GTrXL架构,额外增加了一个门控层,以取代TrXL-I的残差连接。

图7Transformer变体网络架构

Fig.7NetworkarchitectureforTransformervariants

3.1.4离线强化学习与轨迹优化

利用离线强化学习方法获得预训练模型是一类样本利用率高的策略学习方法。与在线强化学习与异策强化学习方法不同,离线强化学习得到的离线策略可通过微调的方式用于在线与异策强化学习,如图8所示。当前主要的离线强化学习方法可分为策略约束类、重要性采样类、正则化学习类、不确定性估计类、基于模型的方法、单步方法、模仿学习类和轨迹优化类。

图8三类强化学习方法

Fig.8Threekindsofreinforcementlearningmethods

3.2架构增强决策Transformer

架构增强决策Transformer方法是面向决策基石模型的表示学习类方法。

3.2.1表示学习

维基Transformer:REID等提出利用大规模现成的维基百科知识来辅助训练离线强化学习。MINECLIP:FAN等提出利用大规模的互联网知识来构建开放式具身智能体。TOV-VICReg:GOULAO等提出利用自监督学习来预训练视觉Transformer,可以捕捉连续帧之间的时序关系。SwinTransformer:MENG等提出利用SwinTransformer的强化学习方法,尝试将智能体在环境中的规划输入改成视图输入。视觉Transformer:TAO等提出利用视觉Transformer来处理图像(像素)输入和自监督学习方法来训练强化学习策略。IRIS:MICHELI等提出利用Transformer来学习样本效率高的世界模型。

3.2.2网络组合

DTQN:ESSLINGER等利用Transformer和自注意力来编码智能体的历史信息来求解部分可观强化学习问题。Updet:HU等基于Transformer的模型,通过使用自注意力机制确定的重要性权重,将策略分布与交织的观测输入解耦,生成灵活的策略。TransfQMix:GALLICI等利用Transformer来学习潜在图结构,可以从包含智能体内部和外部状态的大图中学习单调混合函数,具备团队规模扩展性。TransMix:KHAN等提出基于Transformer的值函数分解方法,学习多个智能体的联合动作混合策略,具备可扩展性。ATM:YANG等提出智能体Transformer记忆网络,可同时处理顺序工作记忆和其他空间实体信息,通过动作语义归纳偏差将实体嵌入与动作一一绑定。T3OMVP:YUAN等引入Transformer处理观测序列来实现多车协同,无需策略解耦。

3.2.3模型扩展

3.3序列建模决策Transformer

序列建模决策Transformer方法是面向决策基石模型的条件生成类方法。

3.3.1离线预训练

3.3.2在线适变

3.3.3模型扩展

表3序列建模决策Transformer的各类方法及特点

Table3MethodsandfeaturesofdecisionTransformerwith

sequencemodeling

3.4挑战及展望

3.4.1面临的挑战

环境模型:由于预训练与微调所对应的场景不同,分布偏移导致直接利用离线学习策略可能输出次优动作。如何应对随机环境、最优偏差、不确定等都是当前面临的挑战。

博弈预训练:当前多类方法均从是决策理论、优化单方目标的角度设计的,多方(智能体)的连续(序贯)对抗场景均可采用基于交互的博弈理论建模,如何设计面向均衡解的离线博弈学习方法,考虑离线均衡搜寻、离线博弈对抗数据分布、分析离线博弈策略的可学习性等仍是当前面临的挑战。

情境学习:从一般的小型预训练模型到大型的基石模型,如何提高模型的适应性仍是当前面临的挑战,利用情境学习方法,可以逐渐提高算法应对新场景新任务的能力。

3.4.2前沿发展

Transformer结构:随着各类基础模型的迭代更新,分布Transformer结构的重要性,改进Transformer的结构模型是值得研究的方向。人工智能生成基石模型:与判别式人工智能不同,生成式人工智能模型探索未知策略空间提供了方法途径,条件生成建模等生成式人工智能方向值得研究。

多模态交互决策:多种模态信息流转为交互式决策提出了挑战,如何利用好Transformer等架构,输入自然语言指令和其他不同模态信息值得探索。此外,多种模态的基石模型可用作“即插即用”(plugand-play)模块,辅助智能决策。

4、结论

博弈强对抗环境下,如何响应高动态性、不确定性、高复杂性对抗,给出自适应可信任应对策略,均是智能博弈问题求解的重要课题。方法的集成本质是为了提高问题求解的样本效率、策略的泛化性、鲁棒性、安全性、可信任性等,但如何自洽融合、模块适配求解智能博弈问题仍是一个开放性问题。人工智能算法与GPU算力的完美结合为各研究领域带了范式革命,基于云原生基础设施的决策预训练模型已然到来。

本文介绍了智能博弈问题的3类博弈模型、分析了4类博弈认知模型、给出了智能博弈求解方案,着力设计了智能博弈问题求解的集成框架,深入分析了决策Transformer预训练方法。可以为智能兵棋推演、智能战略博弈、智能蓝军、智能决策辅助等项目提供综合式策略集成学习解决方案。决策基石模型的生成与服务化是一种可行方案,可为分布式对抗场景下的智能指挥决策提供支撑。

THE END
1.多智能体强化学习知乎mob6454cc70863a的技术博客多智能体强化学习知乎 系统简介 基于ROBO-MAS多智能体自主协同高频投影定位系统通过采用ROBO-MAS桌面型群体智能机器人,在小型实验场地内通过高频光电投影定位技术实现机器人位置感知和数据通讯,实现“开放式群体智能研究和多智能体自主协同”的研究目标。 系统为群体智能研究和多机器人任务协同研究搭建基础科研平台,系统完全https://blog.51cto.com/u_16099271/12897860
2.强化学习中的分层强化技术层次强化学习强化学习中的分层强化技术 1. 背景介绍 强化学习是机器学习的一个重要分支,它通过在与环境的交互过程中学习获得最优解决方案的方法,在众多人工智能领域都有广泛的应用,如游戏AI、机器人控制、自动驾驶等。然而,在复杂的环境中,强化学习算法通常需要大量的交互样本和长时间的训练才能收敛到最优策略。为了提高强化学习的https://blog.csdn.net/universsky2015/article/details/137638544
3.2020年媒体技术趋势报告:13大领域89项变革全输出这时,研究者将尝试应用分层强化学习(Hierarchical Reinforcement Learning)——能够发现高水准的行动,有条理地克服学习困难,最终以出乎人类意料的速度掌握新的任务。RL可以提升AI系统的“智能”,来使汽车能在非常规条件下自动驾驶,或者协助军用无人机实现之前尚未实现过的复杂动作。 https://36kr.com/p/5267903
4.万字长文总结如何解决"稀疏奖励(SparseReward)"下的强化学习具体的,利用数据改进 agent 学习的方法包括好奇心驱动(Curiosity Driven)、奖励重塑(Reward Shaping)、模仿学习(Imitation Learning)、课程学习(Curriculum Learning)等等。改进模型的方法主要是执行分层强化学习(Hierarchical Reinforcement Learning),使用多层次的结构分别学习不同层次的策略来提高模型解决复杂问题的能力,以及https://www.zhuanzhi.ai/document/7f6d15f412639a573254a0f80300779a
5.科学网—[转载]强化学习在资源优化领域的应用随着强化学习在围棋、游戏等序列化决策领域大放异彩、在多智能体协作等领域取得较好表现,它的一些优秀特性也得到了资源优化领域的关注。首先,基于强化学习的解决方案决策非常高效。虽然强化学习策略的训练非常耗时,但是这些训练工作可以离线进行,实际中只需要利用训练好的模型进行推理,因而在绝大部分情况下可以做到近似实时https://blog.sciencenet.cn/blog-3472670-1312677.html
6.清华大学交叉信息研究院赵行团队在离线强化学习能够超越专家性能、无需危险环境交互的特性,提出了HsO-VP框架,实现了纯粹基于离线数据的长程运动规划。框架通过变分自编码器(VAE)从离线演示中学习技能,解决自动驾驶中的长期规划问题。设计了双分支序列编码器,有效应对后验坍塌问题。为自动驾驶车辆规划提供了一种新的强化学习方法。 https://iiis.tsinghua.edu.cn/show-10550-1.html
7.翁源县政务服务数据管理局2023年法治政府建设年度报告采用分层学习、考试检验的方式深入学习贯彻习近平总书记重要讲话重要指示精神,深入贯彻落实党的二十大关于法治建设重大部署。一是抓住“关键少数”,充分发挥“头雁效应”。将党的二十大精神、习近平法治思想列入理论学习中心组学习内容。今年通过党组会、理论学习中心组学习法治政府建设相关知识7次。二是全体干部职工学。采取“https://www.wengyuan.gov.cn/zwgk/zwjgk/content/post_2577142.html
8.从搜索到智能客服:阿里开放强化学习技术演进与实践书籍机器之心近日,阿里开放了一本描述强化学习在实践中应用的书籍《强化学习在阿里的技术演进与业务创新》,这本书重点描述了阿里巴巴在推动强化学习输出产品及商业化的实践过程。例如在在搜索场景中对用户的浏览购买行为进行 MDP 建模、在推荐场景中使用深度强化学习与自适应在线学习帮助每?个用户迅速发现宝贝、在智能客服中赋予阿里https://www.jiqizhixin.com/articles/2018-02-06-3
9.论文精读与思考:深度强化学习的组合优化研究进展组合优化“选择决策变量”与深度强化学习的“动作选择”很相似 优势:DRL“离线训练、在线决策”的特性可以解决组合优化中的“实时求解”问题 2.2 目前主要方法 2.2.1 基于DRL的端到端方法 具体方法介绍见第3章 定义:给定问题实例作为输入,利用训练好的深度神经网络直接输出问题的解。网络参数由DRL方法训练得到。 https://www.jianshu.com/p/3887528006d0
10.一文看懂什么是强化学习?(基本概念+应用嘲+主流算法)在线学习 VS 离线学习 详细请查看《强化学习方法汇总》 百度百科和维基百科 百度百科版本 强化学习(reinforcement learning),又称再励学习、评价学习,是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。 但在传统的机器学习分类中没有提到过强化学习,而在连接主义学习中,把学习算法分为三种类型,https://easyai.tech/ai-definition/reinforcement-learning/
11.基于“滴滴KDD2018论文:基于强化学习技术的智能派单模型在Paper 中,作者将该问题建模成一个用于解决序列决策的强化学习问题,也就是MDP ( Markov Decision Process )问题。一个 MDP 问题可以用四个最基本的要素描述-状态空间,行为空间,奖励函数和状态转移矩阵。求解 MDP 问题就是给出智能体在某种状态下应该采取哪种动作,以最大化收益。在分单问题中,每个司机看做是独立https://www.infoq.cn/article/1x-QigwOCSqtTFl8RKps/
12.GitHubDeepDriving/DeepLearning5009.6 分层深度强化学习算法 306 9.7 深度记忆强化学习算法 306 9.8 多智能体深度强化学习算法 307 9.9 深度强化学习算法小结 307 第十章 迁移学习 309 10.1 什么是迁移学习? 309 10.2 什么是多任务学习? 309 10.3 多任务学习有什么意义? 309 10.4 什么是端到端的深度学习? 311 https://github.com/DeepDriving/DeepLearning-500-questions
13.AAAI2023工业应用领域内,人工智能研究的最新学术成果本工作关注了两个领域的结合方向,即首先通过离线的方法进行预训练,然后在进行在线学习。研究员们提供了结合这两类方法的一种简单策略:通过对离线数据和在线数据进行区分,在学习的时候采取不同的更新策略来更大限度地提高学习效率。本方法能够便利地应用于当前流行的离线强化学习方法。 https://www.msra.cn/zh-cn/news/features/aaai-2023-industrial-applicable-ai
14.未来智能空战发展综述文献[56-57]提出了启发式思想与强化学习相结合的思路,将专家知识作为启发信号,通过强化学习进行先验知识以外的探索,实现了空战策略启发式探索和随机式探索结合的效果。文献[58]解决了多智能体空战的决策问题,提出了多智能体分层策略梯度算法,通过自博弈对抗学习使智能体涌现出专家级的空战战术策略(如图5所示);此外,还https://www.fx361.com/page/2021/1021/11687486.shtml
15.离线强化学习因此,离线强化学习(offline reinforcement learning)的目标是,在智能体不和环境交互的情况下,仅从已经收集好的确定的数据集中,通过强化学习算法得到比较好的策略。离线强化学习和在线策略算法、离线策略算法的区别如图 18-1 所示。图18-1 离线强化学习和在线策略算法、离线策略算法的区别https://hrl.boyuai.com/chapter/3/%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/