清华北大等发布SelfPlay强化学习最新综述

本文作者来自于清华大学电子工程系,北京大学人工智能研究院、第四范式、腾讯和清华-伯克利深圳学院。其中第一作者张瑞泽为清华大学硕士,主要研究方向为博弈算法。通讯作者为清华大学电子工程系汪玉教授、于超博后和第四范式研究员黄世宇博士。

**

引言

强化学习(ReinforcementLearning,RL)是机器学习中的一个重要范式,旨在通过与环境的交互不断优化策略。基本问题建模是基于马尔可夫决策过程(Markovdecisionprocess,MDP),智能体通过观察状态、根据策略执行动作、接收相应的奖励并转换到下一个状态。最终目标是找到能最大化期望累计奖励的最优策略。自博弈(self-play)通过与自身副本或过去版本进行交互,从而实现更加稳定的策略学习过程。自博弈在围棋、国际象棋、扑克以及游戏等领域都取得了一系列的成功应用。在这些场景中,通过自博弈训练得到了超越人类专家的策略。尽管自博弈应用广泛,但它也伴随着一些局限性,例如可能收敛到次优策略以及显著的计算资源需求等。本综述组织架构如下:首先,背景部分介绍了强化学习框架和基础的博弈论概念。其次,在算法部分提出了一个统一的框架,并根据该框架将现有的自博弈算法分为四类,进行系统的比较和分析。在之后的应用部分中,展示自博弈具体如何应用到具体的复杂博弈场景。最后,进一步讨论了自博弈中的开放问题和未来的研究方向,并进行总结。

背景

我们定义了一个统一的自博弈框架,并将自博弈算法分为四大类:传统自博弈算法、PSRO系列算法、基于持续训练的系列算法和后悔最小化系列算法。

类型一:传统自博弈算法

传统自博弈算法从单一策略开始,逐步扩展策略池,包括Vanillaself-play(训练时每次对手都选择最新生成的策略),Fictitiousself-play(训练时每次对手都在现有训练完的策略中均匀采样),δ-uniformself-play(训练时每次对手都在现有训练完的最近的百分之δ策略中均匀采样),PrioritizedFictitiousSelf-play(根据优先级函数计算当前训练完的策略的优先级,训练时每次对手都根据这个优先级进行采样),IndependentRL(训练时双方策略都会改变,对手策略不再固定)。

类型二:PSRO系列算法

类似于传统自博弈算法,Policy-SpaceResponseOracle(PSRO)系列算法同样从单一策略开始,通过计算ORACLE逐步扩展策略池,这些新加入的策略是对当前元策略的近似BR。PSRO系列与传统自博弈算法的主要区别在于,PSRO系列采用了更复杂的MSS,旨在处理更复杂的任务。例如,α-PSRO使用了基于α-rank的MSS来应对多玩家的复杂博弈。类型三:持续训练系列算法PSRO系列算法中存在的两个主要挑战:首先,由于训练成本大,通常在每次迭代中截断近似BR计算,会将训练不充分的策略添加到策略池;其次,在每次迭代中会重复学习基本技能,导致效率较低。为了解决这些挑战,基于持续训练系列的算法提倡反复训练所有策略。与前面提到的两类最大区别是,持续训练系列算法同时训练整个策略池策略。这类算法采用多个训练周期,并在每个训练周期内依次训练策略池所有策略,而不再是通过逐步扩展策略池进行训练。

类型四:后悔最小化系列算法

各类型算法比较与总结图

应用

在本节中,我们通过将三类经典场景来介绍自博弈的经典应用:棋类游戏,通常涉及完全信息;牌类游戏(包括麻将),通常涉及不完全信息;以及电子游戏,具有实时动作而非简单回合制游戏。

棋类游戏领域,绝大多数是完全信息游戏,曾因引入两项关键技术而发生革命性变化:位置评估和蒙特卡罗树搜索。这两项技术在象棋、西洋跳棋、黑白棋、西洋双陆棋等棋盘游戏方面展现了超越人类的效果。相比之下,当这些技术应用于围棋时,由于围棋棋盘布局种类远超于上述提到的棋类游戏,因此仅能达到业余水平的表现。直到DeepMind推出了AlphaGo系列而发生了革命性的变化,AlphaGo系列算法利用自博弈的强大功能显著提升了性能,为围棋领域设立了新的基准。除了围棋,还有一种难度较高的棋类游戏是“军棋”(Stratego)。与大多数完全信息的棋类游戏不同,“军棋”是一个两人参与的不完全信息棋盘游戏。游戏分为两个阶段:部署阶段,玩家秘密安排他们的单位,为战略深度奠定基础;以及游戏阶段,目标是推断对手的布局并夺取他们的旗帜。DeepNash采用基于进化的自博弈算法R-NaD达到了世界第三的人类水平。

德州扑克(TexasHold’em)是一种欧美流行的扑克游戏,适合2到10名玩家,当玩家数量增加,游戏变得更加复杂。此外,有三种下注形式:无限注、固定注和底池限注。每种形式在具有不同的游戏复杂度。在牌类游戏中,游戏抽象对于简化游戏复杂程度至关重要,可以将游戏的庞大状态空间减少到更容易处理的数量。Cepheus采用后悔最小化系列算法CFR+解决了最容易的双人有限注德州扑克。对于更复杂的双人无限注德州扑克,DeepStack和Libratus采用子博弈重新计算的方式来实时做出决策,击败职业德州扑克选手。Pluribus在Libratus基础上更进一步解决了六人无限注德州扑克。斗地主需要同时考虑农民之间的合作和农民地主之间的竞争。斗地主同样是不完全信息博弈,这为游戏增加了不确定性和策略深度。DeltaDou是基于AlphaZero开发的首个实现专家级斗地主表现的算法。之后的DouZero通过选择采样方法而非树搜索方法来降低训练成本,采用自博弈获取训练数据。麻将同样基于不完全信息做出决策,此外,麻将的牌数更多,获胜牌型也更为复杂,对AI更具挑战性。Suphx通过监督学习和自我博弈强化学习成为首个达到与人类专家水平的算法。NAGA和腾讯设计的LuckyJ同样也在在线平台上达到了人类专家水平。

与传统棋类游戏和牌类游戏不同,电子游戏通常具有实时操作、更长的动作序列以及更广泛的动作空间和观察空间。在星际争霸(StarCraft)中,玩家需要收集资源、建设基地并组建军队,通过精心的计划和战术执行,使对方玩家失去所有建筑物,来取得胜利。AlphaStar使用监督学习、端到端的强化学习和分层自博弈训练策略,在星际争霸II的1v1模式比赛中击败了职业玩家。MOBA游戏要求两支玩家队伍各自操控他们独特的英雄,互相竞争以摧毁对方的基地。每个英雄都有独特的技能,并在队伍中扮演特定的角色,也无法观测全部地图。OpenAIFive在简化版本的Dota2中击败了世界冠军队,其训练过程使用混合类型自博弈,有80%的概率进行Naiveself-play,20%的概率使用Prioritizedself-play。腾讯同样采用自博弈训练在王者荣耀游戏1v1和5v5模式中都击败了职业选手。GoogleResearchFootball(GRF)是一个开源的足球模拟器,输入是高层次的动作,需要考虑队友之间的合作和两个队伍之间的竞争,且每队有11人。TiKick通过WeKick的自博弈数据进行模仿学习,再利用分布式离线强化学习开发了一个多智能体AI。TiZero将课程学习与自博弈结合,无需专家数据,达到了比TiKick更高的TrueSkill评分。

THE END
1.深度学习算法的一些发展趋势多标签学习趋势小样本学习和零样本学习:致力于提高模型从少量数据中学习的能力,以及在没有见过特定类别数据时的泛化能力,通过迁移学习、元学习等技术,使模型能够快速适应新任务和新数据,对于数据稀缺或标注成本高昂的场景具有重要意义。 3.模型性能优化 高效训练与推理:研究更高效的训练算法和优化技巧,以加快模型的收敛速度,减少训练时https://blog.csdn.net/weixin_47362565/article/details/144280516
2.人工智能论文探索深度学习与智能算法的前沿应用人工智能论文探索:深度学习与智能算法的前沿应用 人工智能研究的新纪元 ai论文中的深度学习技术如何重新塑造数据处理和模式识别领域? 在过去几年中,人工智能(AI)研究经历了一个飞速发展的阶段,这主要归功于深度学习技术。这种基于神经网络的机器学习方法已经被证明能够处理复杂任务,如图像识别、自然语言处理以及决策支持系https://www.jvahvb5c.cn/zhi-neng/497383.html
3.智能算法与学术创新:AI在论文写作中的应用语法文章文献AI 中的智能算法在论文写作中有着广泛的应用,以下是千笔 AI 在论文写作中的一些主要应用: 内容生成与创新 快速生成初稿:千笔 AI 能够依据用户输入的关键词或主题,在短时间内生成逻辑连贯的论文初稿,为研究人员节省大量构思和撰写的时间。比如,输入 “人工智能在医疗影像诊断中的应用”,它可以迅速生成包含研究背景、https://www.163.com/dy/article/JJ4VJHKB0556B30Q.html
4.毕业论文神经网络优化学习算法综述经管文库(原毕业论文神经网络优化学习算法综述 https://bbs.pinggu.org/thread-13136271-1-1.html
5.“我把4500多篇NeurIPS2024论文,做成了AI搜索”新的优化方法、强化学习用来帮助机器人的技术等等,然后很快就能给出搜索结果。 在结果中,它有显示论文题目、摘要、作者以及此次海报展示位置,可以说是很细致了。 进一步地,你可以选择一篇或者多篇论文进行进一步的“盘问”。 实测可以选择10篇左右的论文,再多服务器就支撑不住了。 https://www.thepaper.cn/newsDetail_forward_29604749
6.面向流数据分类的在线学习综述?流式数据中增量学习一个从输入变量到类标变量的映射函数,以便对 随时到达的测试数据进行准确分类.在线学习范式作为一种增量式的机器学习技术,是流数据分类的有效工具.主要 从在线学习的角度对流数据分类算法的研究现状进行综述.具体地,首先介绍在线学习的基本框架和性能评估方法, 然后着重介绍在线学习算法在一般流数据上https://jos.org.cn/jos/article/pdf/5916
7.深度学习跟踪算法综述跟踪方法学深度学习跟踪算法综述 跟踪方法学 以前写过一个“自动驾驶中的目标跟踪”介绍,这次重点放在深度学习和摄像头数据方面吧。 先提一下以前说的那篇综述: "Survey on Leveraging Deep Neural Networks for Object Tracking" Daimler公司研发组2017年写的一篇综述,主要总结当时深度学习如何在多目标跟踪应用的工作。https://blog.51cto.com/u_16099218/11767614
8.TCCT通讯Newsletter2017No.01时间序列数据挖掘的相似性度量研究综述 控制与决策, 2017 Vol. 32 (01): 1-11 Abstract | PDF 论文 亓祥波 朱云龙 张丁一 求解PFSP的双种群协同学习算法 控制与决策, 2017 Vol. 32 (01): 12-20 Abstract | PDF 李滔 王士同 适合大规模数据集且基于LLM的0阶TSK模糊分类器 控制与决策, 2017 Vol. 32https://tcct.amss.ac.cn/newsletter/2017/201701/journal.html
9.深度学习+度量学习的综述本文约6000字,建议阅读10分钟本综述探讨了深度度量学习的意义、问题、背景、最新改进和与深度学习的关系,详述了其问题、样本选择和度量损失函数,以及现状和未来。 1 介绍 如今,机器学习的应用广泛,包括人脸识别、医疗诊断等,为复杂问题和大量数据提供解决方案。机器学习算法能基于数https://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247635390&idx=1&sn=e8d9df6f2dacc23beb336e181a88a2d8&chksm=e9efd835de985123f8596dcdfbc6eaca9dce3c93f4999b58669e9c2c4d84ba46104e3687fe0a&scene=27
10.[转载]基于强化学习的数据驱动多智能体系统最优一致性综述这种控制算法采用策略迭代(policy iteration, PI)技术,仅要求对系统动力学有部分了解。2009年, Doya K提出了将强化学习技术应用到求解连续时间系统的控制器中。参考文献提出了利用积分强化学习(integral reinforcement learning,IRL)的在线学习算法,用于解决系统模型部分未知的线性或非线性系统的最优跟踪控制问题。强化学习https://wap.sciencenet.cn/blog-951291-1276281.html
11.目标跟踪入门——目标跟踪算法综述电子创新网Imgtec社区目标跟踪入门——目标跟踪算法综述 最近需要学习计算机视觉中的目标跟踪方面的内容,在学习前做了个调研,对该领域的主要发展做下总结。 介绍 目标跟踪是计算机视觉领域的一个重要分支,是模式识别,图像处理,计算机视觉,机器学习等学科的交叉研究,有着广泛的应用,如视频监控,虚拟现实,人机交互,图像理解,无人驾驶等。https://imgtec.eetrend.com/blog/2019/100017436.html
12.深度学习(Deeplearning)综述卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一 。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification),因此也被称为https://www.jianshu.com/p/c8a46f00b06d
13.高分遥感驱动的精准土地利用与土地覆盖变化信息智能计算模型与的属性信息,而“建”、“水”、“土”、“生”、“地”等各类地理图斑又明显地具有多尺度空间粒特点,因此以图斑为记录对象的属性表天然具有鲜明的多粒度特性与层次化特征,可遵循粒计算的原理约简X(降维),并以较大的泛化力提炼X与y间的映射关系,从而在目标空间Y中构建形成针对不同求解目标y的迁移学习算法集http://www.jors.cn/jrs/article/html/202107001
14.机器学习算法的分布式实现研究综述.docxMapReduce以及Spark.它们实现了不同的并行编程模型:消息传递或者数据并行.本文首先介绍了分布式计算和机器学习的基本概念,并以逻辑回归为例说明了一般迭代算法的求解过程.然后分别介绍了各种分布式框架的体系设计,编程接口,以及迭代算发在其中实现的过程.最后比较了三种框架的异同,并未来展望了分布式框架在机器学习中的应用https://www.renrendoc.com/paper/227177230.html
15.深度学习算法简要综述译站深度学习正在吞食这个世界。 这个炒作再大约2012年开始,那是神经网络再图像识别任务上达到了超越人类的表现,但只有少部分人预测到了将会发生什么。 在过去的十年,越来越多的算法涌现出来。越来越多的公司将他们运用在他们的日常业务中。 在这里,我试图覆盖这些年出现的所有重要的深度学习算法和架构,它们在许多方面有着https://www.yanxishe.com/TextTranslation/2456
16.从起源到具体算法,这篇深度学习综述论文送给你从起源到具体算法,这篇深度学习综述论文送给你 来源:机器之心 本文为大家从最基础的角度来为大家解读什么是深度学习,以及深度学习的一些前沿发展。 自2012 年多伦多大学 Alex Krizhevsky 等人提出 AlexNet 以来,深度学习作为一种机器学习的强大方法逐渐引发了今天的 AI 热潮。随着这种技术被应用到各种不同领域,人们https://cloud.tencent.com/developer/article/1070477
17.基于优化理论的支持向量机学习算法研究【摘要】: 支持向量机是借助优化方法解决机器学习问题的新工具.近年来,支持向量机越来越受到人们的广泛关注,在其理论研究和算法实现方面都取得了重大进展,下载全文 更多同类文献 个人查重>> 个人AIGC检测>> 文献综述>> (如何获取全文? 欢迎:购买知网充值卡、在线充值、在线咨询) CAJViewer阅读器支持CAJ、https://cdmd.cnki.com.cn/Article/CDMD-10701-2009195330.htm
18.从传统方法到深度学习,人脸关键点检测方法综述原标题:从传统方法到深度学习,人脸关键点检测方法综述 机器之心专栏 作者:余霆嵩 人脸关键点检测是人脸识别和分析领域中的关键一步,它是诸如自动人脸识别、表情分析、三维人脸重建及三维动画等其它人脸相关问题的前提和突破口。近些年来,深度学习方法由于其自动学习及持续学习能力,已被成功应用到了图像识别与分析、语音识https://tech.ifeng.com/a/20171217/44807875_0.shtml
19.Nature综述:国内顶尖课题组都在用,科研成果取得大的突破!1 机器学习简介 1.1 机器学习四要素 1.2 数据模块 1.3 核心和高级 API 2 回归算法与应用 2.1线性回归 2.2 Lasso 回归 2.3 Ridge 回归 2.4 ElasticNset 弹性网络 3 分类算法与应用 3.1 逻辑回归 3.2 朴素贝叶斯 3.3 KNN 3.4 SVC 3.5决策树 3.6 随机森林 https://www.biodiscover.com/reaseach/742102.html