微软最强麻将AI首次公开技术细节!专业十段水平棋牌新浪竞技风暴

4月3日消息,微软公司于去年8月推出了一个名为Suphx的麻将人工智能系统,并在麻将游戏社区Tenhou中对其进行测试。据悉,Tenhou是世界上最大的麻将社区之一,拥有超过35万活跃用户。

根据测试结果,Suphx最高成绩为10段。这是目前为止,世界上第一个也是唯一一个达到10段水平的人工智能。Tenhou社区中的人类玩家也证实Suphx具有超强学习能力,99.99%的玩家认为模型经过训练后表现有所改善。

本周,微软团队发布了一份修订版预印本文件,对Suphx进行了全面介绍。目前这项研究发表在学术网站arXiv上,论文题目为《Suphx:用深度强化学习打麻将(Suphx:MasteringMahjongwithDeepReinforcementLearning)》

一、麻将:规则复杂的不完全信息博弈

麻将是一种多玩家参与、多轮牌的不完全信息博弈游戏。

每一局麻将又包含许多回合。一局游戏的胜负是由累积回合分数决定的,输掉一圈并不意味着玩家满盘皆输。为了保证最后胜出,玩家有可能会故意输掉一局。

另外,麻将游戏的“胡牌”方式非常多。不同的“胡牌”方式下,牌面也有很大不同。相应地,每回合游戏的得分也就不同。

所谓不完全信息博弈,是指参与者并不了解博弈的全部情况。在麻将游戏中,每位玩家手中最多有13张别人不可见的牌。牌墙中的14张牌对所有玩家都不可见。此外,牌桌中央还有70张牌。只有被玩家摸回或打出时,这部分牌的牌面才可见。

在这种规则下,玩家每做出一个选择,接下来的牌局就可能出现10个以上的走向。玩家很难仅仅依据自己手中的牌来判断接下来的动作,而是要经过仔细的思考与权衡。

这也正是建立麻将人工智能模型的难点所在:人工智能很难将奖励信号与观察到的信息联系起来。

二、Suphx:两天训练150次,熟练掌握5种模式

在微软的研究中,研究人员选择用日本4人麻将(RiichiMahjong)规则训练Suphx模型,训练数据来自Tenhou社区。

培训过程耗时两天,研究人员在44个图形处理单元上、用150万个游戏对模型进行了训练。

1、原型:深度卷积神经网络

深度卷积神经网络(deepconvolutionalneuralnetworks)曾在围棋、象棋等游戏中应用,其强大的表示能力已经得到了验证。Suphx也选择深度卷积神经网络作为原型。

不同于棋类游戏的是,麻将玩家获得的信息并不是自然的图像格式。为此,研究人员设计了一套特征,将观察到的信息编码为深度卷积神经系统能理解的形式。

研究人员把每位玩家的私有牌编码成4个频道。图示有4行34列,每一行对应一个频道,每一列对应一种牌。第n个通道中的第m列表示玩家手中有n个m类型的牌。每种牌都可被表示为一个34维向量。

同时,研究人员还降低了计算复杂程度:规定执行深度搜索时优先找到可能的赢家;Suphx不考虑对手的行为,只专注于寻找可能获胜的牌面。

2、训练方式:有监督学习+分层强化学习,学会5种模式

训练过程中,原型先利用人类职业玩家的数据进行有监督学习(supervisedlearning),然后再进行分层强化学习(self-playreinforcementlearning)。研究人员设计应用策略梯度算法(policygradientalgorithm)来进行分层强化学习。

Suphx学习了5种模式来处理不同的情况。分别是:弃牌(discard)模式、Riichi模式、Chow模式、Pong模式和Kong模式。

所有模式都用网络结构表示。弃牌模式对应34张牌,有34个输出神经元。其他模式仅有两个输出神经元,分别对应执行或不执行操作。

3、GRU网络+Oracle代理+pMCPA

除上述设定外,微软团队还引入了其他几种技术:

全局奖励预测器(GRU网络)。该预测器可以提前预测游戏的最终结局,提供有效的学习信号,从而使策略网络可执行。

Oracle代理。一个强大的作弊软件,可以帮助玩家看到对家的牌面。在Suphx的模型学习过程中,研究人员剔除了Oracle代理的一部分功能,使其变成一个普通代理、只能输入可见信息。相比标准的深度学习过程,利用Oracle代理进行训练加速了模型的学习过程。

参数化的蒙特卡罗策略自适应算法(pMCPA)。复杂的麻将规则导致了不规则的游戏树,阻碍了蒙特卡洛树搜索技术的应用。为了解决这一问题,研究人员引入了参数化的蒙特卡罗策略自适应算法(pMCPA)。pMCPA会不断调整离线学习策略,使其能适应突发的游戏情节(比如4个玩家丢弃了公共牌)。

4、胜负评判模型

Suphx利用了一个基于规则的胜负评判模型。该模型可以检查其他玩家打出的牌及牌强中的牌能否组成获胜牌面。假设组成了获胜牌面,模型就根据以下规则做出判定:

如果这不是游戏的最后一轮,宣布这一轮当前玩家赢;

如果这是游戏的最后一轮,但是当前玩家的累积总分在四位玩家中最少,则不宣布。反之,宣布当前玩家这一轮赢。

三、决策过程:按规则摸牌打牌,模型判定胜负

在游戏中,需要麻将玩家采取行动的情形有两种:从牌墙中取牌和打出牌。对于Suphx来说也一样。

1、从牌墙中取牌

从牌墙中抽牌时,如果Suphx抽到的牌可以与其私有牌凑成获胜牌面,则由胜负评判模型判定是否获胜。如果获胜,就结束一轮游戏。

如果抽取的牌可以与私有牌凑成Kong的牌面(ClosedKong或AddKong),kong模式将决定凑成哪一种牌面。如果是ClosedKong,关闭Kong操作,退回抽牌步骤;如果是AddKong,其他玩家就可以使用。

弃牌步骤中,模型打出相应的牌。游戏继续进行下去,直到牌墙中的牌被打完。

2、其他玩家弃牌

另外一种情况是其他玩家弃牌。如果Suphx可以用弃牌与私有牌组成获胜牌面,则由评判模型判定。模型判定获胜,游戏结束。模型判定失败,Suphx会尝试组成Chow、Pong或Kong牌面。如果无法组成这三种牌面,就轮到其他玩家行动。

四、评估:Suphx成最强麻将AI

在Tenhou平台上有两种游戏室,分别是专家室和凤凰室。专家室对人工智能和4段及以上的人类玩家开放;凤凰室只接受7段以上的人类玩家。根据这项规定,研究人员在专家室对Suphx进行了评估。

在专家室中,Suphx进行了5760次游戏,最高记录是10段(dan),平均成绩是8.74段。而根据Tenhou平台统计,在其35万用户之中,能达到10段水平的玩家仅有180人。

在论文中,研究人员称Suphx在防御方面“非常强大”。它开发出了自己的玩法,能够在保证己方私有牌安全的情况下取胜。

结语:Suphx有巨大应用潜力,或可用于金融预测

经过学习,Suphx模型能够掌握麻将游戏的规则并在游戏中取得较好成绩,这说明了它具有超强的学习能力。

研究人员认为,这种学习能力可以在许多其他领域发挥作用。比如在企业的运营中,Suphx可以帮助处理普通但是占用认知的任务,从而解放员工生产力。

除此以外,该模型或能用于金融预测。论文中写道:“金融市场预测和逻辑优化等现实世界中的大多数问题都与麻将具有相同的特征,即规则复杂、信息不完善。”因此,Suphx模型对于现实世界具有“巨大的应用潜力”。

论文中写道:“展望未来,我们将向Suphx引进更多新技术,并继续推进麻将人工智能和不完全信息博弈游戏的前沿研究。”

THE END
1.多智能体强化学习知乎mob6454cc70863a的技术博客多智能体强化学习知乎 系统简介 基于ROBO-MAS多智能体自主协同高频投影定位系统通过采用ROBO-MAS桌面型群体智能机器人,在小型实验场地内通过高频光电投影定位技术实现机器人位置感知和数据通讯,实现“开放式群体智能研究和多智能体自主协同”的研究目标。 系统为群体智能研究和多机器人任务协同研究搭建基础科研平台,系统完全https://blog.51cto.com/u_16099271/12897860
2.强化学习中的分层强化技术层次强化学习强化学习中的分层强化技术 1. 背景介绍 强化学习是机器学习的一个重要分支,它通过在与环境的交互过程中学习获得最优解决方案的方法,在众多人工智能领域都有广泛的应用,如游戏AI、机器人控制、自动驾驶等。然而,在复杂的环境中,强化学习算法通常需要大量的交互样本和长时间的训练才能收敛到最优策略。为了提高强化学习的https://blog.csdn.net/universsky2015/article/details/137638544
3.2020年媒体技术趋势报告:13大领域89项变革全输出这时,研究者将尝试应用分层强化学习(Hierarchical Reinforcement Learning)——能够发现高水准的行动,有条理地克服学习困难,最终以出乎人类意料的速度掌握新的任务。RL可以提升AI系统的“智能”,来使汽车能在非常规条件下自动驾驶,或者协助军用无人机实现之前尚未实现过的复杂动作。 https://36kr.com/p/5267903
4.万字长文总结如何解决"稀疏奖励(SparseReward)"下的强化学习具体的,利用数据改进 agent 学习的方法包括好奇心驱动(Curiosity Driven)、奖励重塑(Reward Shaping)、模仿学习(Imitation Learning)、课程学习(Curriculum Learning)等等。改进模型的方法主要是执行分层强化学习(Hierarchical Reinforcement Learning),使用多层次的结构分别学习不同层次的策略来提高模型解决复杂问题的能力,以及https://www.zhuanzhi.ai/document/7f6d15f412639a573254a0f80300779a
5.科学网—[转载]强化学习在资源优化领域的应用随着强化学习在围棋、游戏等序列化决策领域大放异彩、在多智能体协作等领域取得较好表现,它的一些优秀特性也得到了资源优化领域的关注。首先,基于强化学习的解决方案决策非常高效。虽然强化学习策略的训练非常耗时,但是这些训练工作可以离线进行,实际中只需要利用训练好的模型进行推理,因而在绝大部分情况下可以做到近似实时https://blog.sciencenet.cn/blog-3472670-1312677.html
6.清华大学交叉信息研究院赵行团队在离线强化学习能够超越专家性能、无需危险环境交互的特性,提出了HsO-VP框架,实现了纯粹基于离线数据的长程运动规划。框架通过变分自编码器(VAE)从离线演示中学习技能,解决自动驾驶中的长期规划问题。设计了双分支序列编码器,有效应对后验坍塌问题。为自动驾驶车辆规划提供了一种新的强化学习方法。 https://iiis.tsinghua.edu.cn/show-10550-1.html
7.翁源县政务服务数据管理局2023年法治政府建设年度报告采用分层学习、考试检验的方式深入学习贯彻习近平总书记重要讲话重要指示精神,深入贯彻落实党的二十大关于法治建设重大部署。一是抓住“关键少数”,充分发挥“头雁效应”。将党的二十大精神、习近平法治思想列入理论学习中心组学习内容。今年通过党组会、理论学习中心组学习法治政府建设相关知识7次。二是全体干部职工学。采取“https://www.wengyuan.gov.cn/zwgk/zwjgk/content/post_2577142.html
8.从搜索到智能客服:阿里开放强化学习技术演进与实践书籍机器之心近日,阿里开放了一本描述强化学习在实践中应用的书籍《强化学习在阿里的技术演进与业务创新》,这本书重点描述了阿里巴巴在推动强化学习输出产品及商业化的实践过程。例如在在搜索场景中对用户的浏览购买行为进行 MDP 建模、在推荐场景中使用深度强化学习与自适应在线学习帮助每?个用户迅速发现宝贝、在智能客服中赋予阿里https://www.jiqizhixin.com/articles/2018-02-06-3
9.论文精读与思考:深度强化学习的组合优化研究进展组合优化“选择决策变量”与深度强化学习的“动作选择”很相似 优势:DRL“离线训练、在线决策”的特性可以解决组合优化中的“实时求解”问题 2.2 目前主要方法 2.2.1 基于DRL的端到端方法 具体方法介绍见第3章 定义:给定问题实例作为输入,利用训练好的深度神经网络直接输出问题的解。网络参数由DRL方法训练得到。 https://www.jianshu.com/p/3887528006d0
10.一文看懂什么是强化学习?(基本概念+应用嘲+主流算法)在线学习 VS 离线学习 详细请查看《强化学习方法汇总》 百度百科和维基百科 百度百科版本 强化学习(reinforcement learning),又称再励学习、评价学习,是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。 但在传统的机器学习分类中没有提到过强化学习,而在连接主义学习中,把学习算法分为三种类型,https://easyai.tech/ai-definition/reinforcement-learning/
11.基于“滴滴KDD2018论文:基于强化学习技术的智能派单模型在Paper 中,作者将该问题建模成一个用于解决序列决策的强化学习问题,也就是MDP ( Markov Decision Process )问题。一个 MDP 问题可以用四个最基本的要素描述-状态空间,行为空间,奖励函数和状态转移矩阵。求解 MDP 问题就是给出智能体在某种状态下应该采取哪种动作,以最大化收益。在分单问题中,每个司机看做是独立https://www.infoq.cn/article/1x-QigwOCSqtTFl8RKps/
12.GitHubDeepDriving/DeepLearning5009.6 分层深度强化学习算法 306 9.7 深度记忆强化学习算法 306 9.8 多智能体深度强化学习算法 307 9.9 深度强化学习算法小结 307 第十章 迁移学习 309 10.1 什么是迁移学习? 309 10.2 什么是多任务学习? 309 10.3 多任务学习有什么意义? 309 10.4 什么是端到端的深度学习? 311 https://github.com/DeepDriving/DeepLearning-500-questions
13.AAAI2023工业应用领域内,人工智能研究的最新学术成果本工作关注了两个领域的结合方向,即首先通过离线的方法进行预训练,然后在进行在线学习。研究员们提供了结合这两类方法的一种简单策略:通过对离线数据和在线数据进行区分,在学习的时候采取不同的更新策略来更大限度地提高学习效率。本方法能够便利地应用于当前流行的离线强化学习方法。 https://www.msra.cn/zh-cn/news/features/aaai-2023-industrial-applicable-ai
14.未来智能空战发展综述文献[56-57]提出了启发式思想与强化学习相结合的思路,将专家知识作为启发信号,通过强化学习进行先验知识以外的探索,实现了空战策略启发式探索和随机式探索结合的效果。文献[58]解决了多智能体空战的决策问题,提出了多智能体分层策略梯度算法,通过自博弈对抗学习使智能体涌现出专家级的空战战术策略(如图5所示);此外,还https://www.fx361.com/page/2021/1021/11687486.shtml
15.离线强化学习因此,离线强化学习(offline reinforcement learning)的目标是,在智能体不和环境交互的情况下,仅从已经收集好的确定的数据集中,通过强化学习算法得到比较好的策略。离线强化学习和在线策略算法、离线策略算法的区别如图 18-1 所示。图18-1 离线强化学习和在线策略算法、离线策略算法的区别https://hrl.boyuai.com/chapter/3/%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/