打败李世乭的AlphaGo,被弟弟AlphaGoZero打败了,成绩是0100

去年,有个小孩读遍人世所有的棋谱,辛勤打谱,苦思冥想,棋艺精进,4-1打败世界冠军李世石,从此人间无敌手。他的名字叫AlphaGo(阿法狗)。

今年,他的弟弟只靠一副棋盘和黑白两子,没看过一个棋谱,也没有一个人指点,从零开始,自娱自乐,自己参悟,100-0打败哥哥AlphaGo。他的名字叫AlphaGoZero(阿法元)。

DeepMind这项伟大的突破,今天以MasteringthegameofGowithouthumanknowledge为题,发表于Nature,引起轰动。知社特邀国内外几位人工智能专家,给予深度解析和点评。

自学三天,100-0击溃阿法狗

Nature今天上线的这篇重磅论文,详细介绍了谷歌DeepMind团队最新的研究成果。

人工智能的一项重要目标,是在没有任何先验知识的前提下,通过完全的自学,在极具挑战的领域,达到超人的境地。

去年,阿法狗(AlphaGo)代表人工智能在围棋领域首次战胜了人类的世界冠军,但其棋艺的精进,是建立在计算机通过海量的历史棋谱学习参悟人类棋艺的基础之上,进而自我训练,实现超越。

阿法狗元棋力的增长与积分比较

可是今天,我们发现,人类其实把阿法狗教坏了!

新一代的阿法元(AlphaGoZero),完全从零开始,不需要任何历史棋谱的指引,更不需要参考人类任何的先验知识,完全靠自己一个人强化学习(reinforcementlearning)和参悟,棋艺增长远超阿法狗,百战百胜,击溃阿法狗100-0。

DavidSilver博士,AlphaGo项目负责人

这篇论文的第一和通讯作者是DeepMind的DavidSilver博士,阿法狗项目负责人。他介绍说阿法元远比阿法狗强大,因为它不再被人类认知所局限,而能够发现新知识,发展新策略:

ThistechniqueismorepowerfulthanpreviousversionsofAlphaGobecauseitisnolongerconstrainedbythelimitsofhumanknowledge.Instead,itisabletolearntabularasafromthestrongestplayerintheworld:AlphaGoitself.AlphaGoZeroalsodiscoverednewknowledge,developingunconventionalstrategiesandcreativenewmovesthatechoedandsurpassedthenoveltechniquesitplayedinthegamesagainstLeeSedolandKeJie.

DeepMind联合创始人和CEO则说这一新技术能够用于解决诸如蛋白质折叠和新材料开发这样的重要问题:

AlphaGoZeroisnowthestrongestversionofourprogramandshowshowmuchprogresswecanmakeevenwithlesscomputingpowerandzerouseofhumandata.Ultimatelywewanttoharnessalgorithmicbreakthroughslikethistohelpsolveallsortsofpressingrealworldproblemslikeproteinfoldingordesigningnewmaterials.

美国的两位棋手在Nature对阿法元的棋局做了点评:

它的开局和收官和专业棋手的下法并无区别,人类几千年的智慧结晶,看起来并非全错。但是中盘看起来则非常诡异:

theAI’sopeningchoicesandend-gamemethodshaveconvergedonours—seeingitarriveatoursequencesfromfirstprinciplessuggeststhatwehaven’tbeenonentirelythewrongtrack.Bycontrast,someofitsmiddle-gamejudgementsaretrulymysterious.

无师自通,关键技术是哪些?

为更深入了解阿法元的技术细节,知社采访了美国杜克大学人工智能专家陈怡然教授。他向知社介绍说:

DeepMind最新推出的AlphaGoZero降低了训练复杂度,摆脱了对人类标注样本(人类历史棋局)的依赖,让深度学习用于复杂决策更加方便可行。我个人觉得最有趣的是证明了人类经验由于样本空间大小的限制,往往都收敛于局部最优而不自知(或无法发现),而机器学习可以突破这个限制。之前大家隐隐约约觉得应该如此,而现在是铁的量化事实摆在面前!

他进一步解释道:

这篇论文数据显示学习人类选手的下法虽然能在训练之初获得较好的棋力,但在训练后期所能达到的棋力却只能与原版的AlphaGo相近,而不学习人类下法的AlphaGoZero最终却能表现得更好。这或许说明人类的下棋数据将算法导向了局部最优(localoptima),而实际更优或者最优的下法与人类的下法存在一些本质的不同,人类实际’误导’了AlphaGo。有趣的是如果AlphaGoZero放弃学习人类而使用完全随机的初始下法,训练过程也一直朝着收敛的方向进行,而没有产生难以收敛的现象。

阿法元是如何实现无师自通的呢?杜克大学博士研究生吴春鹏向知社介绍了技术细节:

之前战胜李世石的AlphaGo基本采用了传统增强学习技术再加上深度神经网络DNN完成搭建,而AlphaGoZero吸取了最新成果做出了重大改进。

首先,在AlphaGoZero出现之前,基于深度学习的增强学习方法按照使用的网络模型数量可以分为两类:一类使用一个DNN"端到端"地完成全部决策过程(比如DQN),这类方法比较轻便,对于离散动作决策更适用;另一类使用多个DNN分别学习policy和value等(比如之前战胜李世石的AlphaGoGo),这类方法比较复杂,对于各种决策更通用。此次的AlphaGoZero综合了二者长处,采用类似DQN的一个DNN网络实现决策过程,并利用这个DNN得到两种输出policy和value,然后利用一个蒙特卡罗搜索树完成当前步骤选择。

其次,AlphaGoZero没有再利用人类历史棋局,训练过程从完全随机开始。随着近几年深度学习研究和应用的深入,DNN的一个缺点日益明显:训练过程需要消耗大量人类标注样本,而这对于小样本应用领域(比如医疗图像处理)是不可能办到的。所以Few-shotlearning和Transferlearning等减少样本和人类标注的方法得到普遍重视。AlphaGoZero是在双方博弈训练过程中尝试解决对人类标注样本的依赖,这是以往没有的。

第三,AlphaGoZero在DNN网络结构上吸收了最新进展,采用了ResNet网络中的Residual结构作为基础模块。近几年流行的ResNet加大了网络深度,而GoogLeNet加大了网络宽度。之前大量论文表明,ResNet使用的Residual结构比GoogLeNet使用的Inception结构在达到相同预测精度条件下的运行速度更快。AlphaGoZero采用了Residual应该有速度方面的考虑。

杜克大学博士研究生谢知遥对此做了进一步阐述:

DeepMind的新算法AlphaGoZero开始摆脱对人类知识的依赖:在学习开始阶段无需先学习人类选手的走法,另外输入中没有了人工提取的特征。

因为这些改进,AlphaGoZero的表现和训练效率都有了很大的提升,仅通过4块TPU和72小时的训练就能够胜过之前训练用时几个月的原版AlphaGo。在放弃学习人类棋手的走法以及人工提取特征之后,算法能够取得更优秀的表现,这体现出深度神经网络强大的特征提取能力以及寻找更优解的能力。更重要的是,通过摆脱对人类经验和辅助的依赖,类似的深度强化学习算法或许能更容易地被广泛应用到其他人类缺乏了解或是缺乏大量标注数据的领域。

AlphaGo优化意义何在?人工智能的将来又在哪里?

这个工作意义何在呢?人工智能专家、美国北卡罗莱纳大学夏洛特分校洪韬教授也对知社发表了看法:

我非常仔细从头到尾读了这篇论文。首先要肯定工作本身的价值。从用棋谱(supervisedlearning)到扔棋谱,是重大贡献(contribution)!干掉了当前最牛的棋手(变身前的阿法狗),是advancingstate-of-the-art。神经网络的设计和训练方法都有改进,是创新(novelty)。从应用角度,以后可能不再需要耗费人工去为AI的产品做大量的前期准备工作,这是其意义(significance)所在!

接着,洪教授也简单回顾了人工神经网络的历史:

人工神经网络在上世纪四十年代就出来了,小火了一下就撑不下去了,其中一个原因是大家发现这东西解决不了“异或问题”,而且训练起来太麻烦。到了上世纪七十年代,PaulWerbos读博时候拿backpropagation的算法来训练神经网络,提高了效率,用多层神经网络把异或问题解决了,也把神经网络带入一个新纪元。上世纪八九十年代,人工神经网络的研究迎来了一场大火,学术圈发了成千上万篇关于神经网络的论文,从设计到训练到优化再到各行各业的应用。

JimBurke教授,一个五年前退休的IEEELifeFellow,曾经讲过那个年代的故事:去开电力系统的学术会议,每讨论一个工程问题,不管是啥,总会有一帮人说这可以用神经网络解决,当然最后也就不了了之了。简单的说是大家挖坑灌水吹泡泡,最后没啥可忽悠的了,就找个别的地儿再继续挖坑灌水吹泡泡。上世纪末的学术圈,如果出门不说自己搞神经网络的都不好意思跟人打招呼,就和如今的深度学习、大数据分析一样。

然后,洪教授对人工智能做了并不十分乐观的展望:

回到阿法狗下棋这个事儿,伴随着大数据的浪潮,数据挖掘、机器学习、神经网络和人工智能突然间又火了起来。这次火的有没有料呢?我认为是有的,有海量的数据、有计算能力的提升、有算法的改进。这就好比当年把backpropagation用在神经网络上,的确是个突破。

最终这个火能烧多久,还得看神经网络能解决多少实际问题。二十年前的大火之后,被神经网络“解决”的实际问题寥寥无几,其中一个比较知名的是电力负荷预测问题,就是用电量预测,刚好是我的专业。由于当年神经网络过于火爆,导致科研重心几乎完全离开了传统的统计方法。等我刚进入这个领域做博士论文的时候,就拿传统的多元回归模型秒杀了市面上的各种神经网络遗传算法的。我一贯的看法,对于眼前流行的东西,不要盲目追逐,要先审时度势,看看自己擅长啥、有啥积累,看准了坑再跳。

美国密歇根大学人工智能实验室主任SatinderSingh也表达了和洪教授类似的观点:这并非任何结束的开始,因为人工智能和人甚至动物相比,所知所能依然极端有限:

ThisisnotthebeginningofanyendbecauseAlphaGoZero,likeallothersuccessfulAIsofar,isextremelylimitedinwhatitknowsandinwhatitcandocomparedwithhumansandevenotheranimals.

不过,Singh教授仍然对阿法元大加赞赏:这是一项重大成就,显示强化学习而不依赖人的经验,可以做的更好:

TheimprovementintrainingtimeandcomputationalcomplexityofAlphaGoZerorelativetoAlphaGo,achievedinaboutayear,isamajorachievement…theresultssuggestthatAIsbasedonreinforcementlearningcanperformmuchbetterthanthosethatrelyonhumanexpertise.

陈怡然教授则对人工智能的未来做了进一步的思考:

AlphaGoZero没有使用人类标注,只靠人类给定的围棋规则,就可以推演出高明的走法。有趣的是,我们还在论文中看到了AlphaGoZero掌握围棋的过程。比如如何逐渐学会一些常见的定式与开局方法,如第一手点三三。相信这也能对围棋爱好者理解AlphaGo的下棋风格有所启发。

除了技术创新之外,AlphaGoZero又一次引发了一个值得所有人工智能研究者思考的问题:在未来发展中,我们究竟应该如何看待人类经验的作用。在AlphaGoZero自主学会的走法中,有一些与人类走法一致,区别主要在中间相持阶段。AlphaGoZero已经可以给人类当围棋老师,指导人类思考之前没见过的走法,而不用完全拘泥于围棋大师的经验。也就是说AlphaGoZero再次打破了人类经验的神秘感,让人脑中形成的经验也是可以被探测和学习的。

陈教授最后也提出一个有趣的命题:

未来我们要面对的一个挑战可能就是:在一些与日常生活有关的决策问题上,人类经验和机器经验同时存在,而机器经验与人类经验有很大差别,我们又该如何去选择和利用呢?

不过DavidSilver对此并不担心,而对未来充满信心。他指出:

Ifsimilartechniquescanbeappliedtootherstructuredproblems,suchasproteinfolding,reducingenergyconsumptionorsearchingforrevolutionarynewmaterials,theresultingbreakthroughshavethepotentialtopositivelyimpactsociety.

THE END
1.2025年4月考期网络课程助学专业及课程040106学前教育(专升本) 2025年4月考期网络助学课程 050101汉语言文学(专升本) 2025年4月考期网络助学课程 120402行政管理(专升本) 2025年4月考期网络助学课程 相关通知: 1、2025年4月考期天津师范大学高自考网络助学报名通知 2、2025年4月考期高自考网络助学缴费公告https://www.zikao365.com/gckh/tjsfdx/li2412166511.shtml
2.闲鱼轻资产赚钱秘籍,小白轻松日入500+闲鱼轻资产项目,首先来介绍一下闲鱼平台,相信大家都很熟悉吧!闲鱼用户数已突破5亿,闲鱼的日均GMV已经突破10亿。2024年,闲鱼不再是一个单纯的二手交易平台,年轻人们更是把闲鱼这个平台当成了新的创业风口平台,主要是在闲鱼上发布商品并且不需要保证金,门槛低,而且每个商品都有一定的基础流量,非常适合想要变现的人群创https://www.xueshe9.com/34866.html
3.浙江自考需要用到哪些教材?英语(二)自学教程(附)(2012年版) 外研社 张敬源张虹 130101 00020 高等数学(一) 高等数学(一)(附)(2013年版) 高等教育 扈志明 130401 00022 高等数学(工专) 高等数学(工专)(附)(版) 北京大学 吴纪桃漆毅 版 改版 00024 普通逻辑 普通逻辑(附)(2010年版) https://www.eol.cn/zikao/zk-wyw/20241215172629.html
4.我要自学网V币(100元卡)品牌:我要自学网 学习卡面值:100 学习卡分类:综合类付款后请立即QQ8充值 (咨询特价)换100个V币,(咨询特价)换350个V币,(咨询特价)换600个V币。(咨询特价)换1300个V币。 疑问解答: 1 为什么我定购了V币卡,但在我要自学网的会员名还未收到V币? 出现这个情况是你定购V币卡时没留言,没在留言处写入您在自学http://witcp.com/shop/c150109970/t5bae68cc18ba.html
5.100唯尔院校级全职业虚拟仿真教学云平台100唯尔:人力资源社会保障部推荐职业技能培训线上平台,凤凰出版集团下属职业教育虚拟仿真实训云平台,25年VR/AR/MR教育信息化资源开发经验;海量在线职教仿真教学/实训资源;110个专业,700多门职业技能培训课程;全职业场景虚拟仿真体验;新/热/难技能点三维建模,线上实操不限量;https://www.100vr.com/
6.10个宝藏级编程资源,让你省下8K学费不香吗类似javaguide的前端网站二、python100天 三、sql自学网 四、动手学深度学习 五、leetbook 六、被删的前端游乐场 七、javaguide 八、地鼠文档(go语言 九、docker从入门到实践 十、在线工具,程序员神器 一、github漫游指南 GitHub 漫游指南 – GitHub 漫游指南 GitHub 上拥有大量的学习资源,从各类的文章到笔记,还有各式各样的电子书。如https://blog.csdn.net/AI19970205/article/details/121386602
7.自学摆摊小吃100种项目自学摆摊还是有一定难度的,如果是有基础的还好一点,特别是哪些没零基础学员,建议还是到专业的培训班进行学习,一般只需要学习3-5天时间就可以掌握核心技术,如果是学习全套技术也只需要7-15天时间。下面学厨网老师为大家整理了自学摆摊小吃100种项目都有哪些,我们一起来看看。https://www.xuechu123.com/vip_doc/24369456.html
8.干货满满九大编程网站五、Python100天 https://github.com/jackfrued/Python-100-Days 这是一个分阶段的python入门教程,基础,进阶,开发框架,爬虫,数据分析人,人工智能,项目管理,各方面的都有。比较适合碎片化巩固学习的同学。 六、sql自学网 http://www.xuesql.cn/ 这是一个边学边练习sql语句的平台,用最快的速度学会数据库。 https://developer.aliyun.com/article/1330963
9.《我在100天内自学英文翻转人生》全文免费在线阅读–起点女生网《我在100天内自学英文翻转人生》是(韩)张同完创作的外语小说。一本写给不甘平庸、渴望拥有比现在更好人生的人的激励之书!在书中,梦想导师张同完用亲身经历告诉你,无论你几岁、无论你做什么,只要精通一种外语,全世界都是你的舞台。他高中时期英文成绩垫底,后来凭借100https://m.qdmm.com/book/1022345421/
10.Maya自学宝典100小时软件精通视频教程Maya 自学宝典-100小时【软件精通】:| 软件精通 |INTRODUCTION| 这是一套超级强大Maya全功能自学宝典,适合任何基础的三维学习者,秉承完善却不冗长的宗旨在短时间里掌握你想学的知识 || 教程分为模型篇、渲染篇、毛发篇、动画篇、动画提升篇、特效篇、以及新功能篇;以案例https://www.yiihuu.com/a_7818.html
11.保安自学2年研究出永不凋谢的牡丹被选为国礼送给100多个国家【#保安自学2年研究出永不凋谢的牡丹#被选为国礼送给100多个国家】都知道洛阳牡丹甲天下,那么你见过永不凋谢的牡丹花吗?曾当过保安、搬运工的洛阳李学武,因为好友一次错过与洛阳牡丹花的邂逅,萌生了想法,于是遍访全国名窑,到处拜师求艺,用了两年半的时间,整理20余万字笔记,经历上千次实验,成功将悠久的洛阳牡丹文化https://finance.sina.cn/2024-02-23/detail-inaiztcc0640941.d.html
12.掼蛋实战100例技巧分析掼蛋新手从入门到精通实战教程自学教程组《掼蛋实战100例技巧分析 掼蛋新手从入门到精通实战教程自学教程 组牌技巧教程自学大全书籍》,作者:掼蛋实战100例技巧分析 掼蛋新手从入门到精通实战教程自学教程 组牌技巧教程自学大全书籍唐先武 著,出版社:安徽科学技术出版社,ISBN:9787533776428。http://product.m.dangdang.com/11480305513.html
13.百分考试网百分考试网-中国自考网在线学习平台为您提供自考在线课程,自考真题在线测试,自考互动问题等服务。https://ks.exam100.net/
14.自学报告(推荐10篇)自学报告【篇9】 一、基本情况 我校是一所农村九年一贯制学校,现有45个教学班,学生1632人,下辖三所村级完小,有专职体育教师5名,兼职体育教师9名,体育教师缺额6人,本部有200米田径场一块,篮球场地一块,器械体操区100多平方米,相关体育器械安装到位,还有一些必要的辅助性体育器材。体育器材、场地的管理有专人负https://www.liuxue86.com/a/4870494.html
15.2022年奥斯卡获奖影片盘点(含片源)悟空智能科技丨互联网丨职场丨商业 优质内容,每日更新 海量知识,一键领取 1000+份大数据热门报告 500+人工智能热门书籍 500+互联网优质软件+PPT 100+豆瓣高分书籍 2000本kindle高分书籍,45G小程序资料…… 300+麦肯锡、高盛、波士顿等机构研究报告 57套思维导图类PPT模板+ 思维导图自学手册 https://www.shangyexinzhi.com/article/4990540.html
16.百考试题网自学考试 ·自考教材大纲,自考教材,自考教材大纲目录 ·浙江2012年4月自考用书目录 ·2012年自考管理系统中计算机应用、计算机原理 ·上海2012年4月自考全国统考课程教材考纲书目 ·上海2012年4月自考市级统考课程100Tes ·湖北自考管理系统中计算机应用等新版大纲教材启用 https://100test.com/
17.设栈网设栈网-超过100万用户信赖的自学平台,海量设计教程、办公软件、职业技能、app软件互动问答等视频教程在线学 ,设站网助你快乐学习,成就精彩人生!https://pidoutv.com/sites/10980.html
18.护士个人进修学习计划(精选16篇)六、参加“华医网”远程教育:中级职称及以上人员必须参加“华医网”远程教育,初级职称(护师)没有参加函授学习护理人员也必须参加“华医网”远程教育,其余护理人员自愿参加。 七、自学专业知识:每位卫生技术人员制定自学本专业或相关知识计划,上交科室负责人审批,并手写自学笔记5000字,年底将计划及笔记上交医教科备案。 https://mip.ruiwen.com/xuexijihua/1286395.html