Nature2017AlphaGoZero强化学习论文解读系列(二)

人工智能的长远目标之一就是研发出一种能够从白板开始学习,并逐渐进化成拥有超常能力的算法。目前,AlphaGo成为了第一个打败围棋世界冠军的程序。AlphaGo的核心是使用深度网络在蒙特卡罗树搜索过程中进行棋盘局势判断和走棋选择决策。这些深度网络使用监督学习的方法从人类专家棋谱中进行训练,使用强化学习的方法从自我对弈的过程中进行训练。本文介绍一种只使用强化学习的训练算法,除了需要基本的围棋规则以外,不需要人类围棋数据、指导和领域知识。本文使用强化学习得到的深度网络能够同时进行棋盘局势判断预测获胜者,以及走棋选择决策。这个深度网络能够提高树搜索的优势,使得在下一次迭代时,保证更高质量的走棋选择,以及更强的自我对弈。AlphaGoZero从白板开始学习,能够达到超常的能力,并在实践中,以100:0的绝对优势战胜了此前发布的、打败欧洲围棋世界冠军的AlphaGo。

目前人工智能领域的成就主要得益于监督学习,使用监督学习的方法从人类专家数据中进行训练,达到复制、模仿人类专家决策的目的。然而,人类专家的数据通常是昂贵、不可靠甚至不可得到的。即使能够得到可靠的专家数据,训练得到的监督学习系统通常也会达到一个性能瓶颈。相反,强化学习系统从自我经历中训练,原则上可以超越人类的能力,并且能够发掘出人类不曾发现的未知领域。目前,使用强化学习训练的深度神经网络在这一目标上已经取得了快速的发展。例如计算机游戏Atari、3D虚拟环境等,强化学习系统已经超越了人类水平。然而,对于人工智能领域最富挑战性的围棋游戏,上述通用的方法还无法取得和人类水平相当的成就,主要是因为围棋游戏需要在一个浩大的搜索空间中进行精准、复杂的lookahead搜索。

AlphaGo是第一个在围棋领域达到超越人类水平的程序。此前发布的AlphaGoFan打败了欧洲围棋冠军FanHui。回顾一下,AlphaGo使用两个深度网络,策略网络输出下一步走棋的概率分布,值网络判断当前棋面局势,预测获胜者。策略网络一开始使用监督学习的方式,用于加快预测专家走棋;随后使用PolicyGradient的强化学习算法进行重新优化。值网络从策略网络自我对弈过程中进行训练学习,用于预测获胜者。离线训练完后,再使用蒙特卡罗搜索树将深度网络结合起来,使用策略网络将搜索局限在高概率的动作,使用值网络(和FastRolloutPolicy结合)来评估叶子节点的棋面局势,多次执行蒙特卡罗模拟,最终选择访问次数最多的边对应的动作为下一步棋的下法。值得注意的是,后续发布的AlphaGoLee使用了相似的方法,打败了18届围棋世界冠军李世石。

AlphaGoZero不同于AlphaGoFan和AlphaGoLee。主要体现在如下几个方面:

为了实现上述目标,本文研究出一种新的强化学习训练算法,将蒙特卡罗树搜索树纳入训练阶段。新的算法使得性能提升更快、学习更加精确和稳定。

ExpandandEvaluate:叶子节点访问次数达到一个阈值时,此时进行扩展并评估。使用神经网络产生先验概率和评估值。。「此处体现了神经网络是如何指导蒙特卡罗搜索的」。

Play:多次模拟过程结束后,得到搜索概率分布,搜索概率正比于访问次数的某次方,称为温度参数(temperatureparameter)。那么最终的走棋Play,可以使用该分布来抽样动作。

上述描述的是连续训练的版本,即每次都使用最新轮次的神经网络进行自我对弈和产生训练数据,实际自我对弈和训练过程中,部分细节和上述不大一样:

使用强化学习管道方式来进行AlphaGoZero的训练。训练从完全随机的行为开始,一直持续3天,期间不需要人为的干涉。在这个过程中,总共生成了490万个自我对弈棋局,每次蒙特卡罗搜索进行1600次模拟,相应的每步走棋平均花费0.4s,神经网络的参数使用70万个minibatch,每个minibatch包含2048个棋面进行更新,该残差神经网络包含20个残差块residualblocks。

a)合并了PolicyNetwork和ValueNetwork;

b)用ResNet替换了CovNet;

c)强化学习训练算法从PolicyGradient改为PolicyIteration.

AlphaGoZero中的改进值得我们思考,最振奋人心的就是排除了人类棋谱数据和人工特征,完全从强化学习自我对弈过程中进行学习。这其中有两点感悟。

引用周志华的一段话,“如果说深度学习能在模式识别应用中取代人工设计特征,那么这里显示出强化学习能在启发式搜索中取代人工设计评分函数。这个意义重大。启发式搜索这个人工智能传统领域可能因此巨变,或许不亚于模式识别计算机视觉领域因深度学习而产生的巨变。机器学习进一步蚕食其他人工智能技术领域。”

可以看出这里面的核心包括深度学习、强化学习、启发式搜索。本文分别对这三个方面都有所改进,深度学习体现在ResNet的使用以及合并两个神经网络;强化学习体现在PolicyIteration算法的使用,启发式搜索体现在引入PolicyIteration训练过程以及改进蒙特模拟过程(Expansion、Evaluation合并、最终动作决策由选择访问次数最多的动作改成根据访问次数计算动作分布,再随机抽样动作)。这里面的核心中的核心仍然是蒙特卡罗搜索,深度学习和强化学习都是为蒙特卡罗搜索服务的。

可能可以改进的几个核心要素包括单一的改进以及多种元素的结合方式改进。例如强化学习算法中最终报酬函数的设计、深度学习中是否有更好的网络架构,如SENet等、蒙特卡罗搜索树除了用在强化学习算法中,能否用在深度学习算法中,指导误差的反向传播等;蒙特卡罗模拟结束后,是否有其他更好方式来计算动作概率分布。当然另一方面,有没有新的领域能够替代蒙特卡罗搜索树的核心地位,具有前瞻性的问题是否只有通过大量模拟才能得到反馈,是否还有其他的方式能够更好的进行反馈。

知乎:如何评价AlphaGoZero?

AlphaZero实战

「阿尔法狗」再进化!

(1)点击页面最上方'AINLP',进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

THE END
1.腾讯音乐娱乐科技申请神经网络模型训练专利,得到适用于终端的神经腾讯音乐娱乐科技申请神经网络模型训练专利,得到适用于终端的神经网络模型 快报金融界灵通君 北京 0 打开网易新闻 体验效果更佳猎豹饿肚子一周,为了活着牺牲太多,强者从不抱怨环境! 爱搞笑的晨晨 1212跟贴 打开APP 猥琐之王封神之作,学长任昌丁花式追女神,让人看得又笑又哭 小古趣影 481跟贴 打开APP 严格追究https://m.163.com/v/video/VPI2DMLA6.html
2.利用EdgeImpulse在线网站自行训练神经网络进行分类识别而基于STM32H7的OpenMV机器视觉模组和云端AI平台Edge Impulse合作,就很好的打通了从数据收集、打标,NN模型训练、优化到部署的整个流程。 去年4月份我们的新品OpenMV4 H7 Plus上市啦,今天我来给大家介绍一下OpenMV4 H7 Plus的新功能——利用EdgeImpulse在线网站自行训练神经网络进行分类识别。 https://www.elecfans.com/d/1532483.html
3.随时间在线训练脉冲神经网络模型的图像数据分类方法与流程10.为了克服上述现有技术的不足,本发明提供一种基于随时间在线训练的脉冲神经网络模型进行图像视觉数据分类的方法,方法取名为ottt(online training through time)。通过本发明提供的方法,可以在训练snn模型时极大地减小训练内存的开销,将训练得到的模型用于计算机图像数据和神经形态图像视觉数据的分类与识别等视觉任务,能够https://www.xjishu.com/zhuanli/55/202210694741.html
4.如何训练YOLOv5神经网络(本地+云端)yolo在线训练1. 本地上训练YOLOv5 # 指定好训练好的模型的路径,然后用这个训练好的模型来初始化我们网络当中的参数,一般训练时都是一开始来进行训练,即default为空 # default='' Yolov5s.pt Yolov5m.pt Yolov5l.pt Yolov5x.pt parser.add_argument('--weights', type=str, default='', help='initial weights https://blog.csdn.net/m0_52127604/article/details/124810089
5.精雕细琢:如何训练一个卷积神经网络在线免费阅读前一章讲解了如何构建一个卷积神经网络,如何使一个卷积神经网络达到期望的分类或预测效果,这就需要对网络进行合理的训练。本章将结合案例介绍卷积神经网络训练的方法、步骤和技巧。 3.1 基本概念一点通 从数学角度看,机器学习的目标是建立起输入数据与输出的函数关系,如果用x代表输入数据、用y代表输出,机器学习的目标https://fanqienovel.com/reader/7109745755388120079
6.机器学习术语表:机器学习基础知识MachineLearningGoogle训练神经网络涉及多次迭代以下两步循环: 在正向传递期间,系统会处理一批用于生成预测结果的样本。系统会将每个 根据每个标签值进行预测。两者的区别在于 预测值,标签值是该样本的损失。 系统会汇总所有样本的损失,以计算总的 当前批次的损失。 在反向传播(反向传播算法)期间,系统会通过以下方式减少损失: 调整所有神经元https://developers.google.cn/machine-learning/glossary/fundamentals?hl=zh-cn
7.智能车竞赛技术报告智能车视觉中国矿业大学我们独立完成了控制方案及系统设计,包括电磁信号采集处理、赛道图像信号采集处理、循迹控制算法及执行、动力电机驱动、十分类神经网络训练、靶标图片识别、单片机之间通信等,最终实现了具有 AI视觉功能的基于电磁与摄像头的快速寻迹智能车控制系统。 智能车是一个软硬件与机械相结合的整体,其中硬件主要包括电源模块、电机https://www.eefocus.com/article/503552.html
8.科学网—[转载]群视角下的多智能体强化学习方法综述通过训练神经网络参数化的策略,能够以完全分散的方式控制集群中的单个无人机。仿真实验展示了先进的群集行为,在紧密队形中执行攻击性机动,同时避免相互碰撞,打破和重新建立队形以避免与移动障碍物碰撞,并在“追赶—逃避”任务中有效协作。此外,模拟环境中学习到的模型可以成功部署到真实的四旋翼无人机上。 2.6 可扩展https://blog.sciencenet.cn/home.php?mod=space&uid=3472670&do=blog&id=1422698
9.带惩罚项的BP神经网络在线梯度法带惩罚项的BP神经网络在线梯度法,BP神经网络,惩罚项, 在线梯度法, 有界, 收敛,多层前传神经网络在许多领域有着广泛的应用。网络的泛化能力,即网络在训练集以外的样本上的精度,是标志神经网络性能的一个重要https://wap.cnki.net/touch/web/Dissertation/Article/2004094593.nh.html
10.2020年最值得收藏的60个AI开源工具语言&开发李冬梅你可以用开发者训练好的深度神经网络来编辑所有类型的人脸照片。SC-FEGAN 非常适合使用直观的用户输入与草图和颜色生成高质量的合成图像。 项目地址:https://github.com/JoYoungjoo/SC-FEGAN LazyNLP (用于创建海量文本数据集) LazyNLP 的使用门槛很低——用户可以使用它爬网页、清洗数据或创建海量单语数据集。 https://www.infoq.cn/article/2uabiqaxicqifhqikeqw
11.基于机器学习的自适应码率算法的进一步探索与改进2、改善训练效率,在线终身学习 第二个挑战来自强化学习的低训练效率。在强化学习方案中,智能体通过与环境交互获得{状态,动作,回报}集合,随后通过学习增大每次动作获得的回报。然而,在学习过程中,智能体无法获取在当前状态下的最优动作,因此不能为神经网络提供准确的梯度方向更新,基于强化学习的ABR算法也遭受着这个缺点https://www.thepaper.cn/newsDetail_forward_8338381
12.分析股市预测的深度学习技术持续学习是一种用于连续地学习用于若干任务的模型同时牢记从较早任务学习的信息的技术,其中在训练新任务期间旧任务中的数据不再可用。因此,持续学习允许神经网络在股票预测的不同任务中连续地积累知识并且减轻灾难性遗忘。对于股票预测任务,深度模型主要在静态均匀分布的数据集上进行训练,这些数据集无法随时间调整或扩展其https://maimai.cn/article/detail?fid=1810610871&efid=k8hnL1-NvJ2kAfW8I85mSg
13.7.3.2用Deeplearning4j训练卷积神经网络.pdf范东来7.3.2用Deeplearning4j训练卷积神经网络.pdf-范东来-人民邮电出版社 关闭预览 想预览更多内容,点击免费在线预览全文 免费在线预览全文 254第7章Spark深度学习:Deeplearning4j络的感受野以一个像素的步长进行滑动,C1层选用了6种卷积核,代表了6种特征。从这里可以看出,卷积层的 https://max.book118.com/html/2021/0819/7031135200003162.shtm
14.机器学习:使用批归一化有哪些缺点?典型的在线学习管道 由于它依赖于外部数据源,数据可以单独到达,也可以成批到达。由于每次迭代中batch size的变化,它不能很好地概括输入数据的规模和shift,这最终会影响性能。 不适用于循环神经网络 在卷积神经网络中,尽管批归一化可以显著提高训练速度和泛化能力,但事实证明,它们很难应用于循环体系结构。批归一化可以应https://www.51cto.com/article/616760.html