Nature2017AlphaGoZero强化学习论文解读系列(二)

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2020.12.04

人工智能的长远目标之一就是研发出一种能够从白板开始学习,并逐渐进化成拥有超常能力的算法。目前,AlphaGo成为了第一个打败围棋世界冠军的程序。AlphaGo的核心是使用深度网络在蒙特卡罗树搜索过程中进行棋盘局势判断和走棋选择决策。这些深度网络使用监督学习的方法从人类专家棋谱中进行训练,使用强化学习的方法从自我对弈的过程中进行训练。本文介绍一种只使用强化学习的训练算法,除了需要基本的围棋规则以外,不需要人类围棋数据、指导和领域知识。本文使用强化学习得到的深度网络能够同时进行棋盘局势判断预测获胜者,以及走棋选择决策。这个深度网络能够提高树搜索的优势,使得在下一次迭代时,保证更高质量的走棋选择,以及更强的自我对弈。AlphaGoZero从白板开始学习,能够达到超常的能力,并在实践中,以100:0的绝对优势战胜了此前发布的、打败欧洲围棋世界冠军的AlphaGo。

目前人工智能领域的成就主要得益于监督学习,使用监督学习的方法从人类专家数据中进行训练,达到复制、模仿人类专家决策的目的。然而,人类专家的数据通常是昂贵、不可靠甚至不可得到的。即使能够得到可靠的专家数据,训练得到的监督学习系统通常也会达到一个性能瓶颈。相反,强化学习系统从自我经历中训练,原则上可以超越人类的能力,并且能够发掘出人类不曾发现的未知领域。目前,使用强化学习训练的深度神经网络在这一目标上已经取得了快速的发展。例如计算机游戏Atari、3D虚拟环境等,强化学习系统已经超越了人类水平。然而,对于人工智能领域最富挑战性的围棋游戏,上述通用的方法还无法取得和人类水平相当的成就,主要是因为围棋游戏需要在一个浩大的搜索空间中进行精准、复杂的lookahead搜索。

AlphaGo是第一个在围棋领域达到超越人类水平的程序。此前发布的AlphaGoFan打败了欧洲围棋冠军FanHui。回顾一下,AlphaGo使用两个深度网络,策略网络输出下一步走棋的概率分布,值网络判断当前棋面局势,预测获胜者。策略网络一开始使用监督学习的方式,用于加快预测专家走棋;随后使用PolicyGradient的强化学习算法进行重新优化。值网络从策略网络自我对弈过程中进行训练学习,用于预测获胜者。离线训练完后,再使用蒙特卡罗搜索树将深度网络结合起来,使用策略网络将搜索局限在高概率的动作,使用值网络(和FastRolloutPolicy结合)来评估叶子节点的棋面局势,多次执行蒙特卡罗模拟,最终选择访问次数最多的边对应的动作为下一步棋的下法。值得注意的是,后续发布的AlphaGoLee使用了相似的方法,打败了18届围棋世界冠军李世石。

AlphaGoZero不同于AlphaGoFan和AlphaGoLee。主要体现在如下几个方面:

为了实现上述目标,本文研究出一种新的强化学习训练算法,将蒙特卡罗树搜索树纳入训练阶段。新的算法使得性能提升更快、学习更加精确和稳定。

ExpandandEvaluate:叶子节点访问次数达到一个阈值时,此时进行扩展并评估。使用神经网络产生先验概率和评估值。。「此处体现了神经网络是如何指导蒙特卡罗搜索的」。

Play:多次模拟过程结束后,得到搜索概率分布,搜索概率正比于访问次数的某次方,称为温度参数(temperatureparameter)。那么最终的走棋Play,可以使用该分布来抽样动作。

上述描述的是连续训练的版本,即每次都使用最新轮次的神经网络进行自我对弈和产生训练数据,实际自我对弈和训练过程中,部分细节和上述不大一样:

使用强化学习管道方式来进行AlphaGoZero的训练。训练从完全随机的行为开始,一直持续3天,期间不需要人为的干涉。在这个过程中,总共生成了490万个自我对弈棋局,每次蒙特卡罗搜索进行1600次模拟,相应的每步走棋平均花费0.4s,神经网络的参数使用70万个minibatch,每个minibatch包含2048个棋面进行更新,该残差神经网络包含20个残差块residualblocks。

a)合并了PolicyNetwork和ValueNetwork;

b)用ResNet替换了CovNet;

c)强化学习训练算法从PolicyGradient改为PolicyIteration.

AlphaGoZero中的改进值得我们思考,最振奋人心的就是排除了人类棋谱数据和人工特征,完全从强化学习自我对弈过程中进行学习。这其中有两点感悟。

引用周志华的一段话,“如果说深度学习能在模式识别应用中取代人工设计特征,那么这里显示出强化学习能在启发式搜索中取代人工设计评分函数。这个意义重大。启发式搜索这个人工智能传统领域可能因此巨变,或许不亚于模式识别计算机视觉领域因深度学习而产生的巨变。机器学习进一步蚕食其他人工智能技术领域。”

可以看出这里面的核心包括深度学习、强化学习、启发式搜索。本文分别对这三个方面都有所改进,深度学习体现在ResNet的使用以及合并两个神经网络;强化学习体现在PolicyIteration算法的使用,启发式搜索体现在引入PolicyIteration训练过程以及改进蒙特模拟过程(Expansion、Evaluation合并、最终动作决策由选择访问次数最多的动作改成根据访问次数计算动作分布,再随机抽样动作)。这里面的核心中的核心仍然是蒙特卡罗搜索,深度学习和强化学习都是为蒙特卡罗搜索服务的。

可能可以改进的几个核心要素包括单一的改进以及多种元素的结合方式改进。例如强化学习算法中最终报酬函数的设计、深度学习中是否有更好的网络架构,如SENet等、蒙特卡罗搜索树除了用在强化学习算法中,能否用在深度学习算法中,指导误差的反向传播等;蒙特卡罗模拟结束后,是否有其他更好方式来计算动作概率分布。当然另一方面,有没有新的领域能够替代蒙特卡罗搜索树的核心地位,具有前瞻性的问题是否只有通过大量模拟才能得到反馈,是否还有其他的方式能够更好的进行反馈。

知乎:如何评价AlphaGoZero?

AlphaZero实战

「阿尔法狗」再进化!

(1)点击页面最上方'AINLP',进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

THE END
1.ChatGPT与传统聊天机器人的不同之处chatgpt文章ChatGPT与传统聊天机器人的不同之处主要体现在模型架构、训练数据、对话连贯性、适应性和功能方面。 1. 模型架构: ChatGPT是基于深度学习的模型,使用了Transformer架构,这种架构可以处理长文本,同时具有较好的并行计算能力。 传统聊天机器人则多采用基于规则或基于统计的机器学习模型,需要手工设计规则,过程繁琐。 https://www.chatgptzc.com/chatgptwenzhang/49093.html
2.Neurips2024解读系列之——IlyaSutskever快速回顾了大家熟知的预训练的几个历史阶段以及scale law究竟scale在哪里,law是什么的经典结果图。 但是,尽管计算设备(更好的GPU,比如H200)还能提升,数据用完了,预训练似乎走到头了? 此处又给出了几种可能得解决办法, 发展Agent代理提高模型性能(时下比较火,又是一个大的方向) https://zhuanlan.zhihu.com/p/12741832800
3.机器学习中的在线学习与离线学习离线训练是什么意思离线学习:一个batch训练完才更新权重,这样的话要求所有的数据必须在每一个训练操作中(batch中)都是可用的,个人理解,这样不会因为偶然的错误把网络带向极端。 这种理解方式在国外论文中出现比较多,国外称为online and batch learning.离线就是对应batch learning.这两种方式各有优点,在线学习比较快,但是有比较高的残差https://blog.csdn.net/a493823882/article/details/83240496
4.大模型是什么意思大模型的应用嘲有哪些→MAIGOO知识大模型通常具有更多的参数和更复杂的结构,这使得大模型在实时性要求较低的场景下具有优势,例如离线批处理、离线训练、离线预测等。小模型通常具有较少的参数和简单的结构,这使得小模型在实时性要求较高的场景下具有优势。 复杂程度: 大模型通常具有更复杂的结构和更多的参数,这使得大模型能够处理更复杂的数据模式和关https://www.maigoo.com/goomai/315161.html
5.相比于离线训练,在线训练的好处有什么?问答离线训练毕竟使用的是 T-1 或者 T-2 的数据去做的,没有对线上实时产生的行为数据进行利用,对于数据的时效性利用相对较差。 比如说,有这样的一个场景,今天我的整个平台只对 14 岁以下的少女做某个运营活动,而平台上充斥了大量的年龄段的客户,整个平台的交互行为都变了,这个时候你的模型还是 T-1 去做的,将https://developer.aliyun.com/ask/446535
6.亭台楼阁范文10篇(全文)1. 鉴赏是什么意思? 提示:评品欣赏 2. 我们来评品欣赏一下本文的美主要体现在哪些方面? (讨论) 提示:归纳鉴赏散文的方法 通常可以从两个大的方面来评价欣赏一篇散文: 1) 语言, 作者的遣词造句是否具有美感, 这叫言内之美, 本文的语言之美体现在修辞美、诗意美、联想美等方面; https://www.99xueshu.com/w/ikeybm7iw2tp.html
7.淘宝推荐嘲的利器:融合复杂目标且支持实时调控的重排模型一个重排模型在线上能为一个权重生成好的序列,一定是因为它在离线训练的时候就已经见过这套权重或者相似的权重了。所以在离线训练的时候,对于每一个 training 的 sample 或者每一个 training 的 batch,都是采样一个 w 做训练的,因为不知道线上真实会遇到什么样的 w,进行采样。https://www.51cto.com/article/773581.html
8.GitHubShaoQiBNU/Google论文对比了上述所有结构的MTL在腾讯视频VCR和VTR两个任务上相对单任务模型的离线训练结果: 可以看到,几乎所有的网络结构都是在一个任务上表现优于单任务模型,而在另一个任务上表现差于单任务模型。尽管MMoE有了一定的改进,在VTR上取得了不错的收益,但在VCR上的收益接近于0。 https://github.com/ShaoQiBNU/Google_MTL
9.推荐模型离线评测效果好,线上效果却不佳的原因推荐系统里非常常见,并且往往非常的隐蔽的一种数据分布不一致的情况被称之为冰山效应,也就是说离线训练用的是有偏的冰山上的数据,而在线上预估的时候,需要预测的是整个冰山的数据,包括大量冰面以下的数据!我们看下面这张图。左边是我们的Baseline,绿色的表示正样本,红色表示负样本,灰色部分表示线上由于推荐系统的“https://www.jianshu.com/p/34489b31c783
10.系统回顾深度强化学习预训练,在线离线等研究这一篇就够了为了追求更少监督的大规模预训练,无监督 RL 领域发展迅速,它允许智能体在没有奖励信号的情况下从与环境的互动中学习。此外,离线强化学习 (offline RL) 发展迅猛,又促使研究人员进一步考虑如何利用无标签和次优的离线数据进行预训练。最后,基于多任务和多模态数据的离线训练方法进一步为通用的预训练范式铺平了道路。https://m.thepaper.cn/newsDetail_forward_20718623
11.如何在本地(离线)使用PrivateGPT训练自定义AI聊天机器人2. PrivateGPT可以离线使用,无需连接任何在线服务器,也无需从OpenAI或Pinecone添加任何API密钥。为了便于使用,它在你的电脑上本地运行一个LLM模型。因此,你必须在你的电脑上下载一个与GPT4All-J兼容的LLM模型。我在下面添加了详细的步骤供你参考。 设置环境来训练一个私人的AI聊天机器人 https://www.wbolt.com/how-train-ai-chatbot-using-privategpt-offline.html
12.chapter111.md·StarTogether/mlopsbook用户T-1 时刻发生的行为(播放某首歌、观看某个主播、打赏/付费),需要在T时刻实时反馈到训练数据中,提供模型学习 下图2-4一个比较常见的特征实时化的实现框架图,主要包括日志系统、离线画像、实时画像,通过 storm、flink、kafka 完成实时数据的处理和传输, 并存储在 hbase 和 redis 中,最后落盘到 hdfs 中。实时https://api.gitee.com/StarTogether/mlops-book/blob/master/chapter-11-1.md
13.蚂蚁金服核心技术:百亿特征实时推荐算法揭秘备注:弹性特征带来一个显著的优势:只要用足够强的L1稀疏性约束,在单机上就能调试任意大规模的特征训练,带来很多方便。我们的hashmap实现是KV化的,key是特征,value是vector的首地址。 离线训练优化 经过这样的改造后,在离线批量学习上,带来了以下变化: 在线训练优化 https://maimai.cn/article/detail?fid=1010621115&efid=mIQCHnkj0zjxlpygUmo5mg
14.基于多时间尺度多智能体深度强化学习无功电压控制方法与流程8.(2)将有载调压分接头(oltc)、电容器组(cb)和储能(es)均定义为智能体,在第一时间尺度阶段,搭建环境和智能体交互的马尔科夫决策过程的交互训练环境;在该过程的交互训练中,输入光伏、风机和负荷的预测数据,采用ddqn算法(double q network)进行离线训练无功优化离散动作策略;训练完毕,得到智能体oltc、cb和es的调https://www.xjishu.com/zhuanli/60/202110597000.html
15.曾真论大模型预训练数据的信息披露另一方面,数据缺乏时效性。模型通常是离线完成预训练后加载到系统中,在与用户交互时通常也不像搜索引擎那样联网寻找答案,因而信息的时效性欠缺;有的系统搭载了检索增强模块,允许模型访问特定的在线知识数据库,但当模型从多个来源聚合信息,结果可能还是从不同文档截取出部分合成一个仍有错误的回答。https://www.jfdaily.com/sgh/detail?id=1258325