清北联合出品!一篇Survey整明白「Transformer+强化学习」的来龙去脉方向算法神经网络智能体

【新智元导读】Transformer与强化学习结合的综述!

Transformer模型自发布后,很快就成了自然语言处理和计算机视觉领域在有监督学习设置下的主流神经架构。

最近来自清华大学、北京大学、腾讯的研究人员联手发表了一篇关于Transformer与强化学习结合的调研论文,系统性地回顾了在强化学习中使用Transformer的动机和发展历程。

Transformer配RL

强化学习(RL)为序列决策(sequentialdecision-making)提供了一个数学化的形式,可以让模型自动获得智能行为。

RL为基于学习的控制提供了一个通用框架,随着深度神经网络的引入,深度强化学习(DRL)的通用性在近年来也取得了巨大的进展,但样本效率问题阻碍了DRL在现实世界中的广泛应用。

为了解决这个问题,一个有效的机制是在DRL框架中引入inductivebias,其中比较重要的是函数近似器架构的选择(thechoiceoffunctionapproximatorarchitectures),例如DRL智能体的神经网络的参数化。

然而,与监督学习(SL)中的架构设计相比,在DRL中选择架构设计的问题仍然没有得到充分的探讨,大多数现有的关于RL架构的工作是由(半)监督学习社区的成功所激发的。

例如,处理DRL中基于图像的高维输入的常见做法是引入卷积神经网络(CNN);处理部分可观察性的另一种常见做法是引入递归神经网络(RNN)。

近年来,Transformer架构在广泛的SL任务中彻底改变了学习范式,并表现出比CNN和RNN更优越的性能,比如Transformer架构能够对较长的依赖关系进行建模,并具有出色的可扩展性。

受SL成功启发,行业内对在强化学习中应用Transformer的兴趣激增,最早可以追溯到2018年的一篇论文,其中自注意机制被用于结构化状态表示的关系推理。

之后,许多研究人员开始试图将自注意力应用于表示学习,以提取实体之间的关系,从而可以更好地进行策略学习。

这篇调研论文的目的是介绍TransformersinReinforcementLearning领域(TransformRL)。

尽管Transformer已经被认为是目前大多数SL研究的基础模型,但它在RL社区的探索仍然较少。事实上,与SL领域相比,在RL中使用Transformer作为函数近似器需要解决一些不同的问题:

1.RL智能体的训练数据通常是当前策略的函数,这在Transformer学习的过程中会引起不平稳性(non-stationarity)。

2.现有的RL算法通常对训练过程中的设计选择高度敏感,包括网络架构和容量等。

3.基于Transformer的架构经常受到高计算和内存成本的影响,也就是说训练和推理起来既慢又贵。

比如在一些游戏中的人工智能案例中,样本生成的效率在很大程度上影响了训练性能,取决于RL策略网络和价值网络的计算成本。

TransformRL的未来

论文中简要回顾了TransformersforRL的进展情况,其优势主要包括:

1.Transformers可以作为RL中的一个powerful模块,比如作为一个表示模块或世界模型;

2.Transformer可以作为一个序列决策器;

3.Transformer可以提升跨任务和领域的泛化性能。

鉴于Transformer在更广泛的人工智能社区都表现出强大的性能,研究人员认为将Transformer和RL结合起来是一个有前途的研究方向,下面是一些关于该方向的未来前景和开放性问题。

结合强化学习和(自)监督学习

追溯TransformRL的发展,可以发现其训练方法同时涵盖了RL和(自)监督学习。

当作为一个在传统RL框架下训练的表示模块时,Transformer架构的优化通常是不稳定的。当使用Transformer通过序列建模来解决决策问题时,(自)监督学习范式可以消除deadlytriadproblem。

在(自)监督学习的框架下,策略的性能深受离线数据质量的约束,利用(exploitation)和探索(exploration)之间的明确权衡不复存在,因此在Transformer学习中结合RL和(自)监督学习时,可能会学到更好的策略。

一些工作已经尝试了监督预训练和RL参与的微调方案,但在相对固定的策略下,探索会受到限制,这也是有待解决的瓶颈问题之一。

另外,沿着这条路线,用于性能评估的任务也相对简单,Transfomer是否可以将这种(自)监督学习扩展到更大的数据集、更复杂的环境和现实世界的应用也值得进一步探索。

此外,研究人员希望未来的工作能够提供更多的理论和经验见解,以确定在哪些条件下这种(自)监督学习有望表现良好。

通过Transformer连接在线和离线学习

踏入离线RL是TransformRL的一个里程碑,但实际上,利用Transformer来捕捉决策序列中的依赖关系并抽象出策略,主要是与所使用的相当多的离线数据的支持分不开的。

然而,对于一些决策任务来说,在实际应用中摆脱在线框架是不可行的。

一方面,在某些任务中获得专家数据并不那么容易;另一方面,有些环境是开放式的(如Minecraft),这意味着策略必须不断调整,以处理在线互动过程中未见的任务。

因此,研究人员认为把在线学习和离线学习连接在一起是必要的。

DecisionTransformer之后的大多数研究进展都集中在离线学习框架上,一些工作试图采用离线预训练和在线微调的范式。然而,在线微调中的分布转变仍然存在于离线RL算法中,研究人员期望通过对DecisionTransformer进行一些特殊设计来解决这个问题。

此外,如何从头开始训练一个在线DecisionTransformer是一个有趣的开放性问题。

为Decision-making问题量身定做的Transformer结构

目前DecisionTransformer系列方法中的Transformer结构主要是vanillaTransformer,它最初是为文本序列设计的,可能具有一些不适合决策问题的性质。

例如,对轨迹序列采用vanilla的自注意力机制是否合适?决策序列中的不同元素或同一元素的不同部分是否需要在位置embedding中加以区分?

此外,由于在不同的DecisionTransformer算法中,将轨迹表示为序列的变体有很多,如何从中选择,仍缺乏系统的研究。

例如,在行业中部署此类算法时,如何选择稳健的hindsight信息?

并且vanillaTransformer也是一个计算成本巨大的结构,这使得它在训练和推理阶段都很昂贵,而且内存占用率很高,也限制了它捕获依赖关系的长度。

为了缓解这些问题,NLP中的一些工作改进了Transformer的结构,但类似的结构是否可以用于决策问题也值得探讨。

用Transformer实现更多的通用智能体

论文中对通用智能体(generalistagents)Transformers的回顾已经显示了Transformers作为一种通用策略的潜力。

事实上,Transformer的设计允许使用类似处理blocks的方式来处理多种模态(如图像、视频、文本和语音),并展示了对超大容量网络和巨大数据集的出色可扩展性。

最近的工作也在训练能够执行多模态和跨领域任务的智能体上取得了重大进展。

不过,鉴于这些智能体是在大规模的数据集上进行训练的,目前还不能确定它们是否只是记住了数据集,以及它们是否能进行有效的泛化。

因此,如何学习到一个能够在没有强假设(strongassumption)的情况下对未见过的任务进行泛化的智能体仍然是一个值得研究的问题。

此外,研究人员也很好奇,Transformer是否足够强大到可以用来学习一个可用于不同任务和场景的通用世界模型。

RLforTransformers

可以看到,最近来自人类反馈的强化学习(RLHF)可以学习到一个奖励模型,并使用RL算法对Transformer进行微调,以使语言模型与人类意图相一致。

在未来,研究人员认为RL可以成为一个有用的工具,进一步完善Transformer在其他领域的表现。

THE END
1.人工智能赋能混合式教学路径其次是完整收集学生的课前、课中和课后的学习过程和状态,形成准确的学情报告。此外,全覆盖的特征还表现在24小时在线,随时准备为师生提供针对线上教学技术操作及网络环境问题等内容的在线培训和咨询服务。 人工智能赋予网络教学管理体系的“多维化”,首要表现为教学督导主体与视角的多样性。借助人工智能技术收集、分析与https://www.nchvc.edu.cn/ggwhb/info/1009/4203.htm
2.个性化在线学习:实现知识传递的高效化个性化在线学习是指根据学习者的个性化特征(如兴趣、能力、学习习惯等),为其提供定制化的在线学习体验。随着互联网和人工智能技术的发展,个性化在线学习已经成为教育领域的一个热门话题。在传统教育模式下,教师难以满足每个学生的个性化需求,而个性化在线学习则可以根据学生的需求提供定制化的学习资源和路径,从而实现知识传递https://blog.csdn.net/universsky2015/article/details/135806952
3.数字技术改变传统课堂徐州市云龙区教育局有关负责人表示:“课前,老师可以通过‘云码’推送微课、实现数字化预习,结合问卷星等大数据分析工具对学生进行学情调查,对学生自主学习情况做出精准分析,这也是教师开展二次备课的依据。课中,教师根据学情分析结果为学生推送匹配的学习资源,实现学习资源的分层共享功能。课后,指导学生根据自身学习的薄https://www.tjjw.gov.cn/llsy/2023/02/20/detail_2023022072045.html
4.在线学习有什么特点?现如今人们在教育上的需求有了明显的转变,因为工作和日常生活的琐碎,所以没有时间到指定的地点去学习,而在线学习平台的出现满足了他们的一切要求。不需要受到时间的限制,随时随地都能学习,加快了学习进度,也提升了学习效率。那么,除了学习方式灵活,还有哪些特点呢? https://www.ckjr001.com/newsdetail/1412.html
5.线上培训方案(精选14篇)6、线上教学内容要求,小学中高年级在复习巩固基础上,可采取微课推送、课外阅读、新课导学、重点知识串讲辅导等相结合方式提高线上教学效果;小学低年级不得开展线上课程教学,可通过推送学习资源和活动方案等方式,指导家长安排好学生居家学习和生活。 7、按照课表上课,教师要讲练结合,给学生答疑,要布置适量的'作业,根据https://www.ruiwen.com/fangan/6607293.html
6.线上线下融合教学的优势不足与发展策略内容线上线下融合教学主要包含传统课堂学习和使用Internet平台和信息技术的在线学习两种学习方式。是利用信息化技术,将“线上+线下”教学有效结合起来的一种新型的教学模式。此外线上线下融合教学具有鲜明的教学特征: 首先,在教学方式上:以信息网络的学习平台为载体,以现代信息技术为媒介,依靠手机,平板电脑等个人智能终端设备https://tpd.xhedu.sh.cn/cms/app/info/doc/index.php/92024
7.科学网—[转载]强化学习在资源优化领域的应用当业务环境发生变化时,智能体能够及时地利用数据中蕴含的变化信号,从而更加迅速和敏锐地通过与业务环境的交互重新找到合适的优化方案。鉴于这些特点,近年来强化学习算法结合行业大数据的解决方案在资源优化领域得到越来越多的应用,并取得了一系列优秀的成果。 基于这种行业趋势,本文针对强化学习算法在资源优化领域的应用展开https://blog.sciencenet.cn/blog-3472670-1312677.html
8.线上学习方案1、预先布置自主学习任务,高度重视自主学习的方法指导,同步与异步紧密结合,丰富并创新教学激励办法。 2、线上教学应注意低起点、小容量、小步慢走、知识点分解、精内容、多互动、有展示、勤反馈、有效率、作业控制总量,注意营造教学情境感和现场感,要创新教学方式,增加师生互动,关注过程监督,务求提高实效。 https://www.unjs.com/fanwenku/419088.html
9.学堂在线学堂在线简述 学堂在线为学生提供线上学习支持,包括但不限于:(1)包括图文、视频、讨论、作业等学习单元的学习;(2)视频下载及离线观看;(3)公告区与讨论区师生、同学间互动;(4)线上考试。 网络行为准则 您同意对您使用本产品和您的用户发布内容承担责任。“用户发布内容”是指您和本产品的其他用户在本产品上提交https://www.xuetangx.com/app/protocol
10.在线学习App排行榜OPPO手机在线学习app推荐中欧在线学习 应用描述“中欧商业在线”是由中欧商业在线推出的手机2.0学习客户端 本应用需要购买课程(详情请查询中欧商业在线官网),获得用户名和密码后,才能登录学习,获得学习资源。主要特性: 1. 支持学习课件(视频,测验)、离线学习 2. 支持在线考试,评价 3. 手机端学习数据与PC端数据同步 4. 实时接收培训管理者https://www.diandian.com/phb/1335/5-1.html
11.强化学习的基本概念在线学习和离线学习针对的是在强化学习模型在训练过程中交互数据的使用方式。在线学习的强化学习模型,会在一个交互之后,立即用本次交互得到的经验进行训练。而离线学习的强化学习模型,往往是先将多个交互的经验存储起来,然后在学习的时候,从存储的经验中取出一批交互经验来学习。 https://www.jianshu.com/p/28625d3a60e6
12.报名入口培训考试公告职位表笔试培训报名学课在线梳理知识重难点,考点习题结合讲解 预计8-15讲公考价值 稳中求进的“铁饭碗” 工作稳定 现阶段我国的很多行业都面临着工作不稳定的问题,不知道什么时候就要失业。公务员的工作节奏不快,工作压力小,没有原则性问题的情况下更不用担心下岗待业,可以说是最稳定的职业之一。而大多考生报考公务员的目的也是图稳定。 社会地https://www.xuekaocn.cn/a/4673.aspx
13.蚂蚁金服新计算实践:基于Ray的融合计算引擎架构蔡芳芳随着计算和 AI 体系逐步成熟,我们希望机器学习应用能更多地在动态环境下运行、实时响应环境中的变化,这推动了机器学习从传统离线学习逐渐向在线学习演进。相比于传统的离线机器学习,在线学习可以带来更快的模型迭代速度,让模型预测效果更贴真实情况,对于线上的波动更加敏锐。https://www.infoq.cn/article/ualTzk5OwDb1crVHg7c1
14.宁波星程教育在线学习平台在线模考 海量全真模拟试题全面,覆盖各类考点记录。每次模考过程并汇总错题供 反复演练。 免费下载视频 名师课程、配套课程讲义免费下载。 考试通过率 科学教学规划采用多班次的渐进式教学体系,让学习层层递进,稳步锁分! 高清课程在线听 支持移动设备在线或离线学习,清晰展示同步板书,课件可下载,学习更 灵活!http://www.nbxcedu.com/
15.探索“互联网+”干部教育的移动学习结合大连经济社会发展实际和干部教育培训的现实需求,市委党校会同市委组织部、市人社局、财政局共同组成干部在线学习工作领导小组,统揽全市在线培训工作,确立了“统一领导、分工合作、三级管理”的干部在线培训管理体制,形成了上下联动、横向联合、共建共管共享的运行机制,从领导体制上适应了在线培训高度集成的特点。同时,坚https://opinion.cctv.com/m/a/index.shtml?id=ARTIJxE1Dlh4MlFUJ3BUnoEp160426