清北联合出品!一篇Survey整明白「Transformer+强化学习」的来龙去脉方向算法神经网络智能体

【新智元导读】Transformer与强化学习结合的综述!

Transformer模型自发布后,很快就成了自然语言处理和计算机视觉领域在有监督学习设置下的主流神经架构。

最近来自清华大学、北京大学、腾讯的研究人员联手发表了一篇关于Transformer与强化学习结合的调研论文,系统性地回顾了在强化学习中使用Transformer的动机和发展历程。

Transformer配RL

强化学习(RL)为序列决策(sequentialdecision-making)提供了一个数学化的形式,可以让模型自动获得智能行为。

RL为基于学习的控制提供了一个通用框架,随着深度神经网络的引入,深度强化学习(DRL)的通用性在近年来也取得了巨大的进展,但样本效率问题阻碍了DRL在现实世界中的广泛应用。

为了解决这个问题,一个有效的机制是在DRL框架中引入inductivebias,其中比较重要的是函数近似器架构的选择(thechoiceoffunctionapproximatorarchitectures),例如DRL智能体的神经网络的参数化。

然而,与监督学习(SL)中的架构设计相比,在DRL中选择架构设计的问题仍然没有得到充分的探讨,大多数现有的关于RL架构的工作是由(半)监督学习社区的成功所激发的。

例如,处理DRL中基于图像的高维输入的常见做法是引入卷积神经网络(CNN);处理部分可观察性的另一种常见做法是引入递归神经网络(RNN)。

近年来,Transformer架构在广泛的SL任务中彻底改变了学习范式,并表现出比CNN和RNN更优越的性能,比如Transformer架构能够对较长的依赖关系进行建模,并具有出色的可扩展性。

受SL成功启发,行业内对在强化学习中应用Transformer的兴趣激增,最早可以追溯到2018年的一篇论文,其中自注意机制被用于结构化状态表示的关系推理。

之后,许多研究人员开始试图将自注意力应用于表示学习,以提取实体之间的关系,从而可以更好地进行策略学习。

这篇调研论文的目的是介绍TransformersinReinforcementLearning领域(TransformRL)。

尽管Transformer已经被认为是目前大多数SL研究的基础模型,但它在RL社区的探索仍然较少。事实上,与SL领域相比,在RL中使用Transformer作为函数近似器需要解决一些不同的问题:

1.RL智能体的训练数据通常是当前策略的函数,这在Transformer学习的过程中会引起不平稳性(non-stationarity)。

2.现有的RL算法通常对训练过程中的设计选择高度敏感,包括网络架构和容量等。

3.基于Transformer的架构经常受到高计算和内存成本的影响,也就是说训练和推理起来既慢又贵。

比如在一些游戏中的人工智能案例中,样本生成的效率在很大程度上影响了训练性能,取决于RL策略网络和价值网络的计算成本。

TransformRL的未来

论文中简要回顾了TransformersforRL的进展情况,其优势主要包括:

1.Transformers可以作为RL中的一个powerful模块,比如作为一个表示模块或世界模型;

2.Transformer可以作为一个序列决策器;

3.Transformer可以提升跨任务和领域的泛化性能。

鉴于Transformer在更广泛的人工智能社区都表现出强大的性能,研究人员认为将Transformer和RL结合起来是一个有前途的研究方向,下面是一些关于该方向的未来前景和开放性问题。

结合强化学习和(自)监督学习

追溯TransformRL的发展,可以发现其训练方法同时涵盖了RL和(自)监督学习。

当作为一个在传统RL框架下训练的表示模块时,Transformer架构的优化通常是不稳定的。当使用Transformer通过序列建模来解决决策问题时,(自)监督学习范式可以消除deadlytriadproblem。

在(自)监督学习的框架下,策略的性能深受离线数据质量的约束,利用(exploitation)和探索(exploration)之间的明确权衡不复存在,因此在Transformer学习中结合RL和(自)监督学习时,可能会学到更好的策略。

一些工作已经尝试了监督预训练和RL参与的微调方案,但在相对固定的策略下,探索会受到限制,这也是有待解决的瓶颈问题之一。

另外,沿着这条路线,用于性能评估的任务也相对简单,Transfomer是否可以将这种(自)监督学习扩展到更大的数据集、更复杂的环境和现实世界的应用也值得进一步探索。

此外,研究人员希望未来的工作能够提供更多的理论和经验见解,以确定在哪些条件下这种(自)监督学习有望表现良好。

通过Transformer连接在线和离线学习

踏入离线RL是TransformRL的一个里程碑,但实际上,利用Transformer来捕捉决策序列中的依赖关系并抽象出策略,主要是与所使用的相当多的离线数据的支持分不开的。

然而,对于一些决策任务来说,在实际应用中摆脱在线框架是不可行的。

一方面,在某些任务中获得专家数据并不那么容易;另一方面,有些环境是开放式的(如Minecraft),这意味着策略必须不断调整,以处理在线互动过程中未见的任务。

因此,研究人员认为把在线学习和离线学习连接在一起是必要的。

DecisionTransformer之后的大多数研究进展都集中在离线学习框架上,一些工作试图采用离线预训练和在线微调的范式。然而,在线微调中的分布转变仍然存在于离线RL算法中,研究人员期望通过对DecisionTransformer进行一些特殊设计来解决这个问题。

此外,如何从头开始训练一个在线DecisionTransformer是一个有趣的开放性问题。

为Decision-making问题量身定做的Transformer结构

目前DecisionTransformer系列方法中的Transformer结构主要是vanillaTransformer,它最初是为文本序列设计的,可能具有一些不适合决策问题的性质。

例如,对轨迹序列采用vanilla的自注意力机制是否合适?决策序列中的不同元素或同一元素的不同部分是否需要在位置embedding中加以区分?

此外,由于在不同的DecisionTransformer算法中,将轨迹表示为序列的变体有很多,如何从中选择,仍缺乏系统的研究。

例如,在行业中部署此类算法时,如何选择稳健的hindsight信息?

并且vanillaTransformer也是一个计算成本巨大的结构,这使得它在训练和推理阶段都很昂贵,而且内存占用率很高,也限制了它捕获依赖关系的长度。

为了缓解这些问题,NLP中的一些工作改进了Transformer的结构,但类似的结构是否可以用于决策问题也值得探讨。

用Transformer实现更多的通用智能体

论文中对通用智能体(generalistagents)Transformers的回顾已经显示了Transformers作为一种通用策略的潜力。

事实上,Transformer的设计允许使用类似处理blocks的方式来处理多种模态(如图像、视频、文本和语音),并展示了对超大容量网络和巨大数据集的出色可扩展性。

最近的工作也在训练能够执行多模态和跨领域任务的智能体上取得了重大进展。

不过,鉴于这些智能体是在大规模的数据集上进行训练的,目前还不能确定它们是否只是记住了数据集,以及它们是否能进行有效的泛化。

因此,如何学习到一个能够在没有强假设(strongassumption)的情况下对未见过的任务进行泛化的智能体仍然是一个值得研究的问题。

此外,研究人员也很好奇,Transformer是否足够强大到可以用来学习一个可用于不同任务和场景的通用世界模型。

RLforTransformers

可以看到,最近来自人类反馈的强化学习(RLHF)可以学习到一个奖励模型,并使用RL算法对Transformer进行微调,以使语言模型与人类意图相一致。

在未来,研究人员认为RL可以成为一个有用的工具,进一步完善Transformer在其他领域的表现。

THE END
1.有关循环神经网络的详细内容- 循环神经网络是一类用于处理序列数据的神经网络。与传统的前馈神经网络不同,RNN具有循环连接,能够对序列中的历史信息进行记忆和利用。它的神经元不仅接收当前输入,还接收来自上一时刻的隐藏状态作为输入,这种结构使得它在处理具有时间序列或序列依赖关系的数据时非常有效。 https://blog.csdn.net/m0_63243562/article/details/144358010
2.机器学习——神经网络与深度学习:从基础到应用神经网络是一类仿生算法,通过连接不同的节点(即神经元),实现信息的传递和处理。每个神经元都能接收多个输入信号,经过加权求和后通过激活函数产生输出。神经网络最早于20世纪40年代提出,但直到深度学习技术兴起,才得以广泛应用。https://cloud.tencent.com/developer/article/2456527
3.科学网—[转载]群视角下的多智能体强化学习方法综述该类问题的研究是为了帮助智能体之间达成合作交流或竞争的目的,在自主学习的基础上,增加可交流模块,学习何时交流、如何交流等。此部分工作通常考虑部分可观环境中的一组协作智能体,其中智能体需要通过信息交互来最大化它们的联合回报。Foerster等人[22]提出了RIAL和DIAL算法,两种方法都是利用神经网络拟合值函数以及智能体https://blog.sciencenet.cn/home.php?mod=space&uid=3472670&do=blog&id=1422698
4.2020届计算机科学方向毕业设计(论文)阶段性汇报本次汇报将主要更新建图算法设计,深度学习模型设计方案、以及在两个关系抽取数据集上的初步实验进展;在训练调优方向,稳定整体训练过程并减少数据分布不平衡带来的影响,提升模型整体表现;继续探索针对知识图谱子图的图神经网络更新策略,利用好关系类型在三元组表征方式中的信息,高效挖掘高阶的结构化关系知识。 https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3709
5.强化学习笔记(1.0)【3】另一种分类方式,在线学习和离线学习 在线学习:本人在场,本人边玩边学习(on-policy)比如:Sarsa 离线学习:本人可以不在场,本人或者其他人玩,不必边玩边学习(off-policy) Sarsa--在线学习 Q learning,Deep-Q-Network--离线学习 3.为什么要用强化学习 强化学习(Reinforcement Learning)是一个机器学习大家族的分https://www.ctyun.cn/zhishi/p-419744
6.融合用户属性信息的冷启动推荐算法AET在离线训练时,首先使用用户的历史评分数据做矩阵分解,分析用户和商品的潜在语义,可以视作用户的潜在兴趣和商品的潜在用途。然后使用用户的属性数据(如性别、年龄、城市等)和上述提取的用户潜在兴趣训练神经网络。 在线给出推荐预测时,使用上文训练好的神经网络,将目标用户的属性数据映射到用户的潜在兴趣向量(predicted prhttp://www.chinaaet.com/article/3000073409
7.强化学习在线(Online): 智能体在与环境交互的过程中学习。 4. 强化学习的常用算法 Q-learning: 一种无模型、基于价值的算法,使用 Q 函数来估计状态-动作对的价值。 SARSA: 与 Q-learning 类似,但使用当前策略进行学习。 Deep Q-learning: 将 Q-learning 与深度神经网络结合,能够处理高维状态空间。 https://www.jianshu.com/p/d7e03db8d9aa
8.ICLR2022微软亚洲研究院深度学习领域最新研究成果一览在进入下一层前,研究员们会减去本层中产生的周期分量和回看分量,从而鼓励后续的神经网络层聚焦于尚未展开的周期性依赖。按照这样的模式堆叠 N 层就构成了实验涵盖了在线以及离线强化学习的不同情况,均验证了 VLOG 的良好表现。 此外,研究员们还开源了文中使用的麻将强化学习环境和对应的离线强化学习数据集,来https://www.msra.cn/zh-cn/news/features/iclr-2022
9.SLAM算法解析:抓住视觉SLAM难点,了解技术发展大趋势上一届国际计算机视觉大会ICCV,成为了深度学习技术的主场,但在我们宣布卷积神经网络的全面胜利之前,让我们先看看计算机视觉的,非学习几何方面的进展如何。同步定位与地图构建可以说是机器人学领域最重要的算法之一,在计算机视觉和机器人研究社区完成了一些开创性的工作。本文将总结来自 ICCV 实时 SLAM 的未来研讨会的要点https://auto.vogel.com.cn/c/2021-09-28/1135866.shtml