WhenshouldwepreferDecisionTransformersforOfflineReinforcementLearning
什么时候我们应该选择决策转换器进行离线强化学习?
摘要
离线强化学习(RL)允许代理从静态数据集中学习有效的、回报最大化的策略。三种流行的离线RL算法分别是保守Q学习(CQL)、行为克隆(BC)和决策Transformer(DT),分别属于Q学习、模仿学习和序列建模类别。一个关键的开放问题是:在什么条件下哪种算法更优?我们通过在常用的D4RL和ROBOMIMIC基准上探索这些算法的性能,从经验上研究了这个问题。我们设计了有针对性的实验,以了解它们在数据次优性、任务复杂性和随机性方面的行为。我们的主要发现是:(1)DT需要比CQL更多的数据来学习有竞争力的策略,但更稳健;(2)在稀疏奖励和低质量数据环境下,DT比CQL和BC有显著更好的选择;(3)随着任务时域的增加或数据来自人类演示者时,DT和BC更可取;(4)在具有高随机性和低数据质量的组合情况下,CQL表现出色。我们还研究了DT在ATARI和D4RL上的架构选择和扩展趋势,并提出了设计/扩展建议。我们发现,将DT的数据量扩展5倍,在ATARI上平均得分提高了2.5倍。
1引言
我们设计了有针对性的实验,以了解当我们改变数据、任务和环境的属性时,这三种算法的表现如何。我们的实验在常用的D4RL、ROBOMIMIC和ATARI基准上进行。表1展示了我们主要发现的高层次总结。在第4.1节中,我们首先在基准任务中为CQL、BC和DT建立了基线结果,包括密集奖励和稀疏奖励设置。然后,我们进行了实验,回答了几个关键问题,这些问题构成了本文的核心贡献:
-(第4.2、4.3、4.4节)次优数据的存在如何影响代理?由于次优性在离线RL中可以有多种含义,我们考虑了三种定义:
-(第4.2节)我们的第一个设置涉及改变代理训练所用的数据量。更具体地说,我们根据轨迹的回报对数据集中的轨迹进行排序,并向代理展示最佳X%或最差X%的数据,其中X的值不同。这使我们能够研究从高质量和低质量数据中学习的样本效率。
-(第4.3节)在我们的第二个实验中,我们研究了由于数据集中轨迹长度增加而产生的次优性影响。在较长的轨迹中,奖励状态通常离早期状态更远,这可能会影响训练动态。
-(第4.4节)最后,在我们的第三个实验中,我们通过添加随机动作形式的噪声来检查对数据的影响。此设置可以模拟一种常见实际情况,即离线数据集伴随着大量的探索。
-(第4.5节)当任务复杂性增加时,代理的表现如何?为了理解这一点,我们研究了状态空间维度和任务时域对代理性能的影响。
-(第4.6节)代理在随机环境中的表现如何?为了研究这一点,我们评估了代理在改变随机性和数据质量时的性能。
-(第4.7节)如何在实践中有效使用DT?基于我们研究中DT的整体优势,我们提供了关于DT架构(附录A)和超参数的指导,并对ATARI中的模型大小和数据量进行了详细分析。
我们的主要发现是:(1)DT比CQL更稳健,但也需要更多数据;(2)在稀疏奖励和低质量数据设置中,DT是最佳选择;(3)随着任务时域的增加或数据来自次优人类演示者时,DT和BC更可取;(4)在具有高随机性和低数据质量的组合情况下,CQL表现出色;(5)较大的DT模型需要较少的训练,扩展数据量可以提高ATARI上的得分。
我们的工作与最近的研究趋势一致,该趋势研究了离线RL中各种算法之间的权衡。Brandfonbrener等人(2022)概述了理论条件,例如近似确定性动态和对条件函数的先验知识,在这些条件下,序列建模(在他们的工作中称为“RCSL”)是更优的选择。我们的论文通过提出精心设计的问题,旨在提供新的经验见解,扩展了他们的研究。Kumar等人(2023)研究了何时Q学习可能优于模仿学习。我们的研究通过将最近流行的DT作为序列建模范式的一部分,扩展了这一研究,从而提供了对每种算法训练动态和学习策略的洞察。
虽然我们的研究集中在这三个范式上,但值得一提的是,基于模型的RL方法最近开始越来越受欢迎。这些方法在各种设置中取得了有希望的结果(Janner等人,2022;Yu等人,2020a;Kidambi等人,2020a;Argenson和Dulac-Arnold,2021),但我们在工作中没有研究它们,而是选择专注于离线RL中最突出的范式(Tarasov等人,2022)。
鉴于最近对扩展基础模型的兴趣(Hoffmann等人,2022),Kumar等人(2023)和Lee等人(2022)都证明了DT随着参数大小的扩展。此外,Kumar等人(2023)指出,CQL在Atari领域的次优密集数据上表现更好。我们的发现与这些研究一致,但提供了更全面的视角,因为我们还探索了样本效率,以及参数和数据的共同扩展。
3预备知识
在这里,我们简要讨论背景(更多细节见附录C)和我们的实验设置。
3.1背景
在强化学习(RL)中,代理与马尔可夫决策过程(MDP)(Puterman,1990)进行交互,采取行动以获得奖励并根据未知的动态模型转换状态。代理的目标是学习一个最大化其回报的策略,回报是预期奖励的总和。在离线RL(Levine等人,2020)中,代理无法与MDP交互,而是从由未知行为策略生成的固定转移数据集D={(s,a,r,s′)}中学习。
3.2实验设置
**数据**:我们考虑来自两个基准测试的任务:D4RL和ROBOMIMIC,选择它们是因为它们的流行性(Nie等,2022;Goo和Niekum,2022)。我们还探索了HUMANOIDGYM环境,该环境不属于D4RL;在此过程中,我们为HUMANOID生成了D4RL风格的训练数据集(详细信息见附录D)。此外,我们还在ATARI环境中进行了实验,这使我们能够研究DT在图像观测下的扩展特性。所有任务都是确定性的且完全可观测的(参见Laidlaw等(2023)关于为什么确定性MDP在强化学习中仍然具有挑战性的描述),并且具有连续的状态和动作空间,除了ATARI,它具有离散的状态和动作空间。
**数据**:mediumreplay划分包含约100-200K个样本,通过记录代理在达到中等性能水平之前的所有交互获得。medium-expert划分包含2M个样本,通过将专家演示与中等数据连接获得。在ROBOMIMIC(Mandlekar等,2021)中,我们考虑了四个任务:Lift、Can、Square和Transport。每个任务都需要机器人将物体操纵到所需配置;详细信息见Mandlekar等(2021)。对于每个任务,提供了三种数据划分:熟练人类(PH)、多人类(MH)和机器生成(MG)。PH数据由一名经验丰富的远程操作员收集了200次演示,而MH数据由不同熟练程度的远程操作员收集了300次演示。MG数据包含300条轨迹,通过在SAC代理训练过程中沿不同检查点回滚获得,包含专家数据和次优数据的混合。附录E提供了关于ATARI(Agarwal等,2020)的详细信息。
**评估指标**:在D4RL上,我们按照Fu等(2020)的方法,使用归一化的平均回报来评估代理。在ROBOMIMIC上,我们按照Mandlekar等(2021)的方法,使用成功率进行测量。ATARI分数按照Hafner等(2021)的方法进行了归一化。D4RL和ATARI的分数在100次评估回合中取平均值,ROBOMIMIC则为50次。所有实验报告了训练和评估的五个独立种子上的平均分数和标准差。
**详细信息**:对于DT,我们在D4RL中使用了20的上下文长度,在ROBOMIMIC中使用了1;有关上下文长度如何影响DT的实验和讨论,请参见第A节。所有代理的参数数量少于2.1M(例如,在D4RL中,我们有以下参数计数:BC=77.4k,CQL=1.1M,DT=730k)。BC和CQL使用MLP架构。更多详细信息,请参见附录H。
4实验
4.1建立基线结果
我们观察到三个关键趋势。(1)在密集奖励机制下,DT通常优于或与CQL相当。例如,在ROBOMIMIC上,DT的表现分别比CQL和BC高出154%和51%。然而,DT在D4RL上的表现比CQL差约8%。(2)DT对奖励稀疏化非常稳健,在D4RL上分别比CQL和BC高出88%和98%,在ROBOMIMIC上分别高出194%和62%。这些结果特别有趣,因为密集和稀疏设置在数据集中具有相同的状态和动作;简单地将奖励重新分配到每个轨迹的最后一步,导致CQL在D4RL上的性能减半,而DT的性能保持不变。一个可能的原因是,更稀疏的奖励意味着CQL必须传播更多的TD误差才能有效学习,而DT在每个状态下以回报为条件,因此受奖励重新分配的影响较小。(3)由于数据收集策略的次优性,BC从未与最佳代理竞争。
我们注意到,我们在使D4RL任务稀疏化的方法与(Chen等,2021)相同,并且可能会破坏马尔可夫动态。我们在附录G的表6中提供了Maze2D环境的额外数据点,该环境遵循马尔可夫动态,提供稀疏和密集奖励。
4.2数据量和质量如何影响每个代理的性能?
在本节中,我们旨在了解在给定不同数量的高回报和低回报密集奖励数据时,代理性能如何变化。为此,我们根据轨迹的回报对它们进行排序,并在不同X值下使用数据中“最好”和“最差”的X%来训练代理。分析每个代理在最好X%数据上的性能,使我们能够理解样本效率:代理从高回报轨迹中学习的速度有多快?分析在最差X%数据上的性能,使我们能够了解代理从低质量数据中学习的程度。D4RL的结果见图1。
“-best”曲线显示,CQL和DT在观察到更多高回报数据时都有所提升,但CQL的样本效率更高,在约5%的数据集上达到其最高分数,而DT则需要约20%。我们假设CQL在低数据量情况下表现最佳,因为在这种情况下,行为策略更接近最优策略。然而,正如图1a中的“CQL-best”线在20%到80%之间下降所证明的那样,添加低回报数据有时可能会损害CQL,可能是因为(1)最优策略与行为策略之间的差异变大,以及(2)TD更新在高回报状态下的价值传播机会减少。与此同时,DT更加稳定,随着数据量的增加,性能从未恶化,这可能是因为以回报为条件使其能够区分不同质量的轨迹。BC的性能在少量高回报数据下表现最佳,然后急剧下降,这是预期的,因为BC需要专家数据。
“-worst”曲线显示,DT在中等回放(图1a)中从低质量数据中学习的速度平均比CQL快33%,但在中等专家(图1b)中它们的性能相似。这是合理的,因为中等回放中的低回报轨迹比中等专家中的轨迹差得多,并且我们已经看到,当行为策略更加次优时,DT比CQL更稳定。在附录G.2的图10中,我们展示了与图1相同的图表,但针对稀疏奖励的D4RL数据集。该实验揭示了两个新的见解:(1)当奖励稀疏时,DT-best的样本效率和性能远高于CQL-best;(2)在稀疏奖励设置中,次优数据对CQL的作用比在密集奖励设置中更为关键。
4.3当数据集中轨迹长度增加时,代理如何受到影响?
在本节中,我们研究了性能如何随数据集中轨迹长度的变化而变化;这是一个重要的问题,因为在实践中,数据次优性通常表现为更长的演示。为了研究这个问题,我们转向了人类演示,这些演示在质量上与合成数据不同(Orsini等,2021):人类行为是多模态的,并且可能是非马尔可夫的,因此在解决任务时,人类在演示长度上表现出更大的多样性。
我们使用了ROBOMIMIC基准测试,其中包含PH(熟练人类)和MH(多人类)稀疏奖励数据集(第3.2节)。由于奖励是固定的,并在轨迹结束时给出,因此轨迹长度是次优性的代理,正如Mandlekar等(2021)所强调的那样。MH数据集进一步根据演示者的熟练程度分为“更好”、“一般”和“更差”三个划分。我们利用这一点进行了更细致的实验。结果见表4。
鉴于我们在ROBOMIMIC中为DT使用了1的上下文长度(第3.2节),BC和DT之间的关键区别在于1)以回报为条件,以及2)MLP与Transformer架构。我们假设BC的表现优于DT,因为PH和MH数据集的质量足够高,使得模仿学习有效,但数据量太小,无法进行序列建模。有关试图解开这些差异的详细研究,请参见附录F。
4.4当随机数据添加到数据集中时,代理如何受到影响?
本节探讨了将等量的从随机策略收集的数据添加到训练数据集中的影响。我们考虑了两种策略,以确保我们的结果不会因特定的随机数据收集策略而产生偏差。在“策略1”中,我们从采样的初始状态中执行均匀随机策略。在“策略2”中,我们让预训练的DT代理执行几步,然后执行一个均匀随机的动作。每次回滚的步数随机选择,位于离线数据集中平均轨迹长度的1个标准差范围内。我们可以看到,策略1在初始状态周围添加随机转换,而策略2在整个轨迹中添加随机转换,最终达到目标状态。由于两种策略的结果差异不大(见附录G.4),图2显示了两种策略的平均结果。与第4.1节类似,我们在D4RL和ROBOMIMIC中考虑了密集和稀疏奖励设置。
与BC相比,CQL和DT对注入数据的鲁棒性更强,性能下降不到10%。然而,这些代理的鲁棒性表现不同。CQL的鲁棒性比DT更不稳定,蓝色条的标准差大于橙色条,这证明了这一点。在附录G.4中,我们展示了图2中每个任务的结果细分,显示了几个有趣的趋势。CQL的性能在不同任务中差异很大:它在某些任务中有所提升,在其他任务中保持稳定,而在其余任务中则下降。有趣的是,当CQL在原始数据集上的性能较差时,添加随机数据有时可以改善其性能,如图1所示。CQL的不稳定性在ROBOMIMIC中尤为明显,图15显示CQL在LiftPH数据集上的性能下降了近100%,但在CanPH数据集上提升了近2倍。
BC在ROBOMIMICMG上的低下降可能仅仅是因为MG数据是从SAC代理训练的几个检查点生成的,因此其数据质量已经显著低于ROBOMIMICPH或D4RL。在第4.3节中,我们发现当行为策略由人类驱动时,BC表现更优。然而,当次优数据与高质量的人类数据混合时,DT比BC更受欢迎。
4.5任务复杂度增加时,代理如何受到影响?
我们现在专注于理解任务复杂度增加如何影响我们代理的性能。影响任务复杂度的两个主要因素是状态空间的维度和任务MDP的视野(horizon)。为了理解状态空间维度对性能的影响,我们使用了HUMANOID环境,它具有376维的状态空间,以及其他D4RL任务,这些任务的状态空间要小得多。为了理解任务视野的影响,我们使用了ROBOMIMICPH数据集,包括Lift、Can、Square和Transport任务(按任务视野递增顺序列出)。尽管数据集中的轨迹长度是行为策略的产物,而任务视野是任务的固有属性,但我们发现数据集中的平均轨迹长度是量化任务视野的有用代理,因为精确计算任务视野并非易事。
与上一节类似,我们在PH数据集和添加了等量随机数据的相同数据集上进行了实验。图3显示了DT、CQL和BC在相同维度(左)和任务视野(右)任务上的平均结果。
所有代理的性能随着状态空间维度的增加而大致相同地下降(11→17→376)。关于任务视野,在高质量数据(PH)下,所有三个代理的初始成功率接近100%,但BC的下降速度最慢,其次是DT,然后是CQL。在存在次优随机数据(PH-suboptimal)的情况下,DT表现最佳,而BC表现不佳,这与我们在第4.4节中的观察结果一致。此外,CQL从次优数据的添加中受益,如通过比较实线和虚线蓝线所示。这表明,添加此类数据可以提高CQL在长视野任务中的性能,与图1一致。
4.6代理在随机环境中的行为如何?
4.7决策转换器在ATARI上的扩展特性
5局限性与未来工作
本研究探讨了在离线强化学习中,CQL、BC和DT三种学习方法中应优先选择哪种。我们工作的一个局限性是,我们可以将研究范围扩大到包括每个范式中更具代表性的算法,例如隐式Q-学习(Kostrikov等,2021)和轨迹转换器(Janner等,2021),以及我们在此未探讨的范式,如基于模型的离线RL(Kidambi等,2020b;Yu等,2020b)和扩散模型(Ajay等,2022)。然而,我们注意到资源限制使得这具有挑战性:我们实验中每个图表中的每个数据点都需要大约1,000+GPU小时,考虑到跨领域和随机种子的聚合。我们添加的每个代理都会指数级增加计算需求,超出我们的预算。我们还希望在更大范围的基准测试上进行评估,包括组合任务,如具身AI中的任务(Duan等,2022)。
A决策转换器的架构特性
在这里,我们研究了DT架构特性的影响,即上下文长度、注意力头数量、层数和嵌入大小。完整的实验结果见附录I。
**上下文长度**:使用上下文窗口使DT依赖于状态、动作和奖励的历史,这与CQL和BC不同。图6(左)展示了上下文长度对DT的作用。在D4RL上,上下文长度大于1(即无历史)并未使DT受益,而在ATARI上,上下文长度为64时性能达到最大。这一发现表明,某些任务可能比其他任务更能从更广泛的历史知识中受益。随着上下文长度的增加,性能下降可能是由于DT对某些轨迹的过拟合。
**注意力头**:尽管Transformer注意力头数量的重要性在NLP中已被注意到(Michel等,2019),但这种趋势如何转移到离线RL仍是一个开放性问题。图6(右)展示了这一超参数对DT的影响。我们在ATARI上观察到单调的改进,但在D4RL上没有改进。这种差异的主要原因之一是,与D4RL相比,代理在ATARI上有更多机会提取更高的奖励。例如,DT在BREAKOUTATARI游戏中的专家归一化分数超过320,但在D4RL中从未超过120。这表明,在ATARI上扩展数据/参数以改进结果的空间更大。
**层数**:这在第4.7节中讨论过,结果见图4。
**嵌入大小**:将DT的嵌入大小增加到超过256并未在ATARI上带来任何改进;结果见附录I中的表22。
B附加结果
在本节中,我们提供了D4RL不同环境中所有三个代理的额外数据点。Adroit中的Pen-Human-v0数据集来自人类演示,并且比其他D4RL任务具有更高的维度。我们观察到DT和BC优于CQL,而(Brandfonbrener等,2022)表明DT优于IQL。
**轨迹拼接**:Antmaze和Maze2D等迷宫环境需要代理执行轨迹拼接。正如(Brandfonbrener等,2022)所指出的,基于DT的方法需要轨迹级别的信息,这使得DT无法利用跨轨迹的信息。正是由于这些原因,在需要执行轨迹拼接的数据情况下,基于Q-学习的算法可能被认为更可取。
D附加数据集详情
**Humanoid数据**:在本节中,我们介绍了为实验创建的HUMANOID离线强化学习(RL)数据集的详细信息。我们训练了一个软Actor-Critic(SAC)代理(Haarnoja等,2018)进行300万步,并选择了表现最佳的代理,其得分为5.5k,以生成专家划分。为了创建中等划分,我们使用了一个表现达到专家表现三分之一的代理。然后,我们通过连接中等和专家划分来生成中等-专家划分。我们的实现基于(Raffin等,2021),并采用了SAC代理(行为策略)的默认超参数。表7显示了所有代理在HUMANOID任务所有划分中的表现。此外,表8提供了HUMANOID数据集的统计信息。
**Robomimic**:我们使用折扣因子0.99可视化了ROBOMIMIC任务的回报分布,如图7和图8所示。显然,折扣因子对数据的最优性特征有显著影响。PH具有较短的轨迹,因此高回报数据的比例更高。
E附加评估详情
F解开DT和BC
在本节中,我们实验了一个额外的基线,“BCTransformer”,它是DT的一个修改版本,不执行以回报向量为条件的操作,并且上下文长度为1。如前所述,我们在ROBOMIMIC上运行实验时也将DT的上下文长度设置为1。本节的目的是调查DT和BC性能之间的差异,特别是我们想了解这种差异有多少可以归因于RTG(回报到目标)条件,而不是DT和BC之间的架构差异,后者通常使用MLP堆栈实现。通过引入BCTransformer基线,它与BC之间的唯一区别在于架构。我们观察到,在PH表9、MG表10和MH任务表11中,BC通常是比BCTransformer表现更好的代理。此外,还可以观察到,RTG条件仅在奖励分布显示出变化时起关键作用。与PH和MH等专家数据不同,在这些数据中RTG向量保持不变,我们发现DT在MG上显著优于BCTransformer。
G关于D4RL和ROBOMIMIC的附加结果
本节包含在D4RL和ROBOMIMIC基准测试的各个任务上获得的结果。我们使用从各自基准测试的所有任务中获得的平均结果进行分析。
G.1建立基线
本节展示了D4RL稀疏和密集设置中各个任务的基线结果。平均结果详见表2(第4.1小节)。我们的观察表明,在D4RL基准测试的稀疏设置中,DT在几乎所有任务中都一致优于CQL和BC。尽管CQL在Hopper任务上取得了略高的平均回报(在medium和medium-replay划分中比DT高出3.4%),但它也表现出显著的波动性,如标准差所示。相比之下,DT保持了竞争力和鲁棒性。在稀疏奖励设置中,CQL比BC高出5.2%。正如第4.1小节所强调的,CQL在D4RL基准测试的密集奖励设置中最有效。
G.2数据量和质量如何影响每个代理的性能?
图9展示了在D4RL基准测试中,随着数据质量和数量的变化,代理在各个任务上的表现。DT在提供额外数据时有所提升或达到性能上限(达到最大性能后趋于平稳)。相比之下,CQL表现出波动性,在HOPPER和WALKER2Dmedium-replay任务中显示出显著的性能下降。当在低回报数据上训练时,BC的性能往往下降。
图10展示了在D4RL数据集的稀疏设置中,随着数据量和质量的调整,代理的性能行为。关于各个任务的更详细探索见图11。
从这些结果中可以得出两个关键观察。1)在稀疏奖励设置中,DT成为一个明显更具样本效率的选择,其性能随着数据量的增加而提升或保持稳定。相比之下,CQL表现出更大的变异性,并且在涉及专家数据(medium-expert)的场景中未能超过BC。2)与密集设置相比,次优数据在稀疏设置中对CQL的作用更为重要。我们的假设是,反馈的稀疏性使得从错误中学习比从专家演示中学习更为关键。值得注意的是,我们发现最差10%的数据包含具有更高回报覆盖率的轨迹,这增加了数据的多样性。这反过来增强了CQL在medium-expert数据设置中学习更优Q值(错误修正)的能力,相比于最佳10%的数据。
G.3当数据集中轨迹长度增加时,代理如何受到影响?
表13展示了所有代理在ROBOMIMIC基准测试的各个任务中的表现,涵盖了合成数据和人类生成的数据。DT在ROBOMIMIC基准测试的所有合成任务中均超越了其他代理,无论是在稀疏还是密集设置中。有趣的是,BC在许多人
G.4当次优数据添加到数据集中时,代理如何受到影响?
图12展示了在D4RL基准测试的密集奖励数据机制中,根据“策略1”引入随机数据时代理的行为。如前所述,“策略1”涉及从采样的初始状态执行均匀随机策略以生成随机数据。我们的观察表明,CQL和DT保持了稳定的性能,而BC表现出不稳定性,在HALFCHEETAH任务中偶尔会失败。
图13展示了在D4RL基准测试的密集奖励数据机制中,根据“策略2”引入随机数据时代理的行为。在“策略2”中,我们让一个预训练的代理执行一定数量的步骤,执行一个均匀随机的动作,然后重复该过程。虽然策略1主要在初始状态周围生成随机转换,但策略2在整个状态流形上生成随机转换,从初始状态到高奖励目标状态。
图14展示了在D4RL基准测试的稀疏奖励数据机制中,根据“策略2”引入随机数据时代理的行为。我们观察到,CQL在HOPPER-MEDIUM-REPLAY任务上的性能急剧下降,而在其他任务上的性能保持不变。
H附加实验详情
在适用的情况下,我们使用了原作者的实现作为实验的参考。在需要新实现的情况下,我们参考了在D4RL上提供有竞争力/最先进结果的实现。我们在下面提供了计算和超参数的详细信息。
**计算**:所有实验都在A100GPU上运行。大多数DT实验通常需要10-15小时的训练。CQL和BC实验需要5-10小时的训练。我们使用Pytorch1.12进行实现。
I消融研究以确定DT架构组件的重要性
在本节中,我们展示了消融研究的结果,该研究旨在评估DT各种架构组件的重要性。为了隔离单个超参数的影响,我们一次更改一个参数,同时保持其他所有参数不变。我们的研究结果表明,与D4RL基准测试相比,ATARI基准测试更适合检查扩展趋势。这可能是因为D4RL任务中的奖励是有界的,这可能限制了识别有意义趋势的能力。我们在D4RL上下文中没有观察到任何显著模式。这项研究的一个关键见解是,当我们在Atari游戏中平均DT的性能时,随着注意力头数量的增加,性能有所提高。然而,我们在扩展层数时没有注意到类似的趋势(图4)。同样重要的是要提到,原始DT研究中包含了架构的两种不同实现。用于报告ATARI基准测试结果的DT变体有8个头和6层,而用于D4RL的变体有1个头和3层。
JDT在EXORL上的表现
我们还在EXORL中进行了小规模实验,这使我们能够研究DT在无奖励游戏数据上的表现。典型的离线RL数据集是从旨在优化某些(未知)奖励的行为策略中收集的。与此做法相反,EXORL基准测试(Yarats等,2022)是从无奖励探索中获得的。在获取(s,a,s′)数据集后,选择一个奖励函数并用于在数据中包含奖励。在评估过程中使用相同的奖励函数。我们考虑了WALKERWALK、WALKERRUN和WALKERSTAND环境(APT)。所有分数在10次评估回合中取平均值。
在接下来的部分中,我们展示了在EXORL框架的三个不同环境中使用DT获得的结果。下表中的回报到目标表示在推理时提供给DT的回报到值。在比较EXORL研究中的指标时,我们注意到DT的表现不如CQL,这可能归因于数据是在无奖励设置中收集的。尽管在无奖励设置中研究这些代理的行为为未来的研究提供了一个途径,但我们提出了以下假设。通常,在无奖励环境中探索新状态是通过好奇心(ICM)(Pathak等,2017)或熵最大化(APT)(Liu和Abbeel,2021)等启发式方法进行的。这些启发式方法定义的奖励函数与训练离线RL代理时用于数据重标记的奖励函数不同。因此,基于自举的方法可能更适合学习启发式方法确定的奖励函数与用于数据重标记的奖励函数之间的映射。