RLDS:在强化学习中生成共享和使用数据集的生态系统

大多数强化学习(RL)和顺序决策算法都需要代理通过与其环境的大量交互来生成训练数据,以实现最佳性能。这是非常低效的,尤其是当产生这些交互很困难时,例如使用真正的机器人收集数据或与人类专家进行交互。这个问题可以通过重用外部知识源来缓解,例如,RLUnpluggedAtari数据集,其中包括玩Atari游戏的合成代理的数据。

在此背景下,我们引入了强化学习数据集(RLDS),并发布了一套工具,用于记录、重放、操作、注释和共享数据以进行顺序决策,包括离线RL、从演示中学习或模仿学习。RLDS可以很容易地共享数据集而不会丢失任何信息(例如,保持交互顺序而不是随机化它们)并且不知道底层的原始格式,使用户能够在更广泛的任务上快速测试新算法。此外,RLDS提供了用于收集由合成代理(EnvLogger)或人类(RLDSCreator)生成的数据的工具),以及检查和处理收集到的数据。最终,与TensorFlow数据集(TFDS)的集成有助于与研究社区共享RL数据集。

EnvLogger是一个环境包装器,用于记录代理与环境的交互并将它们保存在长期存储中。尽管EnvLogger无缝集成到RLDS生态系统中,但我们将其设计为可用作独立库以实现更大的模块化。

与大多数机器学习环境一样,为RL收集人类数据是一个耗时且劳动密集型的过程。解决这个问题的常用方法是使用众包,这需要用户友好地访问可能难以扩展到大量参与者的环境。在RLDS生态系统中,我们发布了一个名为RLDSCreator的基于网络的工具,它通过浏览器为任何人类可控的环境提供了一个通用接口。用户可以与环境交互,例如,在线玩Atari游戏,交互被记录和存储,以便以后可以使用RLDS加载回来进行分析或训练代理。

集通常难以生成,与更广泛的研究社区共享不仅可以实现以前实验的可重复性,还可以加速研究,因为它可以更轻松地在一系列场景中运行和验证新算法。为此,RLDS与TensorFlow数据集(TFDS)集成,这是一个用于在机器学习社区内共享数据集的现有库。一旦数据集成为TFDS的一部分,它就会在全局TFDS目录中编入索引,任何研究人员都可以使用tfds.load(name_of_dataset)访问它,它以Tensorflow或Numpy格式加载数据。

TFDS独立于原始数据集的底层格式,因此任何具有RLDS兼容格式的现有数据集都可以与RLDS一起使用,即使它最初不是由EnvLogger或RLDSCreator生成的。此外,使用TFDS,用户保留对其数据的所有权和完全控制权,并且所有数据集都包含引用数据集作者的信息。

使用数据研究人员可以使用数据集来分析、可视化或训练各种机器学习算法,如上所述,这些算法可能使用与存储方式不同的格式的数据。例如,一些算法,如R2D2或R2D3,消耗完整的剧集;其他,如行为克隆或ValueDice,消耗随机步骤的批次。为了实现这一点,RLDS为RL场景提供了一个转换库。考虑到RL数据集的嵌套结构,这些转换已经过优化,并且它们包括自动批处理以加速其中一些操作。使用这些优化的转换,RLDS用户可以完全灵活地轻松实现一些高级功能,并且开发的管道可以跨RLDS数据集重用。示例转换包括选定步骤字段(或子字段)的整个数据集的统计数据或考虑情节边界的灵活批处理。您可以在本教程中探索现有的转换,并在此Colab中查看更复杂的真实示例。

目前,以下数据集(与RLDS兼容)在TFDS中:

我们的团队致力于在不久的将来快速扩展此列表,欢迎新数据集对RLDS和TFDS的外部贡献。

RLDS生态系统不仅提高了RL和顺序决策问题研究的可重复性,而且通过更容易地共享和重用数据来实现新的研究。我们希望RLDS提供的功能将引发一种发布结构化RL数据集、保存所有信息并涵盖更广泛的代理和任务的趋势。

THE END
1.强化学习的异同(3)离线强化学习和在线强化学习- 离线强化学习:状态是从历史数据集中提取的特征表示,它用于训练智能体以学习最优策略。这些状态可能包括历史数据中的所有相关信息,但不一定是实时环境中的当前状态。 在线强化学习和离线强化学习在奖励获取方式、评估侧重点、动作选择和状态表示上有所不同,这些区别反映了它们在实际应用中的不同需求和挑战。 https://blog.csdn.net/hzlalb/article/details/136797191
2.强化学习离线模型离线模型和在线模型强化学习离线模型 离线模型和在线模型 在推荐算法领域,时常会出现模型离线评测效果好,比如AUC、准召等指标大涨,但上线后业务指标效果不佳,甚至下降的情况,比如线上CTR或CVR下跌。 本文尝试列举一些常见的原因,为大家排查问题提供一点思路。 1. 离线、在线特征不一致https://blog.51cto.com/u_14499/11815202
3.科学网—[转载]强化学习在资源优化领域的应用当业务环境发生变化时,智能体能够及时地利用数据中蕴含的变化信号,从而更加迅速和敏锐地通过与业务环境的交互重新找到合适的优化方案。鉴于这些特点,近年来强化学习算法结合行业大数据的解决方案在资源优化领域得到越来越多的应用,并取得了一系列优秀的成果。 基于这种行业趋势,本文针对强化学习算法在资源优化领域的应用展开https://blog.sciencenet.cn/blog-3472670-1312677.html
4.2020届计算机科学方向毕业设计(论文)阶段性汇报本文将信息流推荐系统与用户的多步交互过程建模为马尔科夫决策过程,并基于强化学习算法设计动态决定信息流推荐中广告间隔的模型,以优化广告收入与用户参与度指标的综合长期目标。针对在推荐系统场景中部署在线强化学习模型的挑战,本文使用推荐系统的历史日志数据离线训练强化学习策略,并通过实验对相应算法的可行性及效果进行https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3709
5.强化学习的基本概念强化学习是机器学习领域的一个分支,通过不断的与环境交互,不断的积累经验,最后让Agent学会如何在目标环境中取得最高的得分。在本篇文章中,笔者将介绍一些强化学习的基础知识,文https://www.jianshu.com/p/28625d3a60e6
6.离线强化学习为什么在线强化学习算法没有受到外推误差的影响呢?因为对于在线强化学习,即使训练是离线策略的,智能体依然有机会通过与环境交互及时采样到新的数据,从而修正这些误差。但是在离线强化学习中,智能体无法和环境交互。因此,一般来说,离线强化学习算法要想办法尽可能地限制外推误差的大小,从而得到较好的策略。https://hrl.boyuai.com/chapter/3/%E7%A6%BB%E7%BA%BF%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/
7.基于深度强化学习的水面无人艇路径跟踪方法6.针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于深度强化学习的水面无人艇路径跟踪方法,无需进行环境和无人艇运动建模并且具备自适应能力,从而能够进一步提高无人艇路径跟踪控制的稳定性和准确性。 7.为了解决上述技术问题,本发明采用了如下的技术方案: https://www.xjishu.com/zhuanli/54/202210772926.html/
8.大语言模型的拐杖——RLHF基于人类反馈的强化学习强化学习从人类反馈(RLHF)是一种先进的AI系统训练方法,它将强化学习与人类反馈相结合。它是一种通过将人类训练师的智慧和经验纳入模型训练过程中,创建更健壮的学习过程的方法。该技术涉及使用人类反馈创建奖励信号,然后通过强化学习来改善模型的行为。http://wehelpwin.com/article/4042
9.探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff探索VS 利用,这是强化学习中至关重要的话题。我们希望强化学习中的智能体尽快找到最佳策略。然而,在没有充分探索的情况下就盲目地选择某个策略会带来一定的问题,因为这会导致模型陷入局部最优甚至完全不收敛。https://www.zhuanzhi.ai/document/8c25cb38ff7b6a2acc8610b42ff00fdd
10.ICLR上新强化学习扩散模型多模态语言模型,你想了解的前沿本周,全球最负盛名的人工智能盛会之一 ICLR 大会将在奥地利维也纳举办。所以,今天的“科研上新”将为大家带来多篇微软亚洲研究院在 ICLR 2024 上的精选论文解读,涉及领域涵盖深度强化学习、多模态语言模型、时间序列扩散模型、无监督学习等多个前沿主题。 https://www.msra.cn/zh-cn/news/features/new-arrival-in-research-11