RLDS:在强化学习中生成共享和使用数据集的生态系统

大多数强化学习(RL)和顺序决策算法都需要代理通过与其环境的大量交互来生成训练数据,以实现最佳性能。这是非常低效的,尤其是当产生这些交互很困难时,例如使用真正的机器人收集数据或与人类专家进行交互。这个问题可以通过重用外部知识源来缓解,例如,RLUnpluggedAtari数据集,其中包括玩Atari游戏的合成代理的数据。

在此背景下,我们引入了强化学习数据集(RLDS),并发布了一套工具,用于记录、重放、操作、注释和共享数据以进行顺序决策,包括离线RL、从演示中学习或模仿学习。RLDS可以很容易地共享数据集而不会丢失任何信息(例如,保持交互顺序而不是随机化它们)并且不知道底层的原始格式,使用户能够在更广泛的任务上快速测试新算法。此外,RLDS提供了用于收集由合成代理(EnvLogger)或人类(RLDSCreator)生成的数据的工具),以及检查和处理收集到的数据。最终,与TensorFlow数据集(TFDS)的集成有助于与研究社区共享RL数据集。

EnvLogger是一个环境包装器,用于记录代理与环境的交互并将它们保存在长期存储中。尽管EnvLogger无缝集成到RLDS生态系统中,但我们将其设计为可用作独立库以实现更大的模块化。

与大多数机器学习环境一样,为RL收集人类数据是一个耗时且劳动密集型的过程。解决这个问题的常用方法是使用众包,这需要用户友好地访问可能难以扩展到大量参与者的环境。在RLDS生态系统中,我们发布了一个名为RLDSCreator的基于网络的工具,它通过浏览器为任何人类可控的环境提供了一个通用接口。用户可以与环境交互,例如,在线玩Atari游戏,交互被记录和存储,以便以后可以使用RLDS加载回来进行分析或训练代理。

集通常难以生成,与更广泛的研究社区共享不仅可以实现以前实验的可重复性,还可以加速研究,因为它可以更轻松地在一系列场景中运行和验证新算法。为此,RLDS与TensorFlow数据集(TFDS)集成,这是一个用于在机器学习社区内共享数据集的现有库。一旦数据集成为TFDS的一部分,它就会在全局TFDS目录中编入索引,任何研究人员都可以使用tfds.load(name_of_dataset)访问它,它以Tensorflow或Numpy格式加载数据。

TFDS独立于原始数据集的底层格式,因此任何具有RLDS兼容格式的现有数据集都可以与RLDS一起使用,即使它最初不是由EnvLogger或RLDSCreator生成的。此外,使用TFDS,用户保留对其数据的所有权和完全控制权,并且所有数据集都包含引用数据集作者的信息。

使用数据研究人员可以使用数据集来分析、可视化或训练各种机器学习算法,如上所述,这些算法可能使用与存储方式不同的格式的数据。例如,一些算法,如R2D2或R2D3,消耗完整的剧集;其他,如行为克隆或ValueDice,消耗随机步骤的批次。为了实现这一点,RLDS为RL场景提供了一个转换库。考虑到RL数据集的嵌套结构,这些转换已经过优化,并且它们包括自动批处理以加速其中一些操作。使用这些优化的转换,RLDS用户可以完全灵活地轻松实现一些高级功能,并且开发的管道可以跨RLDS数据集重用。示例转换包括选定步骤字段(或子字段)的整个数据集的统计数据或考虑情节边界的灵活批处理。您可以在本教程中探索现有的转换,并在此Colab中查看更复杂的真实示例。

目前,以下数据集(与RLDS兼容)在TFDS中:

我们的团队致力于在不久的将来快速扩展此列表,欢迎新数据集对RLDS和TFDS的外部贡献。

RLDS生态系统不仅提高了RL和顺序决策问题研究的可重复性,而且通过更容易地共享和重用数据来实现新的研究。我们希望RLDS提供的功能将引发一种发布结构化RL数据集、保存所有信息并涵盖更广泛的代理和任务的趋势。

THE END
1.强化学习在实际环境运用中存在的问题以及解决方案强化学习泛化问题?深度强化学习模型的本质是“试错”式的学习方式。所以强化学习模型在训练的过程中需要大量的交互数据才能学习到有效的策略,体现低样本效率问题。并且在现实环境中,强化学习的应用不同于我们学习该方法时的情况有所不同。相比于在虚拟环境中通过在线交互机制实时获得即时奖励(例如解决走迷宫、摆锤等问题)。智能体与现https://blog.csdn.net/z2036709353/article/details/143321070
2.强化学习与多任务推荐第二阶段,学习 policy 优化播放时长目标,同时满足和第一阶段学习到的 policy 的距离约束。我们在理论上得到了第二阶段问题的最优解并提出新的优化 loss。通过在 KuaiRand 数据集的离线评估和快手 App 在线 A/B 测试,我们证明 TSCAC 显著优于 Pareto 优化以及 State of the Art 约束强化学习算法。TSCAC 算法已https://www.51cto.com/article/772510.html
3.科学网—[转载]强化学习在资源优化领域的应用摘要:资源优化问题广泛存在于社会、经济的运转中,积累了海量的数据,给强化学习技术在这一领域的应用奠定了基础。由于资源优化问题覆盖广泛,从覆盖广泛的资源优化问题中划分出3类重要问题,即资源平衡问题、资源分配问题和装箱问题。并围绕这3类问题总结强化学习技术的最新研究工作,围绕各研究工作的问题建模、智能体设计等https://blog.sciencenet.cn/blog-3472670-1312677.html
4.2020届计算机科学方向毕业设计(论文)阶段性汇报推荐系统与用户进行多步交互的过程可以建模为马尔科夫决策过程并使用强化学习算法训练推荐策略,但在真实的工业界场景中,在线上进行强化学习模型的训练成本极高。本课题希望使用推荐系统与用户交互的历史数据离线训练强化学习算法,并探讨这一模式的问题解决方式。 https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3709
5.高级工程师个人专业技术工作总结(通用21篇)在工程建设的具体实施过程中,本人认真学习合同,严格遵守合同,对合同中规定质量责任,划分界限,材料设备的采购,图纸设计,工艺使用的认可和批准制度都有较好的贯彻执行。通过研究各方面提出来的与合同实施有关的问题,对涉及到工程进度的有关问题及时提出解决办法并通过监理工程师去实施,必要时对施工手段、施工资源、施工https://www.oh100.com/a/202210/5471479.html
6.强化学习与自动驾驶在电商中的应用主要是利用强化学习去做推荐。 推荐系统涉及到许多强化学习的内容,尤其是如何去学习离线的数据。推荐系统可以通过收集数据,推荐给客户较为满意的商品,以此获得更高的reward。 2. 强化学习问题构建 这部分的内容主要围绕强化学习问题的构建展开。 https://www.jianshu.com/p/be915d014084
7.机器学习探究Q一.AI序列决策问题 AI序列决策问题是指在人工智能领域中,智能体需要在一个序列的环境中做出一系列决策,以达到某个目标或最大化某种累积奖励的问题。这类问题通常涉及到强化学习,其中智能体通过与环境的交互来学习最优的行为策略。 1.序列决策问题的特点: https://developer.aliyun.com/article/1496910
8.强化学习求解组合最优化问题的研究综述[3]刘永娟.基于萤火虫算法的车间调度问题研究与应用[D].2022. [4]刘洋.基于Linux的时间敏感网络CQF整形器的设计与实现[D].2022. [5]张予惟.基于强化学习的不对称信息下展示广告实时竞价研究[D].2022. [6]郝世诚.光伏发电系统MPPT控制方法的研究[D].2022. https://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=jsjkxyts202202002
9.替代离线RL?Transformer进军决策领域,“序列建模”成关键研究者首先研究了如何通过在语言建模框架中提出顺序决策问题来改变对强化学习的观点。虽然强化学习中的传统工作使用了依赖 Bellman 备份的特定框架,但用序列建模来作为替代对轨迹进行建模使其能够使用强大且经过充分研究的架构(如 Transformer)来生成行为。 为了说明这一点,研究者研究了离线强化学习,从固定的数据集上训练https://www.thepaper.cn/newsDetail_forward_13934432
10.强化学习求解组合最优化问题的研究综述计算机科学与探索 Journal of Frontiers of Computer Science and Technology 1673-9418/2022/16(02)-0261-19 doi: 10.3778/j.issn.1673-9418.2107040 强化学习求解组合最优化问题的研究综述 王扬,陈智斌+,吴兆蕊,高远 昆明理工大学 理学院,昆明 650000 + 通信作者 E-mail: chenzhibin311@126.com 摘要:组合最https://engine.scichina.com/doi/pdf/E2EC56036ABD430FAC17BA13DB04FD51
11.强化学习的两大话题之一,仍有极大探索空间探索VS 利用,这是强化学习中至关重要的话题。我们希望强化学习中的智能体尽快找到最佳策略。然而,在没有充分探索的情况下就盲目地选择某个策略会带来一定的问题,因为这会导致模型陷入局部最优甚至完全不收敛。目前的强化学习算法朝着回报值最大化的方向优化,而探索仍然更像是一个开放性话题。 https://www.zhuanzhi.ai/document/943c26fdef26d9c1c660b9ee8367c1a3
12.实践活动总结20篇三、认真学习,强化党员宗旨意识 xx党总支全体党员干部,特别是副处级以上领导干部坚持理论与实际相结合、集中学习与个人自学相结合、讨论交流与调查研究相结合、对照学习与查摆问题相结合的方式,对党的十八大报告、《党章》、十二届全国人大一次会议上的讲话、党的十八届中央纪委二次全会上的讲话、党的十八届二中全会第https://www.jy135.com/huodongzongjie/1115952.html
13.基于深度强化学习的水面无人艇路径跟踪方法6.针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于深度强化学习的水面无人艇路径跟踪方法,无需进行环境和无人艇运动建模并且具备自适应能力,从而能够进一步提高无人艇路径跟踪控制的稳定性和准确性。 7.为了解决上述技术问题,本发明采用了如下的技术方案: https://www.xjishu.com/zhuanli/54/202210772926.html/
14.强化学习(一)入门介绍腾讯云开发者社区本讲将对强化学习做一个整体的简单介绍和概念引出,包括什么是强化学习,强化学习要解决什么问题,有一些什么方法。一、强化学习强化学习(Reinforcement Learning, RL)又称为增强学习、评价学习等,和深度学习一样是机器学习的一种范式和方法论之一,智能体从一系列随机的操作开始,与环境进行交互,不断尝试并从错误中进行学https://cloud.tencent.com/developer/article/1707034