南栖仙策提出新型环境特征编码器学习算法,有效提升环境识别的泛化能力

基于上下文的离线元强化学习(Context-basedOMRL)通过构建一个上下文编码器,将收集到的上下文数据映射到任务表征,进一步基于任务表征来自适应的在多个环境中进行决策。然而,在离线的情形下,任务表征的编码器极大的依赖于用于训练的离线数据的丰富程度。当数据采集有限,以至于与特定采样策略的特点耦合时,学习的任务编码器通常会难以获得较好的泛化能力,进而影响元强化学习的性能。

基于此,南京大学&南栖仙策团队合作提出了一种基于模型对抗样本增强的环境特征编码器学习,taskRepresentationlearningviaadversarialDataAugmentation(ReDA)算法,并发表在AAMAS24会议上。这一方法可以应用于元强化学习的环境特征识别上,缓解了以往算法中环境特征和采样策略耦合的影响,从而使得我们在样本受限的实际场景中可以提升环境特征编码器的泛化能力,进而提高元学习策略的表现,推进强化学习在现实世界的应用落地。

离线元强化学习环境特征耦合问题

离线元强化学习(OfflineMetaReinforcementLearning)是一种重要的机器学习技术,其结合了离线和元学习两种方法优势,可以帮助智能系统从以往的多种环境的离线经验中学习,以提高在新环境下的泛化能力。通过离线数据,系统可以更有效地利用以往的经验,而无需实时与环境进行交互,从而提高数据利用效率。并且,由于在不同的环境下进行学习,而不仅仅是在当前环境下,也极大的提高了策略的泛化能力。

在很多实际应用中,实时与多种环境交互收集数据可能会很昂贵或不切实际,离线元强化学习为这些场景提供了解决方案。离线元强化学习可以使强化学习技术更易于应用和部署,在提高泛化能力、数据效率、稳健性以及降低成本等方面具有重要意义,尤其是在实际应用中,如机器人控制与路径规划、自动驾驶系统、智能游戏角色、智能物流和仓储以及工业自动化等方面具有广泛的用途。

离线元强化学习中,主要的方法是基于上下文的离线元强化学习。该类方法将策略建模为两部分:第一部分是环境特征提取器,可以将历史收集到的上下文数据映射到环境特征上;第二部分是基于环境特征的条件策略,在给定的当前状态和得到的环境特征的条件下进行决策。第一部分的任务编码器是非常重要的,提取的环境特征将直接决定了下游的元策略的学习质量和泛化能力。

然而,以往的环境特征编码学习需要依赖非常丰富且多样的数据进行学习,这在很多真实的物理场景中是不现实甚至存在一定危险的,比如机器人等。以往的工作中,环境特征提取是基于对比学习直接在离线数据集上进行训练的:

简单以倒立杆任务(InvertedPendulum)为例,我们的训练数据是重力1.0下的高质量数据和重力2.0下的低质量数据,然后使用上下文数据是1.0倍重力下的低质量的数据进行测试(图1-a),对数据集的分布进行降维可视化展示(图1-b),发现测试数据到同样环境下的训练数据的距离,并没有相对其他环境的训练数据的距离更加接近(图1-c),这样的情况下,仅仅依赖于数据集的对比学习,由于缺少足以代表环境任务特征的样本,将很难保证任务表征的泛化能力。

基于模型的对抗样本增强

为了让环境特征编码器更好地捕捉到环境特征而非采样策略本身的特征,我们提出了一种基于模型的对抗样本增强的方法,产生更多的不同于数据集的数据来训练环境特征编码器。

首先我们基于每个任务的数据集,分别学习各个任务上的转移模型:

在学习好可以用来交互的环境模型后,接下来我们需要面临的问题是:1.采集什么样的样本来有效增强任务编码器的能力?2.如何缓解环境模型误差带来的影响?

对于这两个问题,我们引入了一个对抗采样策略,该策略的优化目标主要由三部分组成:

·最小辨识度的样本:我们需要采集让任务编码最难区分的样本,即该样本到相同任务的距离和到其他任务的距离差距不大。所以我们考虑这样的样本需要具备的特点是,当它被加入上下文之后,会导致基于上下文的对比学习的损失函数上升。所以我们使用该损失函数变化的程度来作为优化的奖励信号,如果对比损失上升越大,说明该样本的引入使得任务编码器更加难以识别环境了。定义该样本加入前的任务表征为z_t,加入该样本后的任务表征为z_t+1,单步的奖励定义为:

·模型不确定性惩罚:我们并不希望对抗策略去搜索模型中误差过于大的区域,所以参考MOPO我们基于不确定性度量给出对样本的惩罚。

综上所述,我们最终得到了在模型上搜索对抗样本的对抗策略的优化目标:

基于该对抗策略搜索到的增强样本,我们得到了新的环境特征编码器的优化目标:

该目标是一个标准的强化学习的定义,所以可以使用SAC等算法求解。

整体的算法流程如下图所示,首先基于离线数据集学习转移模型,然后在转移模型上获得对抗策略,并产生对抗数据训练任务编码器,再基于任务编码器训练最终的元策略。

整体训练的算法描述如下:

技术验证

基于倒立杆的环境与数据集,我们对我们的方法进行了简单的验证,首先定义相对距离:

该距离描述了相同任务下训练集和测试集的距离与不同任务下训练集和测试集的距离的差异,如果该距离越小,说明我们的表征训练的泛化能力越好,通过和FOCAL[2]等基础算法进行对比,我们发现ReDA显著的提升了表征的泛化能力(图3-b),并且取得了更好的测试性能(图3-a)。这一结果表明,我们学习到的环境表征解耦了采样的策略特征,从而更好的泛化到了更多数据上。

整体性能

其中[任务][参数类型]-[数字]的格式表示使用的训练数据集是哪个任务的哪类参数,总共使用了几个检查点的数据去训练。

可以看到,通过引入基于模型的方法,学习一个泛化能力更强的环境特征提取器,极大地提高了元策略的表现,使离线元强化学习得以在样本受限的情况下仍然取得一个不错的性能。

参考文献

[1].HaoqiYuanetal.obustTaskRepresentationsforOfflineMeta-ReinforcementLearningviaContrastiveLearning.(ICML22)

[2].LanqingLietal.FOCAL:EfficientFully-OfflineMeta-ReinforcementLearningviaDistanceMetricLearningandBehaviorRegularization.(ICLR21)

THE END
1.深度学习中的数据增强与实现数据增强可以分为两类,一类是离线增强,一类是在线增强。 离线增强 : 直接对数据集进行处理,数据的数目会变成增强因子乘以原数据集的数目,这种方法常常用于数据集很小的时候。 在线增强 : 这种增强的方法用于,获得 batch 数据之后,然后对这个 batch 的数据进行增强,如旋转、平移、翻折等相应的变化,由于有些数据集不https://www.jianshu.com/p/3e9f4812abbc
2.深度学习——离线数据增强——图片resize深度学习——离线数据增强——图片resize 因为有一批数据有点儿小,数据质量不佳,为了标注方便使用数据增强将数据固定在1080P,方便标注, # -*- coding: UTF-8 -*-""" @Project :yolov5_relu_fire_smoke_v1.4 @IDE :PyCharm @Author :沐枫 @Date :2024/4/2 20:28https://blog.csdn.net/weixin_50727642/article/details/137646885
3.目标检测数据集之离线数据增强2.目标检测离线数据增强步骤(一定要先看,便于理解过程) 3.数据增强代码 4.代码运行 5.完整代码 6.结果展示 1.数据增强概述 海量数据是目标检测的基础,而针对于特定场景的数据往往需要自己获取和标注,往往需要耗费大量的人工成本和时间成本。而数据增强则能很好的解决这问题。与简单的数据增强方法不同,目标检测的数http://zhangshiyu.com/post/58636.html
4.Tableau157亿收购背后,50页深度报告看清BI的未来极客公园BI 商业智能从传统 BI 阶段向敏捷 BI 的发展过程中,数据源与数据管理、增强性分析、交互易用性,是 BI 技术架构快速演变的主要方向。具体表现为传统数仓向海量混合存储与高效治理演进、离线数据分析向增强性实时分析演进、静态报表向自助图表和智能交互演进。 https://www.geekpark.net/news/246117
5.金蝶云?苍穹V6.0集成服务云新特性发布1. 丰富离线数据方案导出CSV文件的类型,支持逗号、分号、竖线、制表符、空格五种分隔符,用户可根据实际需要自定义分隔符 ■ https://vip.kingdee.com/article/190409484811457280 2. 支持了RocketMQ延时发送设置 ■ https://vip.kingdee.com/article/184350 3. 数据迁移导入支持Excel文件分录、数据迁移导出支持Excel文https://vip.kingdee.com/article/480021597894612480
6.Win10一周年更新版系统CLSID(GUID)有哪些?windows10Windows系列增强存储数据源 shell:::{9113A02D-00A3-46B9-BC5F-9C04DADDD5D7} Explorer Browser Results Folder shell:::{418c8b64-5463-461d-88e0-75e2afa3c6fa} 收藏夹 shell:::{323CA680-C24D-4099-B94D-446DD2D7249E} 文件备份目录 shell:::{877ca5ac-cb41-4842-9c69-9136e42d47e2} https://www.jb51.net/os/win10/494242.html
7.最新车身漆面缺陷检测算法及一些缺陷数据集项目介绍为了消除数据过拟合,对汽车油漆图像中的缺陷尺寸(油漆高度,油漆宽度)进行采样。采样规则如下: 规则中(Xmin,Ymin)和(Xmax,Ymax)分别为原图缺陷区域左上角和右下角的坐标。具体的解释规则参考原文。 1.3生成的油漆缺陷数据库 为了验证所提出的离线数据增强算法的有效性,建立了三个数据集用于比较实验,分别是测试数据集https://www.yoojia.com/ask/17-11631754346557195974.html
8.混合样本数据增强(MixedSampleDataAugmentation)前言 最近在做钢筋检测的比赛,因为比赛提供的数据只有200多张,而要使用神经网络模型来完成这个任务的话,这样的数据集就显得非常不足了,因而当我们要训练一个神经网络模型时,数据增强就变成了一种非常有必要的手段了,数据增强一般非为两种方式:一类是离线增强,一类是在线增强。 离线增强 : 直接对数据集进行处理,数据https://www.pianshen.com/article/82451024904/
9.基于图像的数据增强方法发展现状综述同时,基于深度学习的图像处理算法训练的模型的好坏与数据集的质量、规模息息相关,但由于客观原因存在获得的图像数据集小、图像质量差,样本分布不均衡等现象。针对上述问题,研究人员提出通过使用图像数据增强技术实现对模型的输入数据的规模、质量和分布情况进行优化,将数据增强后的数据集用于深度学习模型将有效降低出现过https://www.hanspub.org/journal/PaperInformation.aspx?paperID=40410
10.VOC数据图片和xml同时增强VOC格式标注行人的数据集(1000+图片).zip VOC格式标注行人的数据集,其中包括1000+图片,可用于行人检测的训练,只有一类:person 上传者:qq_42881737时间:2019-07-30 离线数据增强 VOC2007数据集 在参加一个目标检测的比赛时写的一个代码,因为官方提供的数据集较小,深度学习需要的数据集也比较大,因而自己便做了一https://www.iteye.com/resource/weixin_38842821-12874321
11.基于CNN的农作物病虫害图像识别模型①数据增强可以分为离线增强和在线增强.离线增强直接对数据集进行处理,常用于数据集较小的时候.而在线增强适用于大型数据集,在模型训练过程中获得batch 数据之后,然后对这个batch 的数据进行增强,如旋转、平移、翻折等相应的变化,该方法相对于离线增强操作更为简洁,且可以使用GPU 优化计算.因此本文在后续工作中将采用在线https://www.fx361.com/page/2020/0620/11641171.shtml
12.分布式时序数据库TimeLyre9.1发布:海量存储高效压缩实时分析同时利用星环科技分布式分析型数据库ArgoDB进行湖仓集一体化建设,实现了大数据灵活分析、离线作业管理等功能,进一步增强了企业业务数据离线分析能力。 项目建成后极大提升了时序数据存储性能,实现了每秒千万级流数据插入,入库性能提升十倍以上;实现了高性能查询,时序数据快速查询能够毫秒级返回结果,查询性能提升十倍以上;大幅https://news.iresearch.cn/yx/2023/08/477070.shtml
13.四年蝉联!华为云再获中国大数据平台市场第一在湖仓一体LakeHouse架构基础上,华为云大数据增强了流批一体能力,即数据秒级实时入湖更新,实时数据读取,一份数据在统一的数据格式上支持实时、准实时、离线数仓加工,高效支撑业务从T+1到T+0实时化,大大提升用户体验。 同时DataArts Studio提供了一键数据入湖工具,一套平台支持批、流、CDC增量等场景数据联动入湖,提https://www.huaweicloud.com/news/2024/20240826083727548.html
14.深度学习Detectron2使用指南腾讯云开发者社区2. 自定义数据集 2.1 关于COCO格式 Detectron2已经写好了COCO格式的数据集图像和标注的读取,因此通常减少工作量,可以自己写一个脚本将数据集转为COCO格式的标注。 COCO的文件目录如下: 代码语言:javascript 复制 -coco/|-train2017/|-1.jpg|-2.jpg|-val2017/|-3.jpg|-4.jpg|-test2017/|-5.jpg|-6.jpghttps://cloud.tencent.com/developer/article/1960793
15.美国的数据要素实践及其对我国的影响和启示GovCDO通过立法司法等措施坚决防止对数据产权的垄断,通过法律法规等方式大力推动政府数据全方位开放,通过传统反垄断法引导企业数据增强互操作性和共享程度,通过分领域立法保护个人信息隐私,通过修改相关法律、以及与其他国家签订合作框架布局全球数据流动机制,通过分类监管推动数据经纪交易模式,极大增强了美国本土数字企业的全球竞争力http://govcdo.digitalelite.cn/nd.jsp?id=418
16.SemanticSegmentationtransform所做的增强,仅仅是在数据读取过程中随机地对某张图像做转化操作,实际数据量上并没有增多,可以将其视为是一种在线增强的策略。如果想要实现实际训练数据成倍数的增加,可以使用离线增强策略。 与图像分类仅需要对输入图像做增强不同的是,对于语义分割的数据增强而言,需要同时对输入图像和输入的mask同步进行数据https://gitee.com/loveinfall/Semantic-Segmentation-Guide
17.西瓜插件Chrome生产工具插件3.通过大数据分析,轻松高效完成追热点,找素材,文章排版,图文管理,数据分析这一整套公众号运营工作,是万千新媒体人的可靠新伙伴。 这款插件对于公众号运营人员堪称神器,好用的功能太多,我总结一下,就不一一赘述了,大家自己去安装体验吧! 总结 强大的公众号数据增强工具,轻松运营公众号。 https://huajiakeji.com/productivity/2019-02/1902.html
18.网络信息化年度工作总结(精选8篇)同时,对驻厂运维人员的安全管理措施进行了检查和风险评估,经过排查,未发现存在擅自读取、存储、缓存、和使用数据(包括数据泄露)的问题隐患。对于存在IT与数据安全等3项主要风险隐患采取了管控措施和问题整改,加大了高风险漏洞和弱密码专项治理情况监管力度,增强大数据环境下防攻击、防泄露、防窃取的监测预警和应急处置https://www.ruiwen.com/word/wangluoxinxihuaniandugongzuozongjie.html
19.智能学子赴巴黎参加人工智能国际顶级会议ICCV2023并斩获26项赛事冠军方案:团队基于Mask2Former分割器提出并行Transformer解码算法,由数据级、模型级、预测级三种解决策略组成。数据级上,通过旋转进行离线数据增强,通过随机缩放、裁剪、翻转进行在线数据增强。模型级上,使用带有适配器的BEiTv2作为特征提取网络,以并行形式额外引入基于Transformer的解码器来实现农作物的整株与叶子实例分割。https://ipiu.xidian.edu.cn/info/1097/2666.htm