华为提出最强CLIPUMGCLIP统一多粒度学习框架赋予模型在不同细节层次上的多种感知能力

因此,作者开发了一个统一的多粒度学习框架,名为UMG-CLIP,该框架同时赋予模型在不同细节层次上的多种感知能力。采用参数高效的调优,UMG-CLIP超越了目前广泛使用的CLIP模型,并在各种图像理解基准测试上达到了最先进的表现,包括开放世界识别、检索、语义分割和panoptic分割任务。

作者希望UMG-CLIP可以成为推进视觉语言基础模型的有价值的选项。

近年来,在开发基础模型(FoundationModels,FMs)方面取得了显著的进展。与自然语言处理中的大型语言模型(LargeLanguageModels,LLMs)同时,视觉语言基础模型(Vision-LanguageFMs)的代表,如CLIP及其变体,在需要同时理解视觉和文本模态的任务中获得了显著的声誉,并成为主流。

为了克服这个局限性,已经投入了大量的努力来增强CLIP的训练粒度。这些努力主要涉及将CLIP定制为特定任务,例如目标检测和分割。然而,由于高质量图像数据集的稀缺性,现有的CLIP训练方法往往无法充分利用这些数据集的优势。此外,这些方法引入了由于挖掘过程的隐式性质而产生的标注噪声。

在本文中,作者探索将细粒度定位能力集成到当前CLIP模型中。主要的挑战来自三个方面:缺乏高质量、细粒度标注的数据集,以及可以包含不同Level监督的有效训练框架,以及考虑到任务差异,处理各种视觉任务的低成本适应范式。作者在数据和模型两个方面解决了上述挑战。

多粒度数据集生成。通过利用来自机器学习社区的广泛模型,作者能够开发出一种自动标注工作流程,能够在不同粒度Level上生成详细的标注。具体来说,作者使用高性能分类,检测和分割模型作为标注器,自动生成图像、区域和像素Level的标注。此外,作者评估生成的标注质量,并开发一种自动过滤方案,以精心选择和集成最终的标注数据。作者标注了六个公共数据集,并获得了UMG-41M,其中包含大约4.1亿张图像,3.89亿个区域,涵盖11,741个类别。

多任务预训练范式。因此,作者提出了一种统一的、多粒度学习框架,名为UMG-CLIP,以赋予CLIP局部感知能力。具体来说,除了传统的图像-文本匹配外,UMG-CLIP从图像中提取区域并执行区域-文本匹配,以增强其对细粒度的明确理解能力。此外,UMG-CLIP将这两个Level的标签监督集成起来,以提高其类别区分能力。为确保效率,尤其是在使用高分辨率图像进行细粒度预训练时,UMG-CLIP采用了一种基于聚类的策略,并在预训练过程中减少了75%的视觉标记。

高效下游适应。由于UMG-CLIP已经通过在不同粒度任务上进行预训练而获得了通用能力,因此其下游适应的负担可以显著减轻。因此,作者使用参数高效的调优(PET)技术将UMG-CLIP适应到不同的任务中,其中UMG-CLIP的预训练Backbone被冻结,从而保留了其现有的知识,避免了需要大量调整资源的繁琐过程。

将上述成分结合在一起,产生了一个强大的视觉框架。如图1所示,与现有的视觉语言模型相比,UMG-CLIP在具有不同粒度Level的多个下游任务上表现出卓越的性能。值得注意的是,它在一系列基准测试中实现了最先进(SOTA)的结果,涵盖了开放世界识别、检索、语义分割和panoptic分割。

对于视觉理解,近年来趋势是从紧密的设置转向更具挑战性的、开放的世界的理解。其中,CLIP和ALIGN是先驱之作,它们通过使用大量的图像-文本对进行训练。接下来,FLIP通过引入Mask加速了训练过程。BLIP将理解和生成任务集成在一起,使模型具有描述能力。值得注意的是,EVA-Series调整了模型结构,增加了训练数据和模型大小,并在不同的视觉任务上实现了一系列最先进性能。还有考虑为CLIP引入局部感知能力的工作。

DetCLIP引入了一个概念词典,用其描述丰富了概念。CoDet在图像之间发现共同出现的目标,并将其与共享概念对齐。MaskCLIP向冻结的CLIP添加了一个Mask生成器,并计算Mask与文本嵌入之间的相似性,以完成零样本任务。

这些数据集从小规模,如SBU,Flickr30k,和CC3M,到较大的,如CC12M,LAION400M,COYO-700M,LAION5B。然而,这些数据集都受到全局图像-文本对的限制。

最近,SA-1B提供了局部区域的Mask标注,但缺乏语义信息。虽然有关于描述局部区域的工作,如VisualGenome和RefCOCO,但这些数据集在大小上仍然相对较小。GLIP试图构建词-区域对齐数据,但其词数据是从检测数据集中提取的,并使用原始图像标题作为名词短语,这在丰富性和质量方面存在一定的缺陷。最近的工作All-Seeing开发了一种自动标注过程,为区域提供详细的文本标注,但其标注粒度仅限于区域Level。

在这个部分,作者将详细介绍自动化标注工作流程,以及标记的大规模细粒度数据集UMG-41M。

数据标注工作流程。如图2所示呈现了一个自动化标注工作流程,该流程便于全面标注,涵盖图像级、区域级和像素级视角:

图像级。对于全局图像,使用高性能标签模型RAM来标注其标签。同样,使用BLIP2和Shikra来提供相应的标题。此外,作者使用EVA-CLIP为每个标题分配一个分数,该分数作为过滤高质量标题的指示器。

区域级。对于区域级标注,首先利用两个ViTDet模型,分别在大Detection和V3Det上进行训练,来生成候选边界框及其对应的类别标签。然后,过滤掉置信度低于0.3的候选项,并应用非极大值抑制(NMS)来合并剩余的框。基于生成的框,作者使用GPT4ROI和Shikra模型来标注相应的标题。

像素级。对于像素级标注,使用两种技术:MaskDINO用于生成背景Mask,SAM用于提取前景Mask。SAM使用的边界框提示是从作者的区域级标注派生而来的。为了确保标注质量,作者使用一些方法来增强标注,如在SAM中使用区域级标注派生的提示。

为了确保生成的前景Mask的质量,作者还需要评估它们在边界框扰动下的稳定性,并随后消除稳定性较低的Mask,更详细的细节请参见附录。

数据集细节。从六个公共数据集中标注了总共41.41亿张图像,这些数据集包括CC3M,CC12M,SBU,VG,YFCC15M和IN21K。作者提出的数据集名为UMG-41M,它涵盖了不同粒度的标注。

此外,还为BigDet提供了像素级标注,结果是BigDetPanoptic数据集,包含3.59亿张图像,48.60亿个区域和653个类别。作者利用BigDetPanoptic进行密集级下游适应,更多信息请参见第4.2节。图3提供了标注数据的示例,更多信息请参见附录。

在这个部分,作者将介绍多粒度视觉通用模型的预训练方法,以及将该模型有效地适应各种下游任务所采用的技术。

框架概述UMG-CLIP的整体框架如图4所示。

减少预训练内存。更细粒度的预训练需要比图像Level更高的预训练分辨率以确保预训练质量,而增加分辨率通常会导致更大的内存负担。为了处理这个问题,UMG-CLIP采用了一种基于聚类的策略,在预训练期间减少了75%的视觉标记。与FLIP中随机屏蔽视觉标记不同,作者认为UMG-CLIP需要保留区域级学习所需的详细空间和语义信息。

因此,受到AliRus的启发,将冗余标记聚类为代表性标记,并通过后续的Transformer层仅传递这些代表性标记。在Transformer结束时,作者将代表性标记展开以恢复区域级学习的原始分辨率。

考虑到UMG-CLIP已经预训练了具有各种粒度任务通用的能力,将其适应不同的下游任务可以显著减轻负担。因此,作者采用了参数高效的调优(PET)技术来实现这种高效的下游适应。

具体来说,将UMG-CLIPBackbone的预训练参数冻结以保留其现有的知识,同时在其适应过程中引入可学习的PET模块和任务特定的解码器,以增强其对具体下游任务的理解。PET模块并行地集成在UMG-CLIP的原始多头自注意力(MHSA)和MLP层中,它们的计算可以表示如下公式:

为了适应不同的下游任务,作者开发了两个不同的适应模型,更多信息请参见第5.1节。

为了最小化计算成本并保持满意的性能,在处理BigDetPanoptic时,选择适应10个周期。

零样本检索。表3在COCO和Flickr30K数据集上展示了零样本检索结果,突出了UMG-CLIP相对于其他方法的优势。

值得注意的是,作者的方法与EVA-02-CLIP-E/14相比,在COCOI2T和T2I上的R@1改进分别为5.3%和7.0%。这种显著的改进可以归因于UMG-41M中文本对的质量更高且多样性更大,这增强了作者的UMG-CLIP对图像-文本理解的capability。

开放词汇panoptic分割。表4检查了panoptic分割结果。遵循FC-CLIP,首先使用COCOPanoptic数据集适应UMG-CLIP,然后评估其性能在COCO和ADE20K上的表现。

值得注意的是,UMG-CLIP在_seen_COCO数据集上达到了与EVA-02-CLIP相当的性能,但在_zero-shot_ADE20K数据集上显著优于它。这种卓越的零样本性能也一致地保持在语义分割任务中,如表5所示,并在稍后的讨论中进一步阐述。通过利用标注的BigdetPanoptic数据集进行适应,UMG-CLIP进一步获得了新的state-of-the-art性能。

在所有基准上,UMG-CLIP获得了最先进的性能。

开放词汇语义分割。表5在6个不同的基准上展示了语义分割的结果。值得注意的是,当使用COCOPanoptic进行适应时,UMG-CLIP已经显示出比EVA-02-CLIP和FC-CLIP更好的性能。

此外,当使用BigdetPanoptic进行适应时,UMG-CLIP的表现进一步显著改进,特别是在具有挑战性的基准,如A-150,A-847和PC-459上。

损失组合。表6展示了不同多任务学习目标的组合的消融结果。在这个分析中,作者排除了PET模块并利用数据子集加速验证过程,在预训练阶段使用2.7亿数据(减少周期至2),在密集Level适应阶段使用20%的COCO,输入分辨率为384×384。

通过结合区域级标题监督,与仅依赖图像级标题监督相比,分割性能显著提高了2.2mIoU。这种改进伴随着分类(-0.4%)和检索性能(-0.1%)的轻微下降。此外,添加标签监督进一步提高了分割性能,导致mIoU达到50.7,同时保持了令人满意的分类和检索性能。

PET和分辨率对于密集Level下游。表7全面分析了将PET模块集成到下游适应中的好处,并得出了鼓舞人心的结果。装备有PET的模型在ADE20K和COCO数据集上始终优于没有PET的模型。

此外,作者注意到基于ViT的模型往往在输入尺寸增加时难以进行泛化。然而,表7中的结果表明,通过实现PET可以缓解这个问题。具体来说,作者观察到模型性能随着输入分辨率的增加而持续提高。这些发现提供了有力的证据,证明了作者采用的PET策略可以有效增强UMG-CLIP的下游适应能力。

在模型训练方面提出了一种多任务学习策略,同时在不同维度(标题和标签)上执行区域-文本匹配和传统的图像-文本匹配。这种全面的训练方法使得UMG-CLIP能够有效地学习和利用区域及其对应文本描述之间的关系。配备了PET策略,UMG-CLIP在各种开放世界理解任务上展现出卓越的性能优势。作者希望UMG-CLIP能够成为推进视觉语言基础模型的有价值的选项。

CLIP可以作为推进视觉语言基础模型的有价值的选项,为各种视觉语言任务和应用提供增强的能力。

虽然作者承认数据标注过程可能繁琐,需要使用多个额外的模型,但作者认识到模型训练和数据标注过程之间需要更好的协同作用以有效地扩大数据收集。作者将这视为未来研究的方向。

类别分布。图5显示了UMG-41M的类别分布统计。除了常见的类别(例如人和T恤),UMG-41M还提供了一些更细粒度的类别标注(例如,Colibricoruscans和Calotropisgigantea)。整体类别呈现出长尾分布。

区域面积分布。表8检查了UMG-41M中的区域面积分布。由于UMG-41M主要分析具有多个物体的复杂场景,观察到约50%的标注区域是小或中型。

句子长度。表9检查了UMG-41M的平均句子长度。UMG-41M使用7.50个词来描述一张图像的整体信息,而Shikra提供的文本标注更为具体,为10.96个词。区域描述使用相对较少的文本(5.85个词),因为区域包含的信息少于整个图像。

为了确保生成的前景Mask的质量,作者通过让它们经历边界框抖动来评估它们的稳定性,然后删除稳定性较低的Mask。这个过程涉及将原始边界框沿着对角线略微平移,并使用平移后的边界框生成一个新的Mask。接下来,作者计算新生成Mask和原始Mask之间的像素IoU。稳定性分数然后由多次平移得到的平均像素IoU确定。

在图6中,作者提供了UMG-41M数据集标注的附加示例,以增强作者对UMG-41M的易懂性。这些插图展示了作者标注质量在不同数据样本上的高质性。

[1].UMG-CLIP:AUnifiedMulti-GranularityVisionGeneralistforOpen-WorldUnderstanding.

THE END
1.大模型训练实战经验总结:从入门到精通,全方位解析模型训练中的关键步在当今AI技术飞速发展的背景下,定制化大模型的自主训练已成为满足特定行业需求、保障数据安全、提升模型应用效能的关键途径。本文将深度剖析这一过程的核心价值与实践智慧,从数据隐私保护、模型透明度增强,到数据预处理的精细操作,特别是数据配比在维持模型通用性与垂类能力平衡中的核心作用,为读者勾勒出一幅清晰的大模型https://blog.csdn.net/2401_85325726/article/details/144368261
2.Ai大模型训练框架随着人工智能技术的不断发展,越来越多的企业开始关注并投入巨资研发自己的AI大模型。然而,如何搭建一套高效、实用的AI大模型训练框架成为了摆在他们面前的一项难题。本文将为您详细解析AI大模型训练框架的构建方法,助您企业提升工作效率,创造更多价值。 一、明确目标,制定策略 https://marketplace.huaweicloud.com/article/1-05ec9e94d8885234cea15f6a38b71e11
3.如何从零构建一个现代深度学习框架?10907175的技术博客可以说,眼下比较火的就是各种基于深度学习的大模型训练,那么从零开始构建这样一个能够高效支持各类神经网络模型训练、推理及部署的现代深度学习框架,这个有一定的技术难度,非小白或者一般技术人员可以做到的。深度学习框架涉及到的基础理论知识以及各学科的联合能力要求都是比较高的,查阅了相关资料,下面来大致说一下如何https://blog.51cto.com/u_10917175/11835873
4.分布式训练框架分布式训练框架 一、主流框架: 1、SparkMLlib 2、Parameter Server 3、All-Reduce框架(TensorFlow) 二、分布式机器学习系统: 1、模型并行 2、数据并行 参考: [1]分布式机器学习初探 [2]分布式机器学习之—Spark MLlib并行训练原理 [3]一文读懂「Parameter Server」的分布式机器学习训练原理https://www.jianshu.com/p/920ac27dec12
5.25分钟训练机器人学会6个动作,伯克利开发高效机器人操纵框架而根据相关报告,未来十年,制造业将需要460万个岗位。许多制造商也都在转向自动化生产,机械自动化将占比越来越高。FERM这样的高效训练框架,可谓是制造业福音。 参考链接: https://venturebeat.com/2020/12/16/new-framework-can-train-a-robotic-arm-on-6-grasping-tasks-in-less-than-an-hour/ https://www.thepaper.cn/newsDetail_forward_10641430
6.制作训练集,到训练模型——手把手教你使用yolov5框架训练自己但我想告诉你,大量模型都是有被开源的,我们可以用别人做好的框架,训练自己的模型,而且根本不需要什么基础!我们只需要学会使用大佬们为我们做好的“工具”,就可以将其投入到开发项目中了。 那么接下来,我将会带大家通过开源的yolov5框架,完成:环境搭建,训练集制作,框架参数调整,训练模型和目标检测测试这几个步骤,来https://developer.horizon.ai/forumDetail/185446371330059463
7.科学网—[转载]群视角下的多智能体强化学习方法综述依靠分布式训练框架IMPALA,DeepMind在开发星际争霸AlphaStar时,采用了集中式训练分布式执行的范式设计了三大类智能体对象:主智能体(main agent)为正在训练的智能体及历史数据,采用优先级虚拟自对弈的方式来选取;联盟利用者(league exploiter)能打败联盟中的所有智能体,按照有优先级虚拟自对弈的方式与全联盟的对手进行训练;https://blog.sciencenet.cn/home.php?mod=space&uid=3472670&do=blog&id=1422698
8.JMedSeg:Jittor医学图像智能分割模型库开源了!—Jittor在此基础上,JMedSeg研发团队对现有的方法进行取长补短,提出了基于 MoCo 对比学习框架的自监督预训练框架、数据增强方法,以及STN 空间变形网络结合的SAS(Self supervise learning & dataAugmentation &Spatial transformer networks) 医学图像分割模型训练框架。 https://cg.cs.tsinghua.edu.cn/jittor/news/2021-08-19-00-00-JMedSeg/
9.腾讯云总监手把手教你,如何成为AI工程师?这类人主要提供将计算逻辑,硬件封装打包起来,方便模型的训练和预测。比如: 精通Caffee/TensorFlow等训练框架源码,能熟练使用并做针对性优化; 构建机器学习平台,降低使用门槛,通过页面操作提供样本和模型就能启动训练; 通过FPGA实行硬件加速,实现更低延时和成本的模型预测; https://cloud.tencent.com/developer/article/1004751
10.堆栈AIInfra——AI大模型时代的“卖铲人”? 模型训练:模型库更加刚需,训练框架持续迭代,软件工具协助实验管理。基于通用的LLM大模型微调、蒸馏出小模型成为高性价比的落地方式,因此需要能够高效便捷地获取预训练模型的模型库;也催生更适应LLM大规模训练需求的底层分布式计算引擎和训练框架。此外,我们认为实验管理工具的重要性或始终较高。 https://wallstreetcn.com/articles/3695292
11.一种基于三方同态加密纵向联邦学习的模型保护方法21.图3是本发明带有vfl server服务端的三方模型训练框架图; 具体实施方式 22.为使本发明的目的、技术方案和有益效果更加清晰,下面结合附图及具体实施例对本发明作进一步的详细描述。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。 http://mip.xjishu.com/zhuanli/55/202210359699.html
12.飞桨』核心框架,深度学习&机器学习高性能单机分布式训练PArallel Distributed Deep LEarning: Machine Learning Framework from Industrial Practice (『飞桨』核心框架,深度学习&机器学习高性能单机、分布式训练和跨平台部署) - PaddlePaddle/Paddlehttps://github.com/PaddlePaddle/Paddle
13.旷视开源深度学习框架天元!动静合一,训推一体,落地边缘设备传统的训练框架和推理框架是分开进行的,也就是说,系统要先经过训练再接受新的格式,在推理框架上适配不同的场景,但是在两者转化过程中会遇到算子无法支持、手工无法优化、大量冗余算子等多种问题。 天元系统的训练和推理是一体的,因此无需进行模型转换,同时,系统内部内置有模型优化,可以有效降低手工优化的误差,精度和速https://news.hexun.com/2020-03-25/200756446.html
14.守护记忆:多模态大模型为认知障碍患者带来全新的训练方法近期,微软亚洲研究院与上海市精神卫生中心展开联合研究,借助微软 Azure OpenAI 服务中的多模态大模型以及智能代理(AI agent)技术,开发了个性化认知训练框架“忆我”(ReMe),扩展了自动化认知训练的训练范围,为数字化认知训练提供了新方法,有望帮助延缓认知下降。这项创新工具将助力推进认知训练研究,为各类认知障碍,包括https://www.msra.cn/zh-cn/news/features/reme
15.ACL2021美团提出基于对比学习的文本表示模型,效果相比BERT他们同样使用基于对比学习的训练框架,使用Dropout的数据增强方法,在维基百科语料上Fine-tune BERT。 2.2 对比学习 对比学习是CV领域从2019年末开始兴起的预训练方法,同时最近也被广泛应用到了NLP任务中,我们简要介绍两个领域下的进展: 计算机视觉(CV)领域的对比学习:2019年年末~2020年年初,Facebook提出MoCo$^\text{[https://maimai.cn/article/detail?fid=1631291182&efid=zbjLjwE_JcF3pqFvOvLMNw
16.从「大炼模型」到「炼大模型」:1.75万亿参数,全球最大预训练模型如今,「悟道 2.0」更进一步:不仅在预训练模型架构、微调算法、高效预训练框架方面均实现了原始理论创新,在世界公认的多个 AI Benchmark 榜单上,该模型还取得了多项任务能力的领先地位。 「悟道 2.0」的算法基石是「FastMoE」。在攻关过程中,「悟道」团队开创了 FastMoE 技术,打破了 MoE 本身所存在的限制。作为首个https://www.jiqizhixin.com/articles/2021-06-01-6