因此,作者开发了一个统一的多粒度学习框架,名为UMG-CLIP,该框架同时赋予模型在不同细节层次上的多种感知能力。采用参数高效的调优,UMG-CLIP超越了目前广泛使用的CLIP模型,并在各种图像理解基准测试上达到了最先进的表现,包括开放世界识别、检索、语义分割和panoptic分割任务。
作者希望UMG-CLIP可以成为推进视觉语言基础模型的有价值的选项。
近年来,在开发基础模型(FoundationModels,FMs)方面取得了显著的进展。与自然语言处理中的大型语言模型(LargeLanguageModels,LLMs)同时,视觉语言基础模型(Vision-LanguageFMs)的代表,如CLIP及其变体,在需要同时理解视觉和文本模态的任务中获得了显著的声誉,并成为主流。
为了克服这个局限性,已经投入了大量的努力来增强CLIP的训练粒度。这些努力主要涉及将CLIP定制为特定任务,例如目标检测和分割。然而,由于高质量图像数据集的稀缺性,现有的CLIP训练方法往往无法充分利用这些数据集的优势。此外,这些方法引入了由于挖掘过程的隐式性质而产生的标注噪声。
在本文中,作者探索将细粒度定位能力集成到当前CLIP模型中。主要的挑战来自三个方面:缺乏高质量、细粒度标注的数据集,以及可以包含不同Level监督的有效训练框架,以及考虑到任务差异,处理各种视觉任务的低成本适应范式。作者在数据和模型两个方面解决了上述挑战。
多粒度数据集生成。通过利用来自机器学习社区的广泛模型,作者能够开发出一种自动标注工作流程,能够在不同粒度Level上生成详细的标注。具体来说,作者使用高性能分类,检测和分割模型作为标注器,自动生成图像、区域和像素Level的标注。此外,作者评估生成的标注质量,并开发一种自动过滤方案,以精心选择和集成最终的标注数据。作者标注了六个公共数据集,并获得了UMG-41M,其中包含大约4.1亿张图像,3.89亿个区域,涵盖11,741个类别。
多任务预训练范式。因此,作者提出了一种统一的、多粒度学习框架,名为UMG-CLIP,以赋予CLIP局部感知能力。具体来说,除了传统的图像-文本匹配外,UMG-CLIP从图像中提取区域并执行区域-文本匹配,以增强其对细粒度的明确理解能力。此外,UMG-CLIP将这两个Level的标签监督集成起来,以提高其类别区分能力。为确保效率,尤其是在使用高分辨率图像进行细粒度预训练时,UMG-CLIP采用了一种基于聚类的策略,并在预训练过程中减少了75%的视觉标记。
高效下游适应。由于UMG-CLIP已经通过在不同粒度任务上进行预训练而获得了通用能力,因此其下游适应的负担可以显著减轻。因此,作者使用参数高效的调优(PET)技术将UMG-CLIP适应到不同的任务中,其中UMG-CLIP的预训练Backbone被冻结,从而保留了其现有的知识,避免了需要大量调整资源的繁琐过程。
将上述成分结合在一起,产生了一个强大的视觉框架。如图1所示,与现有的视觉语言模型相比,UMG-CLIP在具有不同粒度Level的多个下游任务上表现出卓越的性能。值得注意的是,它在一系列基准测试中实现了最先进(SOTA)的结果,涵盖了开放世界识别、检索、语义分割和panoptic分割。
对于视觉理解,近年来趋势是从紧密的设置转向更具挑战性的、开放的世界的理解。其中,CLIP和ALIGN是先驱之作,它们通过使用大量的图像-文本对进行训练。接下来,FLIP通过引入Mask加速了训练过程。BLIP将理解和生成任务集成在一起,使模型具有描述能力。值得注意的是,EVA-Series调整了模型结构,增加了训练数据和模型大小,并在不同的视觉任务上实现了一系列最先进性能。还有考虑为CLIP引入局部感知能力的工作。
DetCLIP引入了一个概念词典,用其描述丰富了概念。CoDet在图像之间发现共同出现的目标,并将其与共享概念对齐。MaskCLIP向冻结的CLIP添加了一个Mask生成器,并计算Mask与文本嵌入之间的相似性,以完成零样本任务。
这些数据集从小规模,如SBU,Flickr30k,和CC3M,到较大的,如CC12M,LAION400M,COYO-700M,LAION5B。然而,这些数据集都受到全局图像-文本对的限制。
最近,SA-1B提供了局部区域的Mask标注,但缺乏语义信息。虽然有关于描述局部区域的工作,如VisualGenome和RefCOCO,但这些数据集在大小上仍然相对较小。GLIP试图构建词-区域对齐数据,但其词数据是从检测数据集中提取的,并使用原始图像标题作为名词短语,这在丰富性和质量方面存在一定的缺陷。最近的工作All-Seeing开发了一种自动标注过程,为区域提供详细的文本标注,但其标注粒度仅限于区域Level。
在这个部分,作者将详细介绍自动化标注工作流程,以及标记的大规模细粒度数据集UMG-41M。
数据标注工作流程。如图2所示呈现了一个自动化标注工作流程,该流程便于全面标注,涵盖图像级、区域级和像素级视角:
图像级。对于全局图像,使用高性能标签模型RAM来标注其标签。同样,使用BLIP2和Shikra来提供相应的标题。此外,作者使用EVA-CLIP为每个标题分配一个分数,该分数作为过滤高质量标题的指示器。
区域级。对于区域级标注,首先利用两个ViTDet模型,分别在大Detection和V3Det上进行训练,来生成候选边界框及其对应的类别标签。然后,过滤掉置信度低于0.3的候选项,并应用非极大值抑制(NMS)来合并剩余的框。基于生成的框,作者使用GPT4ROI和Shikra模型来标注相应的标题。
像素级。对于像素级标注,使用两种技术:MaskDINO用于生成背景Mask,SAM用于提取前景Mask。SAM使用的边界框提示是从作者的区域级标注派生而来的。为了确保标注质量,作者使用一些方法来增强标注,如在SAM中使用区域级标注派生的提示。
为了确保生成的前景Mask的质量,作者还需要评估它们在边界框扰动下的稳定性,并随后消除稳定性较低的Mask,更详细的细节请参见附录。
数据集细节。从六个公共数据集中标注了总共41.41亿张图像,这些数据集包括CC3M,CC12M,SBU,VG,YFCC15M和IN21K。作者提出的数据集名为UMG-41M,它涵盖了不同粒度的标注。
此外,还为BigDet提供了像素级标注,结果是BigDetPanoptic数据集,包含3.59亿张图像,48.60亿个区域和653个类别。作者利用BigDetPanoptic进行密集级下游适应,更多信息请参见第4.2节。图3提供了标注数据的示例,更多信息请参见附录。
在这个部分,作者将介绍多粒度视觉通用模型的预训练方法,以及将该模型有效地适应各种下游任务所采用的技术。
框架概述UMG-CLIP的整体框架如图4所示。
减少预训练内存。更细粒度的预训练需要比图像Level更高的预训练分辨率以确保预训练质量,而增加分辨率通常会导致更大的内存负担。为了处理这个问题,UMG-CLIP采用了一种基于聚类的策略,在预训练期间减少了75%的视觉标记。与FLIP中随机屏蔽视觉标记不同,作者认为UMG-CLIP需要保留区域级学习所需的详细空间和语义信息。
因此,受到AliRus的启发,将冗余标记聚类为代表性标记,并通过后续的Transformer层仅传递这些代表性标记。在Transformer结束时,作者将代表性标记展开以恢复区域级学习的原始分辨率。
考虑到UMG-CLIP已经预训练了具有各种粒度任务通用的能力,将其适应不同的下游任务可以显著减轻负担。因此,作者采用了参数高效的调优(PET)技术来实现这种高效的下游适应。
具体来说,将UMG-CLIPBackbone的预训练参数冻结以保留其现有的知识,同时在其适应过程中引入可学习的PET模块和任务特定的解码器,以增强其对具体下游任务的理解。PET模块并行地集成在UMG-CLIP的原始多头自注意力(MHSA)和MLP层中,它们的计算可以表示如下公式:
为了适应不同的下游任务,作者开发了两个不同的适应模型,更多信息请参见第5.1节。
为了最小化计算成本并保持满意的性能,在处理BigDetPanoptic时,选择适应10个周期。
零样本检索。表3在COCO和Flickr30K数据集上展示了零样本检索结果,突出了UMG-CLIP相对于其他方法的优势。
值得注意的是,作者的方法与EVA-02-CLIP-E/14相比,在COCOI2T和T2I上的R@1改进分别为5.3%和7.0%。这种显著的改进可以归因于UMG-41M中文本对的质量更高且多样性更大,这增强了作者的UMG-CLIP对图像-文本理解的capability。
开放词汇panoptic分割。表4检查了panoptic分割结果。遵循FC-CLIP,首先使用COCOPanoptic数据集适应UMG-CLIP,然后评估其性能在COCO和ADE20K上的表现。
值得注意的是,UMG-CLIP在_seen_COCO数据集上达到了与EVA-02-CLIP相当的性能,但在_zero-shot_ADE20K数据集上显著优于它。这种卓越的零样本性能也一致地保持在语义分割任务中,如表5所示,并在稍后的讨论中进一步阐述。通过利用标注的BigdetPanoptic数据集进行适应,UMG-CLIP进一步获得了新的state-of-the-art性能。
在所有基准上,UMG-CLIP获得了最先进的性能。
开放词汇语义分割。表5在6个不同的基准上展示了语义分割的结果。值得注意的是,当使用COCOPanoptic进行适应时,UMG-CLIP已经显示出比EVA-02-CLIP和FC-CLIP更好的性能。
此外,当使用BigdetPanoptic进行适应时,UMG-CLIP的表现进一步显著改进,特别是在具有挑战性的基准,如A-150,A-847和PC-459上。
损失组合。表6展示了不同多任务学习目标的组合的消融结果。在这个分析中,作者排除了PET模块并利用数据子集加速验证过程,在预训练阶段使用2.7亿数据(减少周期至2),在密集Level适应阶段使用20%的COCO,输入分辨率为384×384。
通过结合区域级标题监督,与仅依赖图像级标题监督相比,分割性能显著提高了2.2mIoU。这种改进伴随着分类(-0.4%)和检索性能(-0.1%)的轻微下降。此外,添加标签监督进一步提高了分割性能,导致mIoU达到50.7,同时保持了令人满意的分类和检索性能。
PET和分辨率对于密集Level下游。表7全面分析了将PET模块集成到下游适应中的好处,并得出了鼓舞人心的结果。装备有PET的模型在ADE20K和COCO数据集上始终优于没有PET的模型。
此外,作者注意到基于ViT的模型往往在输入尺寸增加时难以进行泛化。然而,表7中的结果表明,通过实现PET可以缓解这个问题。具体来说,作者观察到模型性能随着输入分辨率的增加而持续提高。这些发现提供了有力的证据,证明了作者采用的PET策略可以有效增强UMG-CLIP的下游适应能力。
在模型训练方面提出了一种多任务学习策略,同时在不同维度(标题和标签)上执行区域-文本匹配和传统的图像-文本匹配。这种全面的训练方法使得UMG-CLIP能够有效地学习和利用区域及其对应文本描述之间的关系。配备了PET策略,UMG-CLIP在各种开放世界理解任务上展现出卓越的性能优势。作者希望UMG-CLIP能够成为推进视觉语言基础模型的有价值的选项。
CLIP可以作为推进视觉语言基础模型的有价值的选项,为各种视觉语言任务和应用提供增强的能力。
虽然作者承认数据标注过程可能繁琐,需要使用多个额外的模型,但作者认识到模型训练和数据标注过程之间需要更好的协同作用以有效地扩大数据收集。作者将这视为未来研究的方向。
类别分布。图5显示了UMG-41M的类别分布统计。除了常见的类别(例如人和T恤),UMG-41M还提供了一些更细粒度的类别标注(例如,Colibricoruscans和Calotropisgigantea)。整体类别呈现出长尾分布。
区域面积分布。表8检查了UMG-41M中的区域面积分布。由于UMG-41M主要分析具有多个物体的复杂场景,观察到约50%的标注区域是小或中型。
句子长度。表9检查了UMG-41M的平均句子长度。UMG-41M使用7.50个词来描述一张图像的整体信息,而Shikra提供的文本标注更为具体,为10.96个词。区域描述使用相对较少的文本(5.85个词),因为区域包含的信息少于整个图像。
为了确保生成的前景Mask的质量,作者通过让它们经历边界框抖动来评估它们的稳定性,然后删除稳定性较低的Mask。这个过程涉及将原始边界框沿着对角线略微平移,并使用平移后的边界框生成一个新的Mask。接下来,作者计算新生成Mask和原始Mask之间的像素IoU。稳定性分数然后由多次平移得到的平均像素IoU确定。
在图6中,作者提供了UMG-41M数据集标注的附加示例,以增强作者对UMG-41M的易懂性。这些插图展示了作者标注质量在不同数据样本上的高质性。
[1].UMG-CLIP:AUnifiedMulti-GranularityVisionGeneralistforOpen-WorldUnderstanding.