ACMMM2023论文:MORE,一个多模态对象实体关系抽取数据集及基准评估

随着数据资源的丰富,许多研究人员开始探索从多模态数据中提取实体和预测它们之间的关系。如Zheng等人首次提出了多模态关系抽取(MRE)的概念,利用图像来辅助文本实体关系的识别。但是,在实际应用中,关系实体往往涉及多个模态,例如,一个实体可能出现在文本中,而另一个实体可能出现在图像中(为与文本实体相区别,下文都称为“视觉对象”或“对象”)。这样的情况需要准确地识别文本所指代的目标视觉对象,以便正确配对“对象-实体”并抽取新的关系事实。本文介绍了一个新任务,即多模态对象-实体关系抽取,旨在从图像和文本数据中提取对象-实体关系的事实。该任务的难点在于文本和图像中多个对象的语义对齐,尤其是这种语义对齐可能是隐式的。以新闻标题和配图为例,文本通常不是相应配图的直接说明,而配图中往往又包含多个对象,这使得识别文本所指代的对象更加困难。

为此,我们人工标注了一个名为MORE的多模态对象-实体关系抽取数据集,该数据集从3559对文本新闻标题和配图中,抽取了21种关系类型、13520个视觉对象和20264个多模态关系事实,每张图像平均有3.8个对象,每一条多模态关系事实都需要从文本中提取实体和从图像中提取对象(图1)。除了构建数据集外,我们将最新的MRE方法针对这个新任务进行了适配,结果表明现有方法在MORE上的性能都显著降低。因此,我们提出MOREformer来改进图像-文本的理解,以便更好地实现文本和图像中多个对象的语义对齐,包括属性感知的文本编码、深度感知的视觉编码和位置融合的多模态编码。

02

贡献

一个新的任务:提出了多模态对象-实体关系抽取任务,旨在从图像和文本数据中提取对象-实体关系的事实,弥补了传统任务对跨模态的对象-实体关系抽取的缺失,使得多模态关系抽取更贴近实际应用场景。

一个新的数据集MORE:该数据集从真实的新闻数据中通过人工标注抽取了大规模高质量的对象-实体关系事实,并充分体现出新任务的难点和挑战,能有效地验证模型的有效性。

针对新任务的挑战,我们提出MOREformer来探索将对象属性,深度和位置编码进行融合的新方法,并通过全面评估和深入分析,给出了多模态对象-实体关系抽取任务未来潜在的研究方向。

03

MORE数据集的构建

3.1数据采集

3.2数据标注

数据标注分为三个阶段:首先,自动识别文本新闻标题中的实体和图像中的对象,并人工审核和校对;其次,人工标注对象和实体之间的关系;最后,过滤文本中提到的重叠对象。

阶段1:实体识别和对象检测。我们利用AllenNLP命名实体识别工具来识别文本新闻标题中的实体并进行标记。此外,我们使用YoloV5对象检测工具来检测对应新闻图像中的对象区域。考虑到两种工具都存在遗漏和错误的可能性,标注人员将对所有提取的对象和实体进行人工审核和校对,为了提高效率,我们针对性地设计和开发了标注审核和校对工具。

阶段2:对象-实体关系标注。我们聘用了具有专业知识背景的标注员来手动标注对象和实体之间的关系。每个样本均由至少两个标注员进行标注。为了确保无偏的标注过程,我们对关系进行了随机分配。每个标注员负责检查文本标题和图像,并推断对象和实体之间的关系。数据没有明确指示的预定义关系将被标记为none。存在差异或冲突的情况时,会请第三个标注员参与讨论以达成共识。

3.3数据集分析

表1给出了数据集的统计信息,MORE的特点在于提供了丰富的视觉对象信息(平均每张图像有3.8个对象),关系类型分布的长尾现象也符合实际应用场景(图2),并且有高达77.8%的数据包含多个实体或者多个视觉对象(表2)。这些特点凸显了多模态对象-实体关系抽取任务的复杂性。

表1:数据集统计信息

(MM:Multimodal,Img:images,Sent:sentences,

多模态关系抽取模型都需要具有对文本和图像的理解能力。除此之外,针对上述MORE数据集的特点,模型还需要能应对文本和图像语义不一致的问题,并具备多对象消歧的能力(multi-objectdisambiguation)。如图3所示,文本和图像之间语义上并非完全一致,文本通常并不是对图像的说明(caption),且每张图像都包含多个对象,但只有其中一部分是文本所隐式指向的。图3(a)需要将文本中的“BlackWoman”与图像中每个对象的属性进行对齐,最终定位到前排左侧的女性。在图3(b)中,对象位置、深度和大小等信息可以帮助模型在文本没有提供任何线索时识别所需的对象。在图3(c)中,理解文本中的“goalkeeper”一词可以将右侧穿着蓝色衣服的第二名运动员确定为图像中的目标对象。最后,在图3(d)中,根据文本提供的信息(OperaHouse),图像中的建筑物才是目标对象,而不是图中的任何人物。

04

基准评估

我们选择了两类基准模型:多模态关系抽取(MRE)模型和视觉语言预训练(VLP)模型。BERT+SG将文本向量表示与由scenegraph生成的视觉特征进行拼接。Bert+SG+Att利用注意机制考虑图像和文本内容之间的语义相似性。MEGA设计了一种高效的图对齐方法,同时考虑图像和文本之间的结构相似性和语义一致性。IFAformer基于Transformer,并融合了前缀注意力增强机制。MKGformer是当前MRE任务的SOTA之一,其中M-Encoder模块可实现视觉Transformer和文本Transformer的多级融合。ViLBERT基于BERT拓展为多模态的双流模型,通过共同注意力Transformer层分别处理视觉和文本输入。VisualBERT是一个扩展了Transformer模型以适应视觉输入的单流网络。

针对多模态对象-实体关系抽取任务,我们基于MKGformer设计了MOREformer,在MKGformer基础上融合了对象属性,视觉深度和位置编码等信息,增强模型对文本和图像中多个对象的语义对齐的学习(图4)。

Attribute-AwareTextualEncoder对文本中对象的属性和文本描述之间的关系进行建模。

Depth-AwareVisualEncoder使用S2R-DepthNet获取整个图像的深度地图。从对应于每个对象的区域获取单独的深度图像。

Position-FusedMultimodalEncoder融合每个对象的RGB-D视觉特征和位置特征。

最终,我们将融合了深度和位置信息的图像特征和对应的属性词特征进行拼接作为对象的表示,再与实体表示进行拼接进行关系分类。

05

实验

5.1总体实验结果

5.2消融实验

消融实验表明(表4),对象属性特征、对象的深度和位置等视觉特征,对模型性能都有积极的贡献,整合更多的特征可能会获得更好的性能。对象位置特征对模型性能的影响最显著,特别是在包含多个对象的图像中,因为目标对象常常占据图像相对中心的位置,仅通过位置信息即可实现对目标对象的准确识别。

5.3多实体/对象的性能表现

我们评估了模型在多实体和多对象的不同组合上的性能(表5)。实验结果显示,当文本中只有一个实体或者图像中只有一个对象时,模型性能较高。然而,随着实体或对象数量的增加,模型性能显著下降。当实体和对象都有多个时,模型性能最差。这表明,实体和对象数量的增加给模型在预测关系方面带来更大的困难,这也证明了MORE数据集的高难度。尤其需要注意的是,当图像中有多个对象时,模型的F1得分显著下降,而准确率仍然很高。这是由于数据集具有类别不均衡的特点,存在相当数量的none关系,导致模型准确预测了这些none关系,但缺少实际意义。因此,在处理包含多个实体和对象的数据时,模型需要克服过拟合none关系的挑战,以实现更好的性能。

5.4长尾关系分布上的性能表现

在实际情况下,数据经常呈现出长尾分布现象,MORE数据集中的关系也呈现出明显的长尾分布。因此,模型可能倾向于拟合大部分关系数据,而忽略长尾关系,导致macro-F1值偏低。我们使用macro-F1指标来全面快速地评估我们模型在长尾分布上的性能。实验结果表明(表6),尽管我们的模型优于基线模型,但所有模型在解决长尾关系方面的表现仍然不理想。因此,在此任务中,需要更有效的技术来应对长尾分布问题。

5.5文本和图像中多个对象的语义对齐性能

在MORE数据集中,平均每张图像包含3.8个对象,因此,消除多个对象之间的歧义是一个巨大的挑战。文本和图像之间的语义不一致进一步增加了多对象消歧的难度。我们在MORE数据集上评估了各模型在多对象消歧方面的性能,评估时假设如果预测的三元组的实体和对象是正确的,且预测的关系和标注结果均不为none,则该三元组被视为分类正确。结果如表7所示,我们的模型无论在全样本数据上还是在多对象样本数据上,都表现出了优于基线模型的性能,表明通过利用我们设计的特征信息,模型可以更好地识别图像中的目标对象。

表7:多对象消歧性能

06

总结

我们提出了一项新任务——多模态对象-实体关系提取,并相应地构建了一个高质量的大规模多模态关系抽取数据集——MORE。该数据集提供了丰富的视觉对象信息,关系类型分布的长尾现象也符合实际应用场景,并且需要模型具有多对象消歧能力,这些为多模态对象-实体关系抽取任务提出了更高的挑战。针对新任务的挑战,我们提出MOREformer来探索将对象属性、深度和位置编码进行融合的新方法,获得了较好的性能,并通过全面评估和深入分析,给出了多模态对象-实体关系抽取任务未来潜在的研究方向。

THE END
1.重尾分布,长尾分布,肥尾分布和随机游走(Heavytailed,Long本文主要讨论重尾分布,长尾分布,肥尾分布三者的联系,同时顺带讨论了一下 Random walk 中的 Lévy flight 和 Brownianmotion。主要内容参考自 Wikipedia 和 Rick Wicklin 的博文Fat-tailed and long-tailed distributions。其实我们讨论重尾长尾肥尾,数学上并没有一个明确的对于尾(tail)的定义,但这也并不妨碍我们进行https://blog.csdn.net/dymodi/article/details/54231728
2.概率分布细谈:厚尾长尾幂律指数在人类行为和社交网络等社会学数据分析中,"厚尾" "长尾" “幂律” “指数”等数学术语频繁出现,新手阅读文献时往往摸不着头脑。在这篇文章中,我将逐一梳理这些常见概念的关系。 0. 指数分布 在介绍厚尾分布之前,我们需要先理解一个基础连续概率分布——指数分布。指数分布一般用来刻画独立随机事件发生的时间间隔。https://www.jianshu.com/p/b7e06c4839b2
3.长尾分布在分类和回归问题中很重要什么是长尾分布对于这个名词,不是很理解,查找资料得出长尾分布数据集的含义。 二、长尾分布数据 2.1 什么是长尾分布 长尾分布数据是一种偏态分布,是指几个类别(亦叫头类)包含大量的样本,而大多数类别(亦叫尾类)只有非常少量的样本。 即一小部分标签(即头部标签)有很多数据实例,而大多数标签(即尾部标签)只有很少数据实例的不平https://blog.51cto.com/u_16213624/10998293
4.长尾级联流行度预测模型训练方法及预测方法5.但是,目前还没有研究从数据服从长尾分布的角度来解决级联预测效果低下的回归问题。技术实现要素:6.本发明的目的旨在针对传统方法直接回避长尾数据带来的预测准确率不高、可解释性低等技术现状,提供一种直面长尾级联信息数据的流行度预测模型及训练方法,利用解耦思想,进行分步训练,以此来提高流行度预测准确率,能够作为https://www.xjishu.com/zhuanli/55/202111169186.html
5.白颈长尾雉形态特征白颈长尾雉繁殖方式→MAIGOO百科中文学名: 白颈长尾雉 拉丁学名: Syrmaticus ewllioti 别称: 横纹背鸡 界: 动物界 门: 脊索动物门 纲: 鸟纲 目: 鸡形目 科: 雉科 属: 长尾雉属 种: 白颈长尾雉 分布区域: 中国 目录 生长与分布 栖息环境 分布范围 形态及特征 生活习性 繁殖方式 价值及其他 种群现状 保护级别 https://www.maigoo.com/citiao/229755.html
6.规模经济思想的核心范文(一)医药商业企业长尾分布 从图2中国医药商业100强销售分布曲线的特征进行观察,中国医药商业行业的结构属于长尾结构(长尾理论所研究的结构),百强企业总销售额为2 764亿元(中国医药商业协会,2008),前10强企业占据了50%的市场份额,剩余90家医药商业企业销售收入累计占50%[4]。如果将所有医药商业企业销售分布图作出,长https://www.gwyoo.com/haowen/240241.html
7.ToB新视角:小程序生态评估方法探索优设网2. 做好抽样方案:长尾分布下分群抽样 B 端商户作为生态中的供给“群体”,具有内在群体结构,每个商户为生态提供的价值并不均匀,在生态内可获得的资源也不均匀。符合“贫者愈贫,富者愈富”的马太效应。 少数行业头部商户,自身体量规模大、品牌效应强,如家政行业的 58 到家、快递行业的顺丰等,属于各自行业内寡头玩家https://www.uisdc.com/miniprogram-assess-ways
8.信息学院在计算机视觉领域取得多项重要成果(第三期)尽管学术界在相关领域已经取得很多进展,但由于视觉关系的类别空间具有本质性的长尾分布和高度多样化的类内变化特征,识别视觉关系仍然具有挑战性。为了解决这些问题,研究人员提出了一种新的具有自适应消息传播机制的置信感知二分图神经网络,通过对场景图上下文语意依赖的稀疏性进行更为灵活有效的建模,从而进一步的改善了目前https://sist.shanghaitech.edu.cn/2021/0506/c2858a63430/page.htm
9.我所35篇论文被2022国际计算机视觉与模式识别大会(CVPR)接收近年来,长尾分布数据的视觉识别问题受到了越来越多的关注。通过大量的实验,我们发现在相同的训练设置,不同的模型初始化下,长尾数据训练出的模型表现出相当大的差异,这体现出了长尾学习中巨大的不确定性。为了减轻这种不确定性,我们提出了一种多专家网络的嵌套式的协同学习方法(NCL),它由两个部分组成,即嵌套个体学习https://www.1633.com/article_univ/217359.html
10.长尾年代(长尾理论)书评美国《联线》(Wired)杂志发表了总编克里斯?安德森(Chris Anderson)的文章:“长尾”。副标题是“别老掂着从榜顶的几个巨无霸里多榨几百万出来。娱乐的未来在码流低浅的那头无数个细微市场那儿”。“低浅的那头”,其实就是帕累托分布的尾巴;“无数个细微市场”,其实也就是托夫勒的全民个性化消费。安德森的神https://book.douban.com/review/1095674/
11.鼠类杂谈黄鼠分布于黑龙江、新疆、内蒙古等地,常见于山地草原。该物种的模式产地在西伯利亚色楞格河。 亚种:长尾黄鼠阿尔泰亚种,分布于新疆(阿尔泰山)等地。长尾黄鼠东北亚种,分布于黑龙江等地。长尾黄鼠天山亚种,分布于阿拉套山、新疆(伊犁天山、乌鲁木齐以西北天山)等地。 http://cdcp.gd.gov.cn/jkjy/jkzt/xdybmswkz/content/post_3439706.html
12.《长尾理论》读后感(通用13篇)《长尾理论》读后感 篇4 刚刚开始以为会描述长尾分布和正态分布的对人的启示意义:如何辨别潜在长尾分布和正态分布项目,并且利用一定的技巧将其推为长尾分布,可能同以前略览过的《黑天鹅现象》一书类似。细细看来,发现并非如此。 本书的话,大致描述的是一个长尾分布的项目存在的条件如何,这其中包括生产工具的普及从https://www.cnfla.com/duhougan/1328952.html
13.统计学入门第1章:不确定性的数学表达:指数分布狗熊会我们从中挑选出仅出险一次的4333张保单,绘制它们的索赔额直方图,如图1.5.4所示。可以看到,图1.5.4展示的情况与我们的猜想一致,大部分车险的索赔金额都集中在5000以内,且不同赔付区间内的保单占比随着赔付金额的增大而逐渐递减,这也是一个典型的长尾分布。https://www.shangyexinzhi.com/article/4456335.html
14.指数分布定义指数分布虽然不能作为机械零件功能参数的分布规律,但是,它可以近似地作为高可 靠性的复杂部件、机器或系统的失效分布模型,特别是在部件或机器的整机试验中得到广泛 的应用。指数分布比幕分布趋近0的速度慢很多,所以有一条很长的尾巴。指数分布很多时候被 认为是长尾分布。互联网网页链接的出度入度符合指数分布指数分布https://www.renrendoc.com/paper/215823448.html
15.土壤性质空间分布的空间预测模型(6页)土壤Cu含量的频率分布直方图表现为右侧长尾分布,说明该区土壤表层Cu含量的空间分布是非常不均匀的。 Cu含量的指示编码变换共使用了5个门槛值,相应指示编码的半方差图(图3)和半方差模型的拟合参数(表1)均由统计计算软件R中的geoR模块计算获得,半方差函数拟合采用的是权重最小二次方方法(WLS)。本研究中仅使用了5个https://max.book118.com/html/2023/0826/8073136073005124.shtm
16.Long因为图片级别的数据易于生成或收集,baseline模型也简单,目前主要的长尾分布研究都集中在图片分类领域。不过随着去年Facebook发布的LVIS(Large Vocabulary Instance Segmentation)数据集(https://arxiv.org/abs/1908.03195),越来越多的人也开始关注起了Instance级别的长尾分布分布问题(物体检测和实例分割),我会在下一节更新https://www.zhihu.com/column/p/158638078
17.起底亚马逊eBay和Etsy卖家分布情况,他们都呈现出这样一个定律从以上三张图可看出,每个平台上的卖家分布情况略有不同,这突出了TOP卖家的不同销售表现。从长尾分布情况来看,Etsy上TOP卖家的规模并不如eBay。虽然亚马逊TOP卖家数量少于eBay,但总体而言,他们创造了更多的GMV(网站交易总额)。Etsy上有21%的评论都流向了前1%的卖家,亚马逊上有42%的评论流向了前1%的卖家,eBay上则有https://www.cifnews.com/article/40788
18.银喉长尾山雀—拍自生态城永定州公园银喉长尾山雀的尾羽健全,活动敏捷,姿态多变,能很快习惯在鸟笼中生活,有一定的观赏价值。[9]银喉长尾山雀是中国较为常见的一种森林鸟类,分布广,数量丰富。主要以昆虫为食,在森林害虫控制方面作用很大,[10]银喉长尾山雀被列入国家林业局发布的《国家保护的有益的或者有重要经济、科学研究价值的陆生野生动物名录》。https://www.meipian.cn/50ola2h2
19.竞赛专题数据预处理如何处理数据中的坑?1. 查看Label分布 对长尾分布数据取log 2. 观察关联 绘制热力图,观察各个数值属性与Label的关联度,去除关联程度非常低的属性。越是白色越是关联紧密,可以观察Label跟哪些属性关联更紧密 3. 去除异常点 通过2找到和Label相关性最强的特征,绘制散点图以及箱型图剔除异常点。不过具体问题需要具体分析,有的异常出现可能https://maimai.cn/article/detail?fid=1321163961&efid=9yH23aG36RwtiOeB78-A8A
20.中国私募量化简史:策略投顾业态及展望基金频道量化竞争格局走向一九现象会越来越明显,长尾分布让头部品牌溢价能力越来越强。股票量化领域的头部效应要明显高于期货领域,这个跟市场容量与技术路径有关系。国内现阶段的格局还没有达到一种寡头垄断阶段,在走向这个过程中还存在不少变数。 外资私募管理人(WFOE)陆续进入国内,是否会对国内的量化格局形成冲击?拿股票高频策略https://funds.hexun.com/2019-09-09/198487973.html