这里整理一下平时所用的多模态数据集以备之用,主要分为
多模态分类(情感分类,影视分类)
多模态问答
多模态匹配(检索)
多模态生成
后面会不断地去添加,也希望能够帮到其他人,欢迎大家补充。
上述链接均可以有年份查询,通过年份可以找到对应年份的所有会议论文,非常方便哦。
2.《TowardsMultimodalSarcasmDetection(AnObviouslyPerfectPaper)》--【多模态讽刺识别】2019年。论文给的是图像和文本双模态讽刺视频。其中每个标签对应的图像包含多个,对应的文本是一组对话,具体如下图所示:
好像部分同学下载失败,可以用下面这个链接:
提取码:5z4o
4.《CH-SIMS:AChineseMultimodalSentimentAnalysisDatasetwithFine-grainedAnnotationsofModality》--【中文多模态情绪】2020年。论文中给出常规的文本、图片和语音的数据进行多模态情绪分类,其中标签更加细致,不仅有最终的标签,还有各个模态的标签。
5.《Iemocap:interactiveemotionaldyadicmotioncapturedatabase》--【多模态视频情感分析】2008。论文简单搜了一下好像要钱,凎!根据摘要可以看出IEMOCAP数据库包含大约12小时的视听数据,包括视频、语音、面部运动捕捉、文本转录。IEMOcap数据库有愤怒、快乐、悲伤、中立标签。
数据集获取方式:
需要填一个申请表,如果没结果就给他们发封邮件。数据很大,大概18G左右,可以用Chrome下载管理器下载。
如果有任何问题可以联系这个人AnilRamakrishna(akramakr@usc.edu)
给他发邮件,告诉他直接把数据集公开在网盘里多好,还要填申请表。。。
6.《GATEDMULTIMODALUNITSFORINFORMATIONFUSION》--【多模态影视类型分类】
该数据集是MM-IMDB,主要是进行影视短剧的多类,包含喜剧,家庭剧等等,具体分布如下图所示。
《Makingthevinvqamatter:Elevatingtheroleofimageunderstandinginvisualquestionanswering》--【多模态问答】2017年。论文中是VQA数据集,包括原始的图片、问答文本等各种属性。我们简单的可以通过word2vec或者Glove或者bert提取文本的embedding,通过Resnet来提取图片的feature,图片问题和回答三个方面通过对应的id来联系
1.《MicrosoftCOCOCaptionsDataCollectionandEvaluationServer》--【多模态图片字幕】2015年。论文给出的是经典的MSCOCO数据集,现在还在广泛使用,我看21年的论文依然在用这个数据集,很出名。数据集较大,大部分设计到纯CV方面的数据集,标注一共分为5类:目标点检测,关键点检测,实例分割,全景分割以及图片标注,前面四个都是CV领域的,感兴趣的同学可以玩一下,简单的多模态方向只需要最后一个,当然如果你要通过目标检测辅助多模态分析等等方向前面几个标注也是有用的。简单的,我们这里需要的是图片和字幕两个模态,这里注意每个图片对应5条字幕,可以用来做多模态匹配之类的任务。数据集包括2014年发布的以及2017年发布的,每个都有超过几十万张图片的标注,图片给出的是原始图片,标注是基于JSON文件给出的,也是原始的文本数据,我们只要写出程序将字幕抽取出来就可以了,字幕和图片之间有id对应,非常方便。
数据集链接是:CommonObjectsinContext
2.《Nus-wide:Areal-worldwebimagedatabasefromnationaluniversityofsingapore.》--【多模态图片字幕匹配检索】2009年,数据集包含269648张图片,每张图片包含81个真实的标签以及100个文本注释。美中不足的是大概看了一下,给的直接是图片的特征,也就没有原始图片,如果论文的方法在Embedding之上可以拿来试一试。
具体使用起来还稍微有一些复杂,因为给的是feature,所以我就没用了。数据集的使用可以参考这个博客,写的很详细:NUS_WIDE数据库制作_LeeWei-CSDN博客_nuswide数据集
对应于Flickr30k3万张图片,有一个小版本Flickr8k,只有8千张图片。
提取码:txnd
《TheIAPRBenchmark:ANewEvaluationResourceforVisualInformationSystems》--【多模态图片字幕匹配检索】IAPRTC-12数据集,包括20,000张从世界各地拍摄的静态自然图像,包括各种不同的静态自然图像截面。这包括不同运动和动作的照片,人物、动物、城市、风景和当代生活的许多其他方面的照片。使用三种语言(英语,德语和西班牙语)来进行注释。
《Conceptualcaptions:Acleaned,hypernymed,imagealt-textdatasetforautomaticimagecaptioning》--【多模态检索】2018年。较大的多模态数据集,包含超过300万张图片以及相应的文本描述,可以用于多模态预训练(不过还是感觉好少哇,跟单模态几亿张图片比起来,多模态的标注工作太耗时耗力了)。如图所示:
6.《WenLan:BridgingVisionandLanguagebyLarge-ScaleMulti-ModalPre-Training》--【多模态检索2021】论文发布了超级大型的中文文本图片匹配数据集RUC-CAS-WenLan用于预训练,数据集规模在3000万对。同时论文也发布了大型中文多模态检索预训练模型。
1.《How2:ALarge-scaleDatasetforMultimodalLanguageUnderstanding》--【多模态自动语音识别、多模态机器翻译、语音文本翻译、多模态总结(Summarization)】