多模态分析数据集(MultimodalDataset)整理

这里整理一下平时所用的多模态数据集以备之用,主要分为

多模态分类(情感分类,影视分类)

多模态问答

多模态匹配(检索)

多模态生成

后面会不断地去添加,也希望能够帮到其他人,欢迎大家补充。

上述链接均可以有年份查询,通过年份可以找到对应年份的所有会议论文,非常方便哦。

2.《TowardsMultimodalSarcasmDetection(AnObviouslyPerfectPaper)》--【多模态讽刺识别】2019年。论文给的是图像和文本双模态讽刺视频。其中每个标签对应的图像包含多个,对应的文本是一组对话,具体如下图所示:

好像部分同学下载失败,可以用下面这个链接:

提取码:5z4o

4.《CH-SIMS:AChineseMultimodalSentimentAnalysisDatasetwithFine-grainedAnnotationsofModality》--【中文多模态情绪】2020年。论文中给出常规的文本、图片和语音的数据进行多模态情绪分类,其中标签更加细致,不仅有最终的标签,还有各个模态的标签。

5.《Iemocap:interactiveemotionaldyadicmotioncapturedatabase》--【多模态视频情感分析】2008。论文简单搜了一下好像要钱,凎!根据摘要可以看出IEMOCAP数据库包含大约12小时的视听数据,包括视频、语音、面部运动捕捉、文本转录。IEMOcap数据库有愤怒、快乐、悲伤、中立标签。

数据集获取方式:

需要填一个申请表,如果没结果就给他们发封邮件。数据很大,大概18G左右,可以用Chrome下载管理器下载。

如果有任何问题可以联系这个人AnilRamakrishna(akramakr@usc.edu)

给他发邮件,告诉他直接把数据集公开在网盘里多好,还要填申请表。。。

6.《GATEDMULTIMODALUNITSFORINFORMATIONFUSION》--【多模态影视类型分类】

该数据集是MM-IMDB,主要是进行影视短剧的多类,包含喜剧,家庭剧等等,具体分布如下图所示。

《Makingthevinvqamatter:Elevatingtheroleofimageunderstandinginvisualquestionanswering》--【多模态问答】2017年。论文中是VQA数据集,包括原始的图片、问答文本等各种属性。我们简单的可以通过word2vec或者Glove或者bert提取文本的embedding,通过Resnet来提取图片的feature,图片问题和回答三个方面通过对应的id来联系

1.《MicrosoftCOCOCaptionsDataCollectionandEvaluationServer》--【多模态图片字幕】2015年。论文给出的是经典的MSCOCO数据集,现在还在广泛使用,我看21年的论文依然在用这个数据集,很出名。数据集较大,大部分设计到纯CV方面的数据集,标注一共分为5类:目标点检测,关键点检测,实例分割,全景分割以及图片标注,前面四个都是CV领域的,感兴趣的同学可以玩一下,简单的多模态方向只需要最后一个,当然如果你要通过目标检测辅助多模态分析等等方向前面几个标注也是有用的。简单的,我们这里需要的是图片和字幕两个模态,这里注意每个图片对应5条字幕,可以用来做多模态匹配之类的任务。数据集包括2014年发布的以及2017年发布的,每个都有超过几十万张图片的标注,图片给出的是原始图片,标注是基于JSON文件给出的,也是原始的文本数据,我们只要写出程序将字幕抽取出来就可以了,字幕和图片之间有id对应,非常方便。

数据集链接是:CommonObjectsinContext

2.《Nus-wide:Areal-worldwebimagedatabasefromnationaluniversityofsingapore.》--【多模态图片字幕匹配检索】2009年,数据集包含269648张图片,每张图片包含81个真实的标签以及100个文本注释。美中不足的是大概看了一下,给的直接是图片的特征,也就没有原始图片,如果论文的方法在Embedding之上可以拿来试一试。

具体使用起来还稍微有一些复杂,因为给的是feature,所以我就没用了。数据集的使用可以参考这个博客,写的很详细:NUS_WIDE数据库制作_LeeWei-CSDN博客_nuswide数据集

对应于Flickr30k3万张图片,有一个小版本Flickr8k,只有8千张图片。

提取码:txnd

《TheIAPRBenchmark:ANewEvaluationResourceforVisualInformationSystems》--【多模态图片字幕匹配检索】IAPRTC-12数据集,包括20,000张从世界各地拍摄的静态自然图像,包括各种不同的静态自然图像截面。这包括不同运动和动作的照片,人物、动物、城市、风景和当代生活的许多其他方面的照片。使用三种语言(英语,德语和西班牙语)来进行注释。

《Conceptualcaptions:Acleaned,hypernymed,imagealt-textdatasetforautomaticimagecaptioning》--【多模态检索】2018年。较大的多模态数据集,包含超过300万张图片以及相应的文本描述,可以用于多模态预训练(不过还是感觉好少哇,跟单模态几亿张图片比起来,多模态的标注工作太耗时耗力了)。如图所示:

6.《WenLan:BridgingVisionandLanguagebyLarge-ScaleMulti-ModalPre-Training》--【多模态检索2021】论文发布了超级大型的中文文本图片匹配数据集RUC-CAS-WenLan用于预训练,数据集规模在3000万对。同时论文也发布了大型中文多模态检索预训练模型。

1.《How2:ALarge-scaleDatasetforMultimodalLanguageUnderstanding》--【多模态自动语音识别、多模态机器翻译、语音文本翻译、多模态总结(Summarization)】

THE END
1.智能医学数据集合集!数据集网址: https://github.com/bytesc/Image-Recognition-system 5 AiMed 更新时间:2024-05-13 访问地址: GitHub 描述: AiMed面向中文医学的人工智能大语言模型期望实现有效处理医学知识问答、医学论文阅读、医学文献检索等任务和在医学科研中的应用。 https://blog.csdn.net/Kyzy_1919/article/details/144400170
2.计算机毕业设计Python知识图谱大模型医疗问答系统膳食推荐系统后端开发:Python编程语言,结合Flask或Django等Web框架。数据库管理:MySQL等关系型数据库管理系统,用于存储用户信息、问答数据等。前端技术:HTML、CSS、JavaScript以及Vue.js等前端技术,构建用户友好的界面。大模型技术:引入GPT系列等大模型技术,提升系统的问答准确性与智能化水平。系统设计与实现:采用面向对象的设计https://baijiahao.baidu.com/s?id=1818287581222245090&wfr=spider&for=pc
3.计算机毕业设计Python+知识图谱大模型AI医疗问答系统降膳食设计总说明本设计项目旨在开发基于Neo4j的医疗知识图谱可视化系统。近年来,随着医疗数据量的迅速增长,知识图谱作为一种将不同实体和关系关联并可视化的工具,为医学领域的研究和应https://www.jianshu.com/p/cc0dcf69c499
4.课程预告利用生信数据库进行疾病模型构建的创新策略摘要:Nature杂志的一篇文章论述了罕见病数据中心(RDDC)等中文数据库是如何推动罕见病研究持续发展的,充分肯定了中国从业工作者构建属于自己的数据库的深远意义[1]。目前RDDC已实现「生物大数据」与「AI+生信工具」的强强联合,具备「如何借助A模型去研究由B基因的C突变引发D疾病相关机制」一系列实际应用案例;且承诺永https://www.lascn.net/Item/108899.aspx
5.科学网—[转载]医学知识图谱构建关键技术及研究进展实验结果表明,SNERL模型在CDT和CDR这两个生物医学数据集上的表现达到了最优的效果,并且可以大大改善系统的整体召回率,同时避免了级联错误。 针对医学关系跨度大的问题,2020年Nan G S等人提出潜在结构优化(latent structure refinement,LSR)模型,以端到端的方式构造一个文档级图谱来推理句间关系,通过迭代优化策略,模型https://blog.sciencenet.cn/blog-3472670-1302733.html
6.开源竞速:AI大模型的“Linux时刻”降临技术:VisualGLM-6B是由语言模型ChatGLM-6B与图像模型BLP2-Qformer结合,二者结合后的参数为78亿(62亿+16亿)。该模型使用的预训练数据集是CogView数据集中3000万个高质量的“中文图像-文本”和3亿个“英文图像-文本”对。在微调阶段,该模型在长视觉问答数据集上进行训练,以生成符合人类偏好的答案。 https://www.pingwest.com/a/283188
7.莆田学院附属医院智慧服务应用建设(一)期项目附件2022年04月 第一章投标邀请 福建莆田恒顺招标代理有限公司采用公开招标方式组织莆田学院附属医院智慧服务应用建设(一)期项目(以下简称:“本项目”)的政府采购活动,现邀请供应商参加投标。 1、备案编号:B-601013-GK-202204-B0059-PTHS。 2、项目编号:[350300]PTHS[GK]2021040。 http://www.ptzfcg.gov.cn/upload/document/20220419/42cbf932c05048548c1b2893e6dd2fc3.html
8.从大模型的「前世今生」看生成式人工智能的「价值涌现」Chinchilla是由DeepMind公司开发的大型语言模型[6],是对Gopher模型的进一步发展。其优化了数据训练效率,可以使用更少的算力来进行推理和微调,改善了计算资源有限的大型自回归语言模型开发情况,从而使用更大、更高质量的训练数据集以取得更好的模型性能。 18)PaLM http://www.pinevc.com.cn/article/1361.html
9.收藏:常用医学公共数据库(含临床数据库,生信数据库和机器学习数据美国国家癌症数据库(National Cancer Database, NCDB),SEER(Surveillance, Epidemiology, and EndResults Program)https://www.medsci.cn/article/show_article.do?id=fd511958806a
10.4DCT医学影像参考标准数据集/数据集/HyperAI超神经4DCT 数据集是一套资料库,其为医学影像界提供参考标准数据,其客观和严谨的评估可变形影响配准(DIR)的空间准确度表现。胸部 4DCT 图像来源于休斯顿·德克萨斯大学的 MD 安德森癌症中心,其是治疗胸部恶性肿瘤标准计划过程的一部分,另一部分则来自于国家心肺血液研究所的研究档案。 https://hyper.ai/datasets/5579
11.人工智能快速发展趋势下,中国该如何应对?4、边缘端场景—AIoT。边缘端集成AI芯片可以实现本地化数据的实时处理 AIoT是一种融合了人工智能和物联网技术的新型智能化系统,它可以实现万物智联,涉及到安防、移动互联网等多种场景。在智慧安防方面,由于终端摄像头每天产生大量的视频数据,若全部回传到云数据中心将会对网络带宽和数据中心资源造成极大占用。为了解决https://developer.aliyun.com/article/1179745
12.统计分析软件spss)试题库学生版3、什么是SPSS的数据集?什么是SPSS的活动数据集? SPSS的数据集: ●SPSS运行时可同时打开多个数据编辑器窗口。每个数据编辑器窗口分别显示不同 的数据集合(三、名词解释(问答类) 9、Repeated Measures:重复测量的方差分析,指的是一个因变量被重复测量好几次,从而同一个个体的几次观察结果间存在相关,这样就不https://www.360docs.net/doc/7bb425b9f011f18583d049649b6648d7c1c708ca.html
13.GitHubsxrczh/nlpchinese数据集划分:数据去重并分成三个部分。训练集:142.5万;验证集:4.5万;测试集,数万,不提供下载。 可能的用途: 可以做为通用中文语料,训练词向量或做为预训练的语料;也可以用于构建百科类问答;其中类别信息比较有用,可以用于做监督训练,从而构建 更好句子表示的模型、句子相似性任务等。 结构: {"qid":<qid>,"https://github.com/sxrczh/nlp_chinese_corpus
14.178页,128个案例,GPT原论文的放射学问答来自于 Radiopaedia,图像直接从网页下载,定位案例来自于多个医学公开分割数据集,病理图像则来自于 PathologyOutlines 。在挑选案例时作者们全面的考虑了如下方面: 公布时间:考虑到 GPT-4V 的训练数据极有可能异常庞大,为了避免所选到的测试案例出现在训练集中,作者只选用了 2023 年发布的最新案例。 https://www.thepaper.cn/newsDetail_forward_25188531
15.合格评估知识问答信息与教育技术中心答:在我国,本科教学工作评估有五种基本形式:一是开展学校自我评估;二是实施教学基本状态数据常态监测;三是实行分类的院校评估(包括合格评估和审核评估);四是开展专业认证及评估;五是探索国际评估。合格评估是国家对未参加过教学工作评估的新建普通本科院校(以下简称新建本科院校)开展的一种本科教学工作评估形式。所有新建https://nic.zjtu.edu.cn/content/pjzs/202101/769.html
16.北京:加快推动建设人工智能公共算力中心数字经济算力中心组织有关机构整合、清洗中文预训练数据,形成安全合规的开放基础训练数据集;持续扩展多模态数据来源,建设高质量的文字、图片、音频、视频等大模型预训练语料库,支持在依法设立的数据交易机构开展数据流通、交易。 (五)谋划建设数据训练基地 加快建设数据基础制度先行先试示范区,探索打造数据训练基地,推动数据要素高水平开放https://finance.eastmoney.com/a/202305302736621562.html
17.一文搞懂ChatGPT相关概念和区别:GPT大模型AIGCLLMInstructGPT可以更好地理解用户意图,通过指令-回答对的数据集和指令-评价对的数据集,InstructGPT可以学习如何根据不同的指令生成更有用、更真实、更友好的输出。 4、ChatGPT(GPT3.5/GPT4.0) ChatGPT由OpenAI公司在2022年11月30日发布。在同样由OpenAI开发的GPT-3.5模型基础上,ChatGPT通过无监督学习与强化学习技术进行https://blog.itpub.net/70027828/viewspace-2953696/
18.OpenAI与开源多语言嵌入模型,你选择哪一家?让我们首先从生成自定义数据的问答数据集(Q/a)开始,该数据集将用于评估不同嵌入模型的性能。生成自定义问答数据集的好处有两个。 首先,它通过确保数据集没有成为嵌入模型训练的一部分来避免偏差,这可能发生在参考基准,如MTEB:https://huggingface.co/spaces/mteb/leaderboard)上。 https://www.51cto.com/article/782819.html
19.精华汇总:医学数据集及机器学习项目机器学习SCMR共识数据 SCMR共识数据集是从不同的MR机(4个GE,5个西门子,6个Philips)获得的混合病理学(5https://bbs.pinggu.org/thread-6367557-1-1.html
20.军队卫生信息数据集和数据元的标准化高级检索 期刊导航 军队卫生信息数据集和数据元的标准化被引量:11 Standardization of dataset and data element of military health information 作者:刘丹红 王霞 杨鹏 徐勇勇 李红蕾 机构地区:[1]第四军医大学军事预防医学系卫生统计学教研室,西安710032 出处:《解放军医院管理杂志》2009年第8期745-747,共3页 http://mqikan.cqvip.com/Article/ArticleDetail?id=31687607
21.配方食品临床营养治疗营养筛查数据集》等标准动态 由浙江省卫生信息学会立项的《特殊医学用途配方食品临床营养治疗营养筛查数据集》《特殊医学用途配方食品临床营养治疗评价数据集》等两项团体标准,现已形成征求意见稿(附件1-2)和编制说明(附件3-4),现公开征求意见,截止2024年12月21日前。http://down.foodmate.net/info/sort/1/32141.html
22.医学信息学分会数字资源医学信息学领域实用数据库五、电子病历数据集 MIMIC重症监护数据集(Medical Information Mart for Intensive Care):https://mimic.physionet.org/about/releasenotes/ 六、大型队列研究数据 1. UKB生物医学样本数据库 http://www.ukbiobank.ac.uk 2. 欧洲癌症与营养前瞻性调查(EPIC)https://epic.iarc.fr/ https://csmi.cma.org.cn/art/2024/6/26/art_704_57229.html