数据集:一文道尽医学图像数据集与竞赛yumoye

在AI与深度学习逐渐发展成熟的趋势下,人工智能和大数据等技术开始进入了医疗领域,它们把现有的一些传统流程进行优化,大幅度提高各种流程的效率、精度、用户体验,同时也缓解了医疗资源的压力和精确度不够的问题。

01医学数据集

智能医疗有很多的发展方向,例如医学影像处理、诊断预测、疾病控制、健康管理、康复机器人、语音识别病历电子化等。当前人工智能技术新的发力点中的医学图像在疾病的预测和自动化诊断方面有非常大的意义,本篇即针对医学影像中的病例分析,降噪,分割,检索等领域来介绍一些常用的数据集。

1.1病例分析数据集

1.1.1ABIDE

数据集地址:

发布于2013年,这是一个对自闭症内在大脑结构的大规模评估数据集,包括539名患有ASD和573名正常个体的功能MRI图像。

1.1.2OASIS

OASIS,全称为OpenAccessSeriesofImagingStudies,已经发布了第3代版本,第一次发布于2007年,是一项旨在使科学界免费提供大脑核磁共振数据集的项目。它有两个数据集可用,下面是第1版的主要内容。

(1)横截面数据集:年轻,中老年,非痴呆和痴呆老年人的横断面MRI数据。该组由416名年龄在18岁至96岁的受试者组成的横截面数据库组成。对于每位受试者,单独获得3或4个单独的T1加权MRI扫描包括扫描会话。受试者都是右撇子,包括男性和女性。100名60岁以上的受试者已经临床诊断为轻度至中度阿尔茨海默病。

(2)纵向集数据集:非痴呆和痴呆老年人的纵向磁共振成像数据。该集合包括150名年龄在60至96岁的受试者的纵向集合。每位受试者在两次或多次访视中进行扫描,间隔至少一年,总共进行373次成像。对于每个受试者,包括在单次扫描期间获得的3或4次单独的T1加权MRI扫描。受试者都是右撇子,包括男性和女性。在整个研究中,72名受试者被描述为未被证实。包括的受试者中有64人在初次就诊时表现为痴呆症,并在随后的扫描中仍然如此,其中包括51名轻度至中度阿尔茨海默病患者。另外14名受试者在初次就诊时表现为未衰退,随后在随后的访视中表现为痴呆症。

1.1.3DDSM

1.1.4MIAS

MIAS全称为MiniMammographicDatabase,是乳腺图像数据库。

乳腺MG数据(BreastMammography)有个专门的database,可以查看很多数据集,链接地址为:

1.1.5MURA

发布于2018年2月,吴恩达团队开源了MURA数据库,MURA是目前最大的X光片数据库之一。该数据库中包含了源自14982项病例的40895张肌肉骨骼X光片。1万多项病例里有9067例正常的上级肌肉骨骼和5915例上肢异常肌肉骨骼的X光片,部位包括肩部、肱骨、手肘、前臂、手腕、手掌和手指。每个病例包含一个或多个图像,均由放射科医师手动标记。全球有超过17亿人都有肌肉骨骼性的疾病,因此训练这个数据集,并基于深度学习检测骨骼疾病,进行自动异常定位,通过组织器官的X光片来确定机体的健康状况,进而对患者的病情进行诊断,可以帮助缓解放射科医生的疲劳。

公开可用的医学射线照相图像数据集概述

参考2018年论文:MURA:LargeDatasetforAbnormalityDetectioninMusculoskeletalRadiographs.

1.1.6ChestX-ray14

参考论文:

CheXNet:Radiologist-LevelPneumoniaDetectiononChestX-RayswithDeepLearning

ChestX-ray14是由NIH研究院提供的,其中包含了30,805名患者的112,120个单独标注的14种不同肺部疾病(肺不张、变实、浸润、气胸、水肿、肺气肿、纤维变性、积液、肺炎、胸膜增厚、心脏肥大、结节、肿块和疝气)的正面胸部X光片。研究人员对数据采用NLP方法对图像进行标注。利用深度学习的技术早期发现并识别胸透照片中肺炎等疾病对增加患者恢复和生存的最佳机会至关重要。

1.1.7LIDC-IDRI

LIDC-IDRI数据集是由美国国家癌症研究所(NationalCancerInstitute)发起收集的,目的是为了研究高危人群早期肺结节检测。该数据集中,共收录了1018个研究实例。对于每个实例中的图像,都由4位经验丰富的胸部放射科医师进行两阶段的诊断标注。该数据集由胸部医学图像文件(如CT、X光片)和对应的诊断结果病变标注组成。

1.1.8LUNA16

发布于2016年,是肺部肿瘤检测最常用的数据集之一,它包含888个CT图像,1084个肿瘤,图像质量和肿瘤大小的范围比较理想。数据分为10个subsets,subset包含89/88个CTscan。

LUNA16的CT图像取自LIDC/IDRI数据集,选取了三个以上放射科医师意见一致的annotation,并且去掉了小于3mm的肿瘤,所以数据集里不含有小于3mm的肿瘤,便于训练。

1.1.9NSCLC

发布于2018年,来自斯坦福大学。数据集来自211名受试者的非小细胞肺癌(NSCLC)队列的独特放射基因组数据集。该数据集包括计算机断层扫描(CT),正电子发射断层扫描(PET)/CT图像。创建该数据集是为了便于发现基因组和医学图像特征之间的基础关系,以及预测医学图像生物标记的开发和评估。

1.1.10DeepLesion

DeepLesion由美国国立卫生研究院临床中心(NIHCC)的团队开发,是迄今规模最大的多类别、病灶级别标注临床医疗CT图像开放数据集。在该数据库中图像包括多种病变类型,目前包括4427个患者的32,735张CT图像及病变信息,同时也包括肾脏病变,骨病变,肺结节和淋巴结肿大。DeepLesion多类别病变数据集可以用来开发自动化放射诊断的CADx系统。

1.1.11ADNI

ANDI涉及到的数据集包括如下几部分ClinicalData(临床数据)、MRImageData(磁共振成像)、StandardizedMRIDataSets、PETImageData(正电子发射计算机断层扫描)、GenneticData(遗传数据)、BiospecimenData(生物样本数据)。

1.2医学降噪数据集

1.2.1BrainWeb数据集

发布于1997年,这是一个仿真数据集,用于医学图像降噪。研究者可以截取不同断层的正常脑部仿真图像,包括T1,T2,PD3种断层,设置断层的厚度,叠加高斯噪声或者医学图像中常见的莱斯噪声,最终会得到181×217大小的噪声图像。

1.3医学分割数据集

1.3.1DRIVE数据集

发布于2003年,这是一个用于血管分割的数字视网膜图像数据集,它由40张照片组成,其中7张显示出轻度早期糖尿病视网膜病变迹象。

1.3.2SCR数据集

发布于2000年,胸部X光片的分割,胸部X光片中解剖结构的自动分割对于这些图像中的计算机辅助诊断非常重要。SCR数据库的建立是为了便于比较研究肺野,心脏和锁骨在标准的后胸前X线片上的分割。

本着合作科学进步的精神,我们可以自由共享SCR数据库,并致力于在这些分割任务上维护各种算法结果的公共存储库。在这些页面上,可以在下载数据库和上载结果时找到说明,并且可以检查各种方法的基准结果。

1.3.3医学图像分析benchmark

1.3.4ArdiacMRI

ardiacMRI是心脏病患者心房医疗影像数据,以及其左心室的心内膜和外膜的图像标注。包括33位患者案例,每个受试者的序列由沿着长的20帧和8-15个切片组成,共7980张图像。

1.3.5NIH

1.4ListofOpenAccess

02医学竞赛

2.1VISCERAL

VISCERAL是VisualConceptExtractionChallengeinRadiology的缩写,是放射学中的视觉概念提取挑战赛。他们提供几种不同成像模式(例如CT和MR)的几种解剖结构(例如肾,肺,膀胱等)的放射学数据以及一个云计算实例。

2.2GrandChallenges

地址链接:

提供了医学图像分析领域内所有挑战的概述,下面举的例子是2019年的医学图像方面将要举办的竞赛。

2.3DreamChallenges

这个挑战赛中包括有数字乳腺摄影梦想挑战;ICGC-TCGADREAM体细胞突变称为RNA挑战(SMC-RNA)等等。

03总结

最后提供给对医学影像处理感兴趣的童鞋一个超级赞的github链接如下:

这是Github上哈佛beamandrew机器学习和医学影像研究者贡献的数据集,包括了医学影像数据、竞赛数据、来自电子健康记录的数据、医疗数据、UCI数据集、生物医学文献等。

THE END
1.人工智能三大算法在医疗领域的应用现状与展望机器学习在医疗中的应用 机器学习是一种使计算机系统能够从数据中学到的能力。这项技术被广泛用于疾病预测、药物发现和个性化治疗等方面。通过分析大量健康数据,包括遗传信息、生活习惯和医学影像,医生可以更好地理解疾病的发生规律,从而提前干预并改善治疗方案。此外,基于机器学习的人工智能系统也能帮助减少错误诊断,这对于https://www.jvahvb5c.cn/xing-ye-zi-xun/521904.html
2.质量数据集之多模态医疗数据集自主可控算法模型,引领智能医学精准及时的医学诊断对改善治疗效果和确保患者安全至关重要,对提高医疗服务质量和优化医疗资源分配具有深远意义。高质量医学数据训练的人工智能模型在增强诊断效率和准确性方面展现出巨大潜力,但医学数据仍存在医生标注不一致、数据分布不均匀等https://mp.weixin.qq.com/s?__biz=MzI1ODU0Nzk3Mg==&mid=2247494597&idx=3&sn=6d5fa2c6b9f1ceb4adeb0d28f9239fdd&chksm=eb3ca7e9fcc9cadcf695ba8b9e2a721a1cbd2c069666046a048ba3e8b87000a9228d59df1473&scene=27
3.机器学习在医学中的应用医学机器学习跨学科合作与创新:强调跨学科合作在推动机器学习医学应用中的重要性,以及如何通过创新来克服当前的挑战。 13. 结论 总结:回顾机器学习在医学领域的重要应用与贡献,重申其在未来医学发展中的潜力。 展望未来:呼吁更多的研究与合作,以推动机器学习在医学中的广泛应用,造福患者与社会。 https://blog.csdn.net/weixin_64296810/article/details/141724629
4.机器学习机器学习赋能医疗降:从诊断到治疗的智能化革命在医学康复治疗中,机器学习可以发挥重要作用,通过分析和学习患者的历史数据、治疗反应和康复进展,为康复师和患者提供智能化的指导。以下是一个简化的框架,说明如何使用机器学习来构建一个康复治疗的智能化指导系统 数据收集与预处理 首先,需要收集康复患者的数据,这些数据可能包括但不限于患者的个人信息、诊断信息、https://cloud.tencent.com/developer/article/2427921
5.集成多组学数据的机器学习在生物医学中的应用案例教学三:基于转录组学数据进行端到端的机器学习项目泛癌预测(数据预处理,数据建模,模型评估) 案例教学四:基于蛋白组学-代谢组学在COVID-19中生物标志物发现研究 深度学习在组学数据中的应用 学习目标:随着高通量组学平台的发展,生物医学研究大多采取了多组学技术结合的方法,不同组学来源(如转录组学、蛋白质组学https://www.jianshu.com/p/bb69eeab3f83
6.opencoursesourcesandbookmaterials.我总结的AI学习同样,机器学习在医学医药领域也有了越来越多的应用。只不过通常计算机专业的同学不很了解这方面。而是相反的,很多医学医药领域的人,会来学习人工智能的知识,进而应用在自己的领域,这种情况更多一些。 关于生物医学医药领域,整体我还是很看好的。虽然不知道爆炸的时间是什么时候,但我相信有着光明的未来。 https://github.com/shanhaiying/ai-learning-roadmap
7.AI+Science第二季:大模型与生物医学集智斑图这些大分子的结构与功能,通常取决于其各个部分的精细相互作用,因此结构生物学问题具备明显的复杂系统特征。人工智能技术已经广泛应用于基因组学和结构生物学研究中,新兴的大语言模型凭借其强大的计算和学习能力,正在这两个复杂系统领域崭露头角。https://pattern.swarma.org/study_group/29
8.西北工业大学AI+医学影像前沿学科论坛会议通知主要研究方向为人工智能,机器学习,医学图像分析,脑机接口等,发表学术论文200余篇,被引12000余次。获国家自然科学二等奖1项、教育部自然科学一等奖和二等奖各1项。2014-2019连续6年入选Elsevier中国高被引学者榜。 报告题目:脑影像智能计算及其若干应用研究进展https://zdhxy.nwpu.edu.cn/info/1083/4789.htm
9.机器学习在检验医学应用的现状与思考文章来源:中华检验医学杂志, 2022,45(12) : 1197-1200 作者:沈立松 曾俊祥 摘要 近年来机器学习成为各研究领域的热点,利用机器学习可以实现由数据驱动向知识发现的转化,是今后实验室智能化的重要发展方向。机器学习在检验医学领域的应用目前已显示出了巨大潜力,但存在许多问题及挑战。推进机器学习技术的临床转化,实现http://www.caivd-org.cn/article.asp?id=14684
10.基于机器学习的医疗诊断与疾病预测模型.pptx机器学习在医疗诊断中的应用1.机器学习算法可以自动分析医疗文本,提取有价值的信息。2.机器学习算法可以帮助临床医生快速准确地诊断疾病,提高诊断效率。3.机器学习算法还可以用于跟踪和评估疾病的进展和治疗效果。机器学习在医学信息检索中的应用1.机器学习算法可以帮助临床医生快速准确地检索医学信息,提高信息检索效率。2.https://max.book118.com/html/2024/0223/5103213241011111.shtm
11.壹生资讯医学研究已进入大数据和精准化并行融合时代,对数学模型,信息材料等理论和技术的依赖大幅提升,单细胞图谱,基因组医学的交叉融合,催生了生命科学研究的新纪元。人工智能作为典型的交叉学科,正在以其强大的算力使得我们在更全面、更深入及更清晰的层次上理解和处理生命的复杂信息。在肾脏病领域,机器学习已经在疾病预测、患者https://www.cmtopdr.com/post/detail/1223ab47-23a3-44c3-8a96-b027d154b701
12.FPGA技术在生物医学成像中的研究进展梁长虹.加强机器学习在医学影像中的研究和应用.国际医学放射学杂志,2019,42(01):4-5 [百度学术] Liang C H. International Journal of Medical Radiology, 2019, 42(01):4-5 [百度学术] 83 吴艳霞,梁楷,刘颖,等.深度学习FPGA加速器的进展与趋势.计算机学报,2019,42(11): 2461-2480 [百度学术] Wuhttps://www.pibb.ac.cn/pibbcn/article/html/20190342
13.医咖会医咖会是面向临床医生、科研工作者、医学生的临床研究学习和交流平台,系统讲解研究设计、统计分析、Meta分析、SCI论文撰写等科研课程,提供SPSS、Stata、R语言等详细操作教程。https://www.mediecogroup.com/
14.VALSEWebinar21戈宗元博士是澳大利亚莫纳什大学工程院和VC office的副教授,Monash Medical AI研究中心 (https://www.monash.edu/mmai-group)的主任,主要研究领域为统计分析,机器学习,医学人工智能以及流行病学。截止目前,他作为一作和重要作者在The Lancet Digital Health, The British Medical Journal, Bioinformatics, Hypertension,https://www.zhuanzhi.ai/document/3fd9a49c00b7474eeac328afad89d063