郑西川专栏临床科研大数据应用系列1:加强对重症监护医学数据集MIMICIII的利用分析

MIMIC-III是一个免费开放的重症监护医学数据集,由美国麻省理工学院计算生理学实验室、贝斯以色列迪康医学中心(BIDMC)以及飞利浦医疗共同发布。早期的MIMIC数据集主要用于还原临床实际中各种危重症病人所用诊疗方案和监护策略,基于该数据集,能够检测、比较和评估为重症病人多参数智能监护系统性能以及数据分析算法。MIMIC-III是MIMIC-II的更新版,MIMIC-II命名是“多参数智能监测数据库”(MultiparameterIntelligentMonitoringinIntensiveCare),MIMIC-III升级为“重症监护医学数据集”(MedicalInformationMartforIntensiveCare)。

数据源与集成方案

BIDMC使用了两套重症监护信息系统:飞利浦的CareVue临床信息系统和IMDSoftMetaVisionICU系统。包含了以下临床数据:护理过程中的病人生命体征时态数据(如心率、血压、呼吸等),医生观察记录以及输液记录等;医院EMR系统中病人的数据有:病人基本信息、实验室检验报告、出院小结、心电及影像报告、病人费用情况以及国际疾病诊断ICD-9编码等;通过社会保险系统得到了病人院外死亡的日期,作为MIMIC-III数据集的组成部分。

MIMIC-III重症监护医学数据集的总体方案如下图所示。

数据表设计

1、病人基本信息表

表1:病人基本信息及转床信息表

2、病人门诊信息表

4、辅助字典术语信息表

表4:辅助字典及术语信息表

数据访问与利用分析

基于MIMIC-III数据集进行数据挖掘分析已成为国外一些著名大学临床数据挖掘分析的课程内容。基于MIMIC-III进行了大量的临床科研项目,包括:预测病人预后的机器学习模型、病人生命体征临床检测技术改进以及非结构化医学文本的语义分析等。

许多研究者利用MIMIC-III对重症监护数据进行数据挖掘,产生了新的临床模型和评价,包括疾病严重度评分、并发症评分以及临床诊疗方法的改进,如机械通气、血压测量等。MIMIC-III已成为了重症监护医学研究的重要数据支撑和临床科研工具,也是病人生命体征监测设备数据分析改进的重要数据源。

(1)临床大数据信息集成管理与利用分析是医疗大数据应用的重点内容,专门领域数据深度挖掘是临床大数据发展的重要方向。

(2)我国医疗行业大数据应用还处于初级水平,在数据集成和数据标准化方面仍存在很大差距,需要引起重视。

(3)MIMIC数据集拥有真实、丰富、完整的病人大数据,可以有效地进行临床决策,能够对具体疾病发展进行影响因素分析,预测疾病发展趋势。

【作者简介】

郑西川,上海交通大学附属第六人民医院计算机中心主任、教授级高工。上海交通大学医学院生物医学工程专业硕士研究生导师,苏州大学放射医学与公共卫生学院生物医学工程专业硕士研究生导师。中国医院协会信息管理专业委员会(CHIMA)委员;中国医药信息学会(CMIA)委员;上海市医院协会信息管理专业委员会委员;中国医药信息学会上海分会常委;中国生物医药技术协会医药信息分会常委;《医疗卫生装备》杂志特约审稿专家。

近年来,先后承担上海市“十一五”重大科技项目、上海市科委自然科学基金项目、上海市经济信息委信息化专项基金以及院级课题多项。发表论文40余篇。

(请注明姓名、单位名称、职务、主管技术或产品领域,以便有针对性加群)

THE END
1.智能医学数据集合集!数据集网址: https://github.com/bytesc/Image-Recognition-system 5 AiMed 更新时间:2024-05-13 访问地址: GitHub 描述: AiMed面向中文医学的人工智能大语言模型期望实现有效处理医学知识问答、医学论文阅读、医学文献检索等任务和在医学科研中的应用。 https://blog.csdn.net/Kyzy_1919/article/details/144400170
2.计算机毕业设计Python知识图谱大模型医疗问答系统膳食推荐系统后端开发:Python编程语言,结合Flask或Django等Web框架。数据库管理:MySQL等关系型数据库管理系统,用于存储用户信息、问答数据等。前端技术:HTML、CSS、JavaScript以及Vue.js等前端技术,构建用户友好的界面。大模型技术:引入GPT系列等大模型技术,提升系统的问答准确性与智能化水平。系统设计与实现:采用面向对象的设计https://baijiahao.baidu.com/s?id=1818287581222245090&wfr=spider&for=pc
3.计算机毕业设计Python+知识图谱大模型AI医疗问答系统降膳食设计总说明本设计项目旨在开发基于Neo4j的医疗知识图谱可视化系统。近年来,随着医疗数据量的迅速增长,知识图谱作为一种将不同实体和关系关联并可视化的工具,为医学领域的研究和应https://www.jianshu.com/p/cc0dcf69c499
4.课程预告利用生信数据库进行疾病模型构建的创新策略摘要:Nature杂志的一篇文章论述了罕见病数据中心(RDDC)等中文数据库是如何推动罕见病研究持续发展的,充分肯定了中国从业工作者构建属于自己的数据库的深远意义[1]。目前RDDC已实现「生物大数据」与「AI+生信工具」的强强联合,具备「如何借助A模型去研究由B基因的C突变引发D疾病相关机制」一系列实际应用案例;且承诺永https://www.lascn.net/Item/108899.aspx
5.科学网—[转载]医学知识图谱构建关键技术及研究进展实验结果表明,SNERL模型在CDT和CDR这两个生物医学数据集上的表现达到了最优的效果,并且可以大大改善系统的整体召回率,同时避免了级联错误。 针对医学关系跨度大的问题,2020年Nan G S等人提出潜在结构优化(latent structure refinement,LSR)模型,以端到端的方式构造一个文档级图谱来推理句间关系,通过迭代优化策略,模型https://blog.sciencenet.cn/blog-3472670-1302733.html
6.开源竞速:AI大模型的“Linux时刻”降临技术:VisualGLM-6B是由语言模型ChatGLM-6B与图像模型BLP2-Qformer结合,二者结合后的参数为78亿(62亿+16亿)。该模型使用的预训练数据集是CogView数据集中3000万个高质量的“中文图像-文本”和3亿个“英文图像-文本”对。在微调阶段,该模型在长视觉问答数据集上进行训练,以生成符合人类偏好的答案。 https://www.pingwest.com/a/283188
7.莆田学院附属医院智慧服务应用建设(一)期项目附件2022年04月 第一章投标邀请 福建莆田恒顺招标代理有限公司采用公开招标方式组织莆田学院附属医院智慧服务应用建设(一)期项目(以下简称:“本项目”)的政府采购活动,现邀请供应商参加投标。 1、备案编号:B-601013-GK-202204-B0059-PTHS。 2、项目编号:[350300]PTHS[GK]2021040。 http://www.ptzfcg.gov.cn/upload/document/20220419/42cbf932c05048548c1b2893e6dd2fc3.html
8.从大模型的「前世今生」看生成式人工智能的「价值涌现」Chinchilla是由DeepMind公司开发的大型语言模型[6],是对Gopher模型的进一步发展。其优化了数据训练效率,可以使用更少的算力来进行推理和微调,改善了计算资源有限的大型自回归语言模型开发情况,从而使用更大、更高质量的训练数据集以取得更好的模型性能。 18)PaLM http://www.pinevc.com.cn/article/1361.html
9.收藏:常用医学公共数据库(含临床数据库,生信数据库和机器学习数据美国国家癌症数据库(National Cancer Database, NCDB),SEER(Surveillance, Epidemiology, and EndResults Program)https://www.medsci.cn/article/show_article.do?id=fd511958806a
10.4DCT医学影像参考标准数据集/数据集/HyperAI超神经4DCT 数据集是一套资料库,其为医学影像界提供参考标准数据,其客观和严谨的评估可变形影响配准(DIR)的空间准确度表现。胸部 4DCT 图像来源于休斯顿·德克萨斯大学的 MD 安德森癌症中心,其是治疗胸部恶性肿瘤标准计划过程的一部分,另一部分则来自于国家心肺血液研究所的研究档案。 https://hyper.ai/datasets/5579
11.人工智能快速发展趋势下,中国该如何应对?4、边缘端场景—AIoT。边缘端集成AI芯片可以实现本地化数据的实时处理 AIoT是一种融合了人工智能和物联网技术的新型智能化系统,它可以实现万物智联,涉及到安防、移动互联网等多种场景。在智慧安防方面,由于终端摄像头每天产生大量的视频数据,若全部回传到云数据中心将会对网络带宽和数据中心资源造成极大占用。为了解决https://developer.aliyun.com/article/1179745
12.统计分析软件spss)试题库学生版3、什么是SPSS的数据集?什么是SPSS的活动数据集? SPSS的数据集: ●SPSS运行时可同时打开多个数据编辑器窗口。每个数据编辑器窗口分别显示不同 的数据集合(三、名词解释(问答类) 9、Repeated Measures:重复测量的方差分析,指的是一个因变量被重复测量好几次,从而同一个个体的几次观察结果间存在相关,这样就不https://www.360docs.net/doc/7bb425b9f011f18583d049649b6648d7c1c708ca.html
13.GitHubsxrczh/nlpchinese数据集划分:数据去重并分成三个部分。训练集:142.5万;验证集:4.5万;测试集,数万,不提供下载。 可能的用途: 可以做为通用中文语料,训练词向量或做为预训练的语料;也可以用于构建百科类问答;其中类别信息比较有用,可以用于做监督训练,从而构建 更好句子表示的模型、句子相似性任务等。 结构: {"qid":<qid>,"https://github.com/sxrczh/nlp_chinese_corpus
14.178页,128个案例,GPT原论文的放射学问答来自于 Radiopaedia,图像直接从网页下载,定位案例来自于多个医学公开分割数据集,病理图像则来自于 PathologyOutlines 。在挑选案例时作者们全面的考虑了如下方面: 公布时间:考虑到 GPT-4V 的训练数据极有可能异常庞大,为了避免所选到的测试案例出现在训练集中,作者只选用了 2023 年发布的最新案例。 https://www.thepaper.cn/newsDetail_forward_25188531
15.合格评估知识问答信息与教育技术中心答:在我国,本科教学工作评估有五种基本形式:一是开展学校自我评估;二是实施教学基本状态数据常态监测;三是实行分类的院校评估(包括合格评估和审核评估);四是开展专业认证及评估;五是探索国际评估。合格评估是国家对未参加过教学工作评估的新建普通本科院校(以下简称新建本科院校)开展的一种本科教学工作评估形式。所有新建https://nic.zjtu.edu.cn/content/pjzs/202101/769.html
16.北京:加快推动建设人工智能公共算力中心数字经济算力中心组织有关机构整合、清洗中文预训练数据,形成安全合规的开放基础训练数据集;持续扩展多模态数据来源,建设高质量的文字、图片、音频、视频等大模型预训练语料库,支持在依法设立的数据交易机构开展数据流通、交易。 (五)谋划建设数据训练基地 加快建设数据基础制度先行先试示范区,探索打造数据训练基地,推动数据要素高水平开放https://finance.eastmoney.com/a/202305302736621562.html
17.一文搞懂ChatGPT相关概念和区别:GPT大模型AIGCLLMInstructGPT可以更好地理解用户意图,通过指令-回答对的数据集和指令-评价对的数据集,InstructGPT可以学习如何根据不同的指令生成更有用、更真实、更友好的输出。 4、ChatGPT(GPT3.5/GPT4.0) ChatGPT由OpenAI公司在2022年11月30日发布。在同样由OpenAI开发的GPT-3.5模型基础上,ChatGPT通过无监督学习与强化学习技术进行https://blog.itpub.net/70027828/viewspace-2953696/
18.OpenAI与开源多语言嵌入模型,你选择哪一家?让我们首先从生成自定义数据的问答数据集(Q/a)开始,该数据集将用于评估不同嵌入模型的性能。生成自定义问答数据集的好处有两个。 首先,它通过确保数据集没有成为嵌入模型训练的一部分来避免偏差,这可能发生在参考基准,如MTEB:https://huggingface.co/spaces/mteb/leaderboard)上。 https://www.51cto.com/article/782819.html
19.精华汇总:医学数据集及机器学习项目机器学习SCMR共识数据 SCMR共识数据集是从不同的MR机(4个GE,5个西门子,6个Philips)获得的混合病理学(5https://bbs.pinggu.org/thread-6367557-1-1.html
20.军队卫生信息数据集和数据元的标准化高级检索 期刊导航 军队卫生信息数据集和数据元的标准化被引量:11 Standardization of dataset and data element of military health information 作者:刘丹红 王霞 杨鹏 徐勇勇 李红蕾 机构地区:[1]第四军医大学军事预防医学系卫生统计学教研室,西安710032 出处:《解放军医院管理杂志》2009年第8期745-747,共3页 http://mqikan.cqvip.com/Article/ArticleDetail?id=31687607
21.配方食品临床营养治疗营养筛查数据集》等标准动态 由浙江省卫生信息学会立项的《特殊医学用途配方食品临床营养治疗营养筛查数据集》《特殊医学用途配方食品临床营养治疗评价数据集》等两项团体标准,现已形成征求意见稿(附件1-2)和编制说明(附件3-4),现公开征求意见,截止2024年12月21日前。http://down.foodmate.net/info/sort/1/32141.html
22.医学信息学分会数字资源医学信息学领域实用数据库五、电子病历数据集 MIMIC重症监护数据集(Medical Information Mart for Intensive Care):https://mimic.physionet.org/about/releasenotes/ 六、大型队列研究数据 1. UKB生物医学样本数据库 http://www.ukbiobank.ac.uk 2. 欧洲癌症与营养前瞻性调查(EPIC)https://epic.iarc.fr/ https://csmi.cma.org.cn/art/2024/6/26/art_704_57229.html