同时,近年来,国内医院逐步意识到医疗大数据的重要性及潜在价值,多家医院已建设医疗大数据平台。但在探索的过程中,存在众多问题,导致缺乏医疗大数据的临床研究结果产出。这些问题主要有:①平台虽然做到了临床数据的整合,但没有从临床研究的角度对数据进行治理;②专病大数据的采集范围局限于院内部分信息系统,缺少对患者的全病程数据的采集;③平台缺乏顶层设计,以至于缺乏数据权限配置、管理等设计,产生数据滥用等管理问题。
本项目通过建设基于人工智能的全院级科研一体化平台,对医院临床病历数据进行结构化、标准化的整合治理,面向医院重点专科提供临床科研数据采集和分析服务,满足不同临床医生不同的科研诉求。具体建设目标包括:
(1)对医院原有临床业务系统中海量的结构化、非结构化数据进行整合治理,构建符合科研维度、高质量的专科的单病种数据库。临床数据中临床科研信息丰富,但病历文本中医生书写语言的模糊性和随意性以及语法、语义结构的多样性,给临床科研目标变量的提取带来困难。本项目需有效解决院内医疗数据(特别是积压的历史数据)的非结构化和非标准化问题,满足科研需求。
(2)加强科研数据采集与检索,满足不同医生的临床科研个性化需求。支持普通医生等科研人员通过多维度科研变量来检索临床历史数据进行简单的回顾性研究。也满足高水平医生通过自定义eCRF系统自动采集临床科研数据,实现前瞻性科研的需要。结合科研随访系统,可采集患者报告结局,丰富单病种数据库。采集到的科研数据能直接导出支持SAS/SPSS等第三方统计软件使用。
(3)提高科研数据的统计分析功能,需要嵌套医学统计中绝大多数的统计方法,能够依据数据类型自动选择最合适的统计方法,并且自动生成统计报告。其中统计报告包含标准三线表、统计结果描述、统计图形等。
引擎基于通用数据模型及各类型专病数据模型对临床文本数据做颗粒化、后结构化处理,运用人工智能结合医学知识图谱自动转化非结构化文本数据,以满足回顾性查询所需的数据细化程度。同时针对提取出的医学信息,结合医学知识图谱自动完成数据的标准化,进一步提升数据的可用性、可交互性。
图1临床数据治理
图2体检检查结构化
图3医学知识图谱
图4智能搜索条件设置
图5智能检索结果展示
科研队列发现管理有三个主要功能,分别为新建队列、韦恩图及订阅管理。科研队列发现管理方便医生针对项目设计所需的队列,从而进行队列研究。
图6科研队列发现管理
图7基于韦恩图构建新队列
图8患者360科研视图界面
支持通过CRF编辑器方便制作各类CRF表单,包含基本控件如文本、选择框、日期、数据等,和基本模板、历史项目等三种创建模式,并可配置基本的校验逻辑及跳转逻辑。CRF录入界面满足人性化数据录入,分模块分表单呈现,能快速匹配病历资料、报告文本、检验检查等数据点,并自动完成填写CRF表单;支持WEB/移动端同步录入,满足多种数据格式和逻辑跳转,让数据收集更高效智能。
图9表单自动填写
科研平台的数据可以以Excel、CSV、SAS、SPSS、CDISC等多种数据格式的导出,兼容常用的统计软件,并支持国际上临床试验的CDISC常用标准。用户可以自定义筛选所需的变量和配置过滤条件,导出过程中可进行数据分析、校验。
图10导出变量选择
图11导出格式选择
图12以表格形式进行导出
平台提供系统+人工数据双重核查方式,来完成对数据质量的控制。在此基础上,另提供三级数据质疑管理,使管理者能对疑义数据发起质疑,提示录入员进行数据的核查与修改;并保留数据稽查及修改轨迹,保证数据可溯源。另提供数据资产管理功能,用户对专病库内数据的所有操作(修改、读取、调用、导出等)均留有记录,清晰可溯源,方便管理。
图13对可以数据进行质疑
图14科研数据探查统计平台
图15智能统计分析表
项目管理者可使用科研驾驶舱对整个医院的科研项目进行综合查看。科研驾驶舱接受各系统传入的数据,对它们进行整合加工,并以可视化的形式展现,提供直观的支持科研决策的信息。
图16科研驾驶舱
图17设置随访事件矩阵
图18患者随访管理
数据安全隐私管理包括数据权限控制、数据去隐私化、数据解密等。该方案涉及的所有临床数据均存储在医院的核心机房内,接受统一监管。在面向临床研究和患者服务方面均遵循医疗行业的伦理规范和信息安全等级保护规范,仅提供业务所需最小数据集,同时进行访问审计。例如在临床研究场景中,对于一类患者信息(姓名、家庭地址、身份证)进行加密,避免患者隐私泄露。
图19安全管理与权限设置
系统管理模块有用户权限管理、病历匿名化等数据访问安全管理等功能:
在构建专病数据模型时,我们首先定义了专病通用标准数据集。专病数据集标准定义了病例所包含的各类信息,如:患者基本信息、就诊记录、症状、诊断、实验室检查、药物治疗、手术记录、病理记录、影像学检查、内镜检查、既往病史、个人史、嗜好品信息、月经、婚育史、家族史、体格检查、生命体征、专科检查、护理记录信息,为单病种数据模型的构建提供标准化数据基础。
通过搜集、整合各种国内外专病的数据标准,并针对医院专科病历进行模型微调,最终形成适合医院特定专科的专病数据标准集,从而构建高质量专病数据库。
专病库建设概览,通过对数据集成、变量加工方式和结果展示,展现高质量的专病数据库概况。
第一,支持展示专病库概况,包括专病库的累计纳入的患者和病历数,以及治理变量总数;
第二,支持展示专科病种条图,显示专病数据库里诊断归一名称及相应入库患者数量,并以可视图展示;
第三,支持展示专病数据集治理过程中具有代表性的变量状况;
第四,支持用户针对专病库中已配置的单一变量选择可视化展示。
图20专病库概览
2)支持角色与权限管理,新增和管理专病库的角色。对各用户角色的权限按照系统功能进行配置管理,包括主要研究者、协助研究、录入员、账号管理员;
图21数据库管理
3)支持成员管理,添加和管理专病库的成员。支持符合专病库入库条件的新患者自动加入专病库,支持在数据集设计阶段确认专病数据库的入排条件,实现专病库上线后符合条件的患者自动加入专病库。
专病项目可进行科研项目设置以及数据质疑设置,支持专病项目数据库导出与数据探索。
1)支持项目内角色与权限管理,新增和管理专病项目角色;
2)支持专病库数据集中已有数据自动填充至专病项目中;
图22结构化数据截图
3)支持手动录入和修改数据,并保留数据提交、修改的稽查轨迹;
4)支持数据核查与质疑;满足系统核查、人工核查两种核查方式。提供数据质疑管理,包括查看、回复、关闭、重启、导出质疑,不同角色拥有不同权限;
5)支持专病项目通过数据探索进行导出,并支持展示数据导出的操作日志;数据探索支持变量选择,字段搜索,支持多变量互斥逻辑判定;创建、删除、修改数据查询;对查询数据进行简单与高级筛选;对查询数据进行数据诊断;查询结果与全部数据导出,导出格式为Excel/CSV/SPSS/SAS;
6)支持专病项目的数据清洗,提供变量分级、类别转变量、记录合并、多选转单选、缺失值填补、剔除文本、记录替换、变量拆分的清洗工具;
图23数据清洗界面
7)支持专病项目的数据统计分析:提供描述性分析、差异性分析的个性化统计分析,可视化并导出相应统计分析结果;
图24数据统计分析新建任务界面
8)支持统计分析预测模型,包括随机森林、线性回归、Logistic预测模型。
科研平台及专病库部署于医院内部服务器中,与外界网络不直接互通,可有效保障院内数据不外流。所有的院内数据均存储在医院的核心机房内,接受统一监管。
科研平台及专病库独立部署于医院内部,不和医院其他系统嵌合,同时使用数据库复制技术对生产系统数据库业务数据表进行复制,在建立的复制库上进行数据抽取和治理,保证对生成系统数据库性能无影响,不会影响医院业务系统的正常运营。
科研平台及专病库内对患者的隐私保护有多个维度措施,在存放个人信息时,采用加密技术对个人信息字段进行,例如:姓名、家庭地址、身份证等。在展示界面中对于敏感数据的相对于字段采用数据脱敏技术,例如变形处理。并限制用户的查询权限,最小够用原则,后台进行访问审计。
以疾病为单元,构建覆盖患者全病程数据的科研数据库,通过自然语言处理、机器学习等技术使多源异构的临床数据变成满足临床研究细粒度要求、可直接用于临床研究统计分析使用的结构化、标准化的高质量数据,为医院实现数据应用奠定坚实的研究级数据基础。
本平台完成全院2009年至2020年9月全量超700W+电子病历数据,诊断标准化分类重构,包含:
图25诊断标准化分类重构截图
临床研究平台融合人工智能技术,实现复杂的患者检索、灵活的项目管理、全面的数据质量管控、自动化数据清洗、高效的数据分析挖掘等功能,辅助医生提高科研效率,降低临床研究门槛,提升科研积极性。
图26临床科研平台上线截图
图27智能随访上线截图
通过为科室建设专病数据库,积累科室丰富的专病数据,为科室进行临床研究思路的探寻和专病多中心研究的开展提供高效的工具,加速科室研究型人才培养,促进科室学科发展,推进科室建成为一流研究型科室。
图28专病库制作截图
通过历史电子医疗数据和实时医疗数据的集成与治理,建设医院特色的高质量专病数据资产库,依托大数据平台,充分挖掘医院医疗大数据,构建“临床行为产生数据,洞察数据辅助决策,反馈临床行为”的数据驱动闭环流程,从而以数据的角度提高医院临床治疗效果与临床质量。