人工智能正在变得司空见惯。在医疗领域,医生也越来越重视人工智能所带来的疾病诊断效率和治疗价值的提升。要实现医疗人工智能,需要构建医学知识图谱以满足医疗领域对知识的应用需求。
◆◆◆
知识图谱是什么?
知识图谱,顾名思义,就是用图的形式将知识表示出来,其本质是通过结构化而非纯文本的方式描述事物的属性以及事物之间的关联。
知识图谱由节点和边组成,节点表示实体、概念或属性值,任何物体、地点或人都可以是一个节点;边表示实体的属性或实体间的关系,而三元组是知识图谱的基本表示形式。举个例子来说,一个节点可以是一个组织机构,比如心内科,也可以是一个疾病,比如高血压;边则描述了高血压和心内科之间的“疾病-科室”关系,(高血压,科室,心内科)就是一条简单的三元组。
知识图谱示例
为什么我们需要医学知识图谱?
随着自然语言处理等技术的逐渐成熟,医学人工智能已成为推动行业发展的强劲动力。然而,要想让机器具有智能,能做到像人一样去理解和思考,就必须让机器具有知识。
如果我们提前把这些资料以一种机器可读的形式整理好,让机器直接去读取,是否可行呢?
答案是可行的,以这些医学资料为基础建立医学知识图谱,可以将其中自由文本形式的内容转化为完全结构化、计算机可理解的形式,与非结构的文本数据相比,结构化的知识图谱可以一种更加清晰、准确的方式表示人类知识,便于机器读取和应用。
知识图谱结构化示例
医学知识图谱应用场景
医学知识图谱的使用价值也可以从主流应用场景中一探究竟,目前医学知识图谱主要应用于语义搜索、知识问答、临床决策支持等场景中。
1.语义搜索。传统的搜索主要为关键词搜索,这种搜索引擎对查询的处理局限于词的表面形式,缺乏知识处理能力和理解能力。知识图谱描述了事物的分类、属性和关系,具有丰富的语义信息,将其应用于语义搜索可实现准确地捕捉到用户所输入语句后面的真正搜索意图,从而更准确地返回最符合用户需求的搜索结果。
随着技术和行业的发展,目前知识图谱也被应用于辅助药物研发、公共卫生事件的预警场景中。
1.药物研发。近年来,人工智能辅助药物研发逐渐成为研究的热点。知识图谱可应用于药物研发的知识的聚类分析,帮助提出新的可以被验证的假说,从而加速药物研发的过程,降低研发成本。
构建医学知识图谱的难点在哪?
医学知识主要具有术语多样化、知识分散、质量参差不齐、知识复杂等特点,这些特点也为医学知识图谱的构建、应用带来一定挑战。
2.知识分散。以疾病为例,目前为止没有任何一个知识源可以涵盖针对某一疾病的所有知识。产生这一现象的主要原因有两个:一个是医学知识更新迭代迅速,新知识无法快速地在原知识源上更新;另一个是不同的机构由于发布目的不同,导致所发布的知识源通常仅包含某些特定维度的知识。
3.知识复杂。医学是经验性总结的科学,主要分为基础医学、临床医学以及预防医学三大类学科。三大类学科各自分工研究复杂的人体问题,相应的知识也是复杂多变。单从医学概念上就能看出医学知识的复杂性,一个医学概念往往存在多个上位概念和下位概念。以肺炎为例,肺炎不仅有肺组织炎症和肺实变两个上位概念,还有新生儿肺炎、间质性肺炎和支气管肺炎等多个下位概念,如下图所示。
肺炎的多个上位概念和下位概念
将复杂的医学知识完整地、清晰地表达出来,可以使计算机在辅助人类开展医疗活动过程中显得更加智能,让用户获得更加全面的医学知识。
以上这些特点也一定程度上加大了医学知识图谱构建、应用的难度。在此背景下,OMAHA以满足行业内对数字化医学知识的底层共性需求为切入点,自主构建中文医学知识图谱——“汇知”医学知识图谱(简称“汇知”图谱)。围绕疾病、药品、检验检查、手术操作四大领域,选取临床指南、临床路径、医学教材、药品说明书和中国药典等权威、高质量的医学知识作为知识源,采用“机器+人工”的方式抽取基础医学知识形成高质量的知识图谱,为精准的医学知识智能化和应用提供基础。
目前,汇知”图谱已发布疾病知识图谱和药品知识图谱,共计约12万实体,96万三元组。
疾病知识图谱
药品知识图谱
药品知识图谱以药品为中心,构建药品与疾病、检验检查、手术操作之间的关系。截至目前,药品知识图谱覆盖3.0万种药品(通用名),累计发布4.5万实体,60.0万三元组,其中56%的实体与“七巧板”医学术语集建立了映射。已发布关系类型包括医保支付类型、剂型、适应证、适用人群、禁忌证、禁忌人群等。