医学知识图谱构建关键技术及研究进展

谭玲1,鄂海红1,匡泽民2,宋美娜1,刘毓1,陈正宇1,谢晓璇1,李峻迪1,范家伟1,王晴川1,康霄阳11北京邮电大学,北京100876

2首都医科大学附属北京安贞医院,北京100029

TANLing1,EHaihong1,KUANGZemin2,SONGMeina1,LIUYu1,CHENZhengyu1,XIEXiaoxuan1,LIJundi1,FANJiawei1,WANGQingchuan1,KANGXiaoyang11BeijingUniversityofPostsandTelecommunications,Beijing100876,China

2BeijingAnzhenHospital,CapitalMedicalUniversity,Beijing100029,China

网络出版日期:2021-07-15

Online:2021-07-15

作者简介Aboutauthors

谭玲(1993-),女,北京邮电大学博士生,主要研究方向为知识图谱及自然语言处理、大数据及人工智能

鄂海红(1982-),女,博士,北京邮电大学副教授,主要研究方向为大数据及人工智能、知识图谱及自然语言处理、大数据中台、分布式微服务架构

匡泽民(1979-),男,博士,首都医科大学附属北京安贞医院高血压科主任医师,主要研究方向为高血压精准诊断与治疗、心血管临床药理、医学人工智能

宋美娜(1974-),女,博士,北京邮电大学教授,主要研究方向为大数据、联邦学习及医疗健康、金融科技应用、大数据、联邦学习及医疗健康

刘毓(1998-),女,北京邮电大学硕士生,主要研究方向为知识图谱

陈正宇(1997-),男,北京邮电大学硕士生,主要研究方向为计算机视觉、知识图谱

谢晓璇(1997-),女,北京邮电大学硕士生,主要研究方向为知识图谱

李峻迪(1997-),男,北京邮电大学硕士生,主要研究方向为智能对话系统和Java开发

范家伟(1998-),男,北京邮电大学硕士生,主要研究方向为深度学习

王晴川(1997-),女,北京邮电大学硕士生,主要研究方向为自然语言处理

康霄阳(1997-),男,北京邮电大学硕士生,主要研究方向为机器学习、计算机视觉

随着互联网技术的不断迭代更新,对海量数据的语义理解变得越来越重要。知识图谱是一种揭示实体之间关系的语义网络,医学是知识图谱应用较广的垂直领域之一,医学知识图谱的构建也是目前国内外人工智能领域研究的热点。从医学知识图谱本体构建出发,依次对命名实体识别、实体关系抽取、实体对齐、实体链接、知识图谱存储、知识图谱应用进行综述,详细介绍了近年来医学知识图谱构建过程中涉及的难点、现有技术、挑战及未来研究方向,并介绍了医学知识图谱应用,最后对未来发展方向进行了展望。

关键词:医学知识图谱;构建;关键技术;研究进展

WiththecontinuousiterativeupdatingofInternettechnology,thesemanticunderstandingofmassivedataisbecomingmoreandmoreimportant.Knowledgegraphisakindofsemanticnetworkthatrevealstherelationshipbetweenentities.Medicineisoneofthemostwidelyusedverticalfieldsofknowledgegraph.Theconstructionofmedicalknowledgegraphisalsoahotresearchinthefieldofartificialintelligenceathomeandabroad.Startingfromtheontologyconstructionofmedicalknowledgegraph,namedentityrecognition,entityrelationshipextraction,entityalignment,entitylinking,knowledgegraphstorageandapplicationofknowledgegraphwerereviewed.Thedifficulties,existingtechnologies,challengesandfutureresearchdirectionsintheprocessofconstructingmedicalknowledgegraphinrecentyearswereintroduced.Finally,theapplicationofknowledgegraphandthefuturedevelopmentdirectionofmedicalknowledgegraphwerediscussed.

Keywords:medicalknowledgegraph;construction;keytechnology;researchprogress

本文引用格式

本文对医学知识图谱构建的关键技术及应用进行了全面的梳理,对各类公共数据集、处理医学问题的特异性难点及现有解决办法进行了综述。通过阅读本文,可以了解医学知识图谱的发展现状、未来发展方向以及面临的挑战,便于医学知识图谱研究者参照对比,加快医学知识图谱领域的研究及临床落地应用。

网络上文本数据的爆炸式增长,以及对本体需求的增加,促进了语义网络的发展,使得基于文本的本体自动构建成为一个非常有前途的研究领域。文本本体学习是一种以机器可读形式(半)自动地从文本中提取和表示知识的过程。本体被认为是在语义网络上以更有意义的方式表示知识的主要基石之一。

万维网联盟(WorldWideWebConsortium,W3C)将本体论定义为用于描述和表示知识领域的术语。本体是一个数据模型,它表示一组概念以及一个域中这些概念之间的关系。

本体构建可以定义为从头创建本体或重用现有本体以丰富或填充现有本体的迭代过程。构建本体的过程包括以下6个任务:

图1医学知识图谱构建框架

随着对许多医学本体构建研究的深入,目前医学本体库的构建主要存在以下难点。

首先,由于医学数据的多样性,在设计医学本体构建系统时,无论是来自小的静态文本集合的数据,还是万维网上的海量异构数据,都需要进行数据转换。目前,针对此问题的文献较少,有待后续研究的推进。

命名实体识别(namedentityrecognition,NER)又称专名识别,指识别文本中具有特定意义的实体(主要包括人名、地名、机构名、专有名词等)。通常包括两部分:一是识别实体边界;二是确定实体类别(人名、地名、机构名或其他)。英语中的命名实体具有比较明显的形式标志(即实体中的每个词的第一个字母要大写),因此识别实体边界相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,实体边界的识别更加困难。

与传统的命名实体识别相比,医学名词实体一般比较长,长实体名词常常包含多个名词实体,造成医学实体边界识别的难度较大。此外,医学名词存在大量的同义词替换、缩写以及一词多义现象,加大了确定实体类别的难度。

表1医学本体常用的数据集

(1)多类别实体在不同语境、不同词性、不同类别下的应用

语言的博大精深、丰富多彩正是语言的魅力所在,但对于机器来说,丰富多彩的语言使语言的使用规则变得更加复杂,很难归纳和总结。将机器语言变得更加智能,理解多类别的实体在不同语境、不同词性及不同类别下的应用是一个重要的研究方向。

表2医学命名实体识别常用的数据集

(2)嵌套实体的研究

在医学领域中,实体嵌套的现象非常常见,绝大部分医学长实体中会存在实体嵌套,如何更有效地识别实体嵌套是医学命名识别实体领域必须面对且具有重要意义的问题。

(3)实体识别与实体关系抽取的结合

输入一个句子,通过实体识别和关系抽取联合模型,直接得到有关系的实体三元组。这可以克服实体识别模块的错误引起的错误传播,重视两个子任务之间存在的关系,使信息抽取任务完成得更加准确高效,但同时也可能会有更复杂的结构,因此如何用更简单的结构实现实体识别和实体关系抽取的结合将是之后的研究重点。

与一般的实体关系抽取相比,生物医学领域语料库的建设很复杂,且需要大量的人力、物力,对参与人员的专业背景要求高,因此使用仅有的医学知识来自动构建大规模的语料库对于医学实体关系的抽取十分重要。此外,医学实体之间普遍存在重叠关系,这给关系抽取的准确性带来较大的干扰。现有的医学关系抽取方法大多需要复杂的特征工程,越来越多的学者采用深度学习方法进行关系的抽取,但大多采用的是流水线的方法,没有充分利用实体信息,且容易导致错误的传递。最后,医学关系的跨度较大,句子级的抽取不能满足要求。

(1)加强语料库建设

相对于无监督学习方法,有监督学习方法有更好的准确性和稳定性,而构建良好的语料库是有监督学习方法得以开展的关键前提。

(2)利用联合学习方法更好地提取文本中的关系

现有的联合学习方法大多存在不同的问题,例如不能很好地识别医学文本中的重叠嵌套关系,但是联合学习方法可以充分利用实体与关系之间的交互信息,且普遍证明比流水线方法更有效,因此应该着力提升联合学习方法中识别重叠嵌套关系的能力,使联合学习方法更有效。

(3)实现跨句子或文档级关系抽取

医学文本中的关系往往不在一个句子中,而是跨句子的,因此关系抽取模型不应该仅仅满足于句子级的抽取,应该进行更广范围的关系抽取。

(4)解决远程监督学习的问题,提升远程监督的效果

医学领域语料库较小,远程监督方可以有效地解决这个问题,但是远程监督方法中存在错误标签等问题,会影响模型效果。未来可以着重解决远程监督中的错误标签问题,使用远程监督方法可以省去人工标注数据的工作。

表3医学实体关系抽取常用的数据集

(1)综合利用知识图谱的多种信息,如关系三元组、属性三元组、摘要等

(2)多语言知识图谱的实体对齐

随着信息全球化的进一步发展,一种语言的知识图谱已经不能满足信息的沟通与交流,因此多语言知识图谱间的实体对齐方法是计算机研究的必然趋势。

(3)数据异构实体对齐

医学知识的表现方式复杂多样,在数据异构的知识图谱之间进行实体对齐也是当前研究的一个难点。

(4)大规模知识图谱间的实体对齐

在信息化高速发展的今天,数据达到了空前规模,这对技术提出了更多的挑战,大规模知识图谱间的实体对齐也成为研究难点和重点。

目前医学实体对齐研究尚处于起步阶段,根据医学数据的特点,医学实体对齐未来的研究方向主要包括以下方面。

由于语言表达的多样性、歧义性以及上下文关联,语言理解面临巨大的挑战。语言理解主要包括语法解析、语义解析和特定的知识表示或其中的某个片段。而在知识图谱中主要涉及的技术即实体理解或实体链接技术,将现实世界中的知识映射到现有知识图谱中的实体,进而用现有知识图谱进行表示,达到理解的目的。在实体链接任务中输入的是实体的指代和上下文以及待链接的知识库,输出的是指代所对应的知识库中的实体。

实体链接(或实体规范化、实体消歧)指将文本中的短语(提及范围)映射到结构化源(如知识库)中的概念。提及范围通常是一个词或短语,描述一个单一的、连贯的概念。

(1)联合在命名实体识别和实体链接中建模

在知识库构建中,实体识别是实体链接的前提,实体识别可为实体链接提供更多有效的信息。实体链接与实体识别联合学习可减少工作量。实体识别与实体链接任务联合解决既能提高命名实体识别的性能,也能提高实体链接的性能,是当前研究的重点和难点。

表4实体对齐常用的数据集

(2)医学实体语义模糊

基于研究和医学文献分析发现,相同疾病名可能以多种不同的形式出现,比如同义词替换(如“脑中风”“脑卒中”)、疾病名称前的简短描述修饰语(如“大面积心脏病发作”),这些均会造成医学实体语义的复杂多变。近年来针对这个问题的实体链接研究较多。

(3)公开医学数据集较小

在医学领域,对数据进行标签标注是一项费时费力的大工程。因此目前所有的实体链接公开数据集都是小规模的,如何在小规模数据集上进行高质量的实体链接是目前研究的一个难点。

(1)别名实体候选生成问题

在医学领域中相同的语义往往可以有多种不同的叫法,医学实体的多词同义现象十分普遍,在判断别名实体时很难将所有对应实体的候选实体全部找出,导致实体链接的准确率下降,因此解决别名实体候选生成是未来的研究重点。

(2)不完整数据集的实体链接

(3)基于多种语言的实体对齐

目前实体链接系统主要针对的是英文语料,中文或者其他语言的链接系统非常缺乏。中文以及其他语言与类似英语的语言不同,使得实体链接难度增加。对于中文和其他语言的实体链接系统,也需要重点研究。

表5医学实体链接常用的数据集

现有知识图谱数据的存储方式主要分为两种:基于关系模型的存储方式和基于图模型的存储方式。

基于关系模型的知识图谱存储方式包括三元组表、水平表、属性表、垂直划分、六重索引和DB2RDF。

表6基于图模型的存储方式

(1)复杂关系的可视化

在医学知识中,实体之间的关系经常是错综复杂的,这使得将复杂关系能够更好地可视化成为研究的一个难点。

(2)用户友好的查询方式

知识图谱的存储是为了让用户更好地使用和查询知识,让用户的查询更简单便捷一直是知识图谱存储的关键和难点。

表7知识图谱存储方式比较

(3)认证和加密形式的安全保障

医学知识图谱与问答系统的融合是目前极具挑战性的研究方向,同时也是典型的应用场景。基于知识图谱的医疗问答系统可以快速响应医患用户提出的问题,并给出准确、有效的解答。下面将从问答系统的实现方法、实际应用、关键挑战3个方面进行阐述分析。

(1)实现方法

图2检索式方法的一般流程

(2)实际应用

而在问答系统起步较早的国外市场,最出名的面向医学领域的智能问答系统是IBM的“沃森医生(Dr.Watson)”,其学习了海量的医疗数据,包括领域内的顶尖文献、诊断报告、电子病历甚至医学影像等医疗信息,利用自身庞大的知识库为患者提出的医学问题提供最佳的答案。

(3)关键挑战

目前,国内医疗问答系统的研究发展仍然存在许多的挑战,下面列举了3个主要的关键挑战。

一是针对非医学专业人员的信息需求问题,由于他们的医学专业知识不强,无法准确描述具体问题,在获取答案时会存在一定程度的困难。

二是中文领域问答系统研究不足,主要体现在3个方面:①缺乏高质量医学领域的语料资源;②国内医学名词术语标准化还存在整体规划缺乏、权威术语标准数量不足以及更新不及时等问题;③构建中文领域的医学智能问答系统的工具和方法不成熟。

(1)简介

医学上的用药推荐与一般的推荐算法不同,一般的推荐算法是根据用户的历史记录,利用数学算法推测出用户可能的需求,已被广泛应用于电商等互联网场景。而用药推荐则是基于循证医学的原则,结合患者的具体患病情况以及医学专业知识,推荐适合的用药方案。一般的推荐算法的推荐结果对准确率的容忍度较高,即使部分推荐结果与用户需求不符,也能够接受。但用药推荐在实际应用中要求达到百分之百的准确率,即药品一定能够起到作用,且不能产生不良反应或药品间的相互作用。

知识图谱能够更加清晰准确地表达疾病与药品之间的适应关系以及药品间的相互作用,基于知识图谱的用药推荐与其他人工智能方法相比,能够取得更好的效果。目前基于知识图谱的用药推荐研究进展与其他基线水平相比有所提升,但还无法达到实际应用的要求。

(2)方法

目前医疗用药推荐系统使用的方法主要有以下两种。

(3)研究方向

医学知识图谱在用药推荐系统应用领域的未来研究方向主要有以下几方面。

②知识图谱嵌入学习是将实体和关系映射到低维连续向量空间的表示方法,在保留知识图谱结构信息的同时,还能够改善数据稀疏问题,提高计算效率,因此在进行后续用药推荐任务之前,先对知识图谱进行表示学习是很有必要的。

③考虑到构建动态医学知识图谱的必要性,而目前大多数知识嵌入表示研究建立在静态的知识图谱上,如何对动态知识图谱进行有效的知识表示是一个待解决的问题。将图时空网络与动态知识图谱相结合的知识嵌入表示用于用药推荐是一个颇具价值的研究方向。

表9医学知识图谱构建关键技术及研究进展汇总

(1)多语言医学知识图谱

国内外医学知识的相互融合促进更有利于医学领域的发展,而实现不同国界医学知识的相互沟通和交流,多语言医学知识图谱技术是关键,这会成为未来医学知识图谱发展的一个重要趋势。

(2)大规模多模态多源医学知识库

(3)基于时空特性的知识演化和多粒度知识推理

吴嘉敏.肺癌医学知识图谱的构建与分析

WUJM.Constructionandanalysisoflungcancermedicalknowledgegraph

DENGW,GUOPP,YANGJD.Medicalentityextractionandknowledgegraphconstruction

张崇宇.基于知识图谱的自动问答系统的应用研究与实现

ZHANGCY.Researchandimplementationofautomaticquestionansweringsystembasedonknowledgegraph

HUGM,SECARIOMK,CHENCM.SeQuery:aninteractivegraphdatabaseforvisualizingtheGPCRsuperfamily

BALAURI,SAQIM,BARATA,etal.EpiGeNet:agraphdatabaseofinterdependenciesbetweengeneticandepigeneticeventsincolorectalcancer

LOSET,HEUSDENP,CHRISTOFFELSA.COMBAT-TB-NeoDB:fosteringtuberculosisresearchthroughintegrativeanalysisusinggraphdatabasetechnologies

柴扬帆,孔桂兰,张路霞.医疗大数据在学习型健康医疗系统中的应用

CHAIYF,KONGGL,ZHANGLX.Applicationofmedicalbigdatainlearninghealthsystem

AL-ASWADIFN,CHANHY,GANKH.Automaticontologyconstructionfromtext:areviewfromshallowtodeeplearningtrend

MAZENA,MAHMOODMK,SUSANS.Linkedopendata-basedframeworkforautomaticbiomedicalontologygeneration

LYTVYNV,BUROVY,KRAVETSP,etal.Methodsandmodelsofintellectualprocessingoftextsforbuildingontologiesofsoftwareformedicaltermsidentificationincontentclassification

POLSLEYS,TAHIRA,RAJUM,etal.Role-preservingredactionofmedicalrecordstoenableontology-drivenprocessing

AJAMIH,MCHEICKH.Ontology-basedmodeltosupportubiquitoushealthcaresystemsforCOPDpatients

KATOT,ABEK,OUCHIH,etal.Embeddingsoflabelcomponentsforsequencelabeling:acasestudyoffinegrainednamedentityrecognition

SARANYAK,PREMALATHAK.Privacypreservingdatapublishingbasedonsanitizedprobabilitymatrixusingtransactionalgraphforimprovingthesecurityinmedicalenvironment

翁一帆.一种基于知识图谱的医疗问答系统构建方法

TANCQ,QIUW,CHENMS,etal.Boundaryenhancedneuralspanclassificationfornestednamedentityrecognition

JUMZ,MIWAM,ANANIADOUS.Aneurallayeredmodelfornestednamedentityrecognition

WENGYF.Aconstructionmethodofmedicalquestionansweringsystembasedonknowledgegraph

HUANGMX,LIML,ZHANGY,etal.ADIK-basedquestion-answeringarchitecturewithmulti-sourcesdataformedicalself-service

PHAMTH,MAIK,TRUNGNM,etal.Multi-tasklearningwithcontextualizedwordrepresentationsforextentednamedentityrecognition

LUOY,XIAOFS,ZHAOH.Hierarchicalcontextualizedrepresentationfornamedentityrecognition

马晨浩.基于甲状腺知识图谱的自动问答系统设计与实现

MACH.Designandimplementationofautomaticquestionansweringsystembasedonthyroidknowledgegraph

LIY,LONGGD,SHENT,etal.Selfattentionenhancedselectivegatewithentity-awareembeddingfordistantlysupervisedrelationextraction

HEZQ,CHENWL,WANGYY,etal.Improvingneuralrelationextractionwithpositiveandunlabeledlearning

陈志云,商月,钱冬明.基于知识图谱的智能问答系统

CHENZY,SHANGY,QIANDM.Researchonintelligentquestionansweringsystembasedonknowledgegraph

CHENDY,LIYL,LEIK,etal.Relabelthenoise:jointextractionofentitiesandrelationsviacooperativemultiagents

ZENGDJ,ZHANGRR,LIUQY.CopyMTL:copymechanismforjointextractionofentitiesandrelationswithmulti-tasklearning

黄魏龙.基于深度学习的医药知识图谱问答系统构建研究

HUANGWL.ResearchontheconstructionofmedicalknowledgegraphQAsystembasedondeeplearning

谢刚,吴高巍,任俊宏,等.面向患者的智能医生框架研究

XIEG,WUGW,RENJH,etal.Researchonintelligentdoctorframeworkforpatient

NAYAKT,NGHT.Effectivemodelingofencoder-decoderarchitectureforjointentityandrelationextraction

EBERTSM,ULGESA.Span-basedjointentityandrelationextractionwithtransformerpre-training

BANSALT,VERGAP,CHOUDHARYN,etal.Simultaneouslylinkingentitiesandextractingrelationsfrombiomedicaltextwithoutmention-levelsupervision

NANGS,GUOZJ,SEKULII,,etal.Reasoningwithlatentstructurerefinementfordocument-levelrelationextraction

BOL,LUOW,LIZ,etal.Aknowledgegraphbasedhealthassistant

姚智.基于深度学习的医疗问答系统的开发

EHH,CHENGR,SONGMN,etal.Ajointembeddingmethodofrelationsandattributesforentityalignment

MUNNERF,ICHISER.Entityalignmentforheterogeneousknowledgegraphsusingsummaryandattributeembeddings

YAOZ.Developmentofmedicalquestion-and-answersystembasedondeeplearning

杨笑然.基于知识图谱的医疗专家系统

CHENMH,SHIWJ,ZHOUB,etal.Cross-lingualentityalignmentforknowledgegraphswithincidentalsupervisionfromfreetext

KANGSZ,JILX,LIZJ,etal.Iterativecross-lingualentityalignmentbasedonTransC

YANGXR.Amedicalansweringsystembasedonknowledgegraph

SHANGJY,XIAOC,MATF,etal.GAMENet:graphaugmentedmemorynetworksforrecommendingmedicationcombination

ZHUQ,WEIH,SISMANB,etal.Collectivemulti-typeentityalignmentbetweenknowledgegraphs

SUNZQ,WANGCM,HUW,etal.Knowledgegraphalignmentnetworkwithgatedmulti-hopneighborhoodaggregation

WANGSS,RENPJ,CHENZM,etal.Order-freemedicinecombinationpredictionwithgraphconvolutionalreinforcementlearning

KWAKH,LEEM,YOONS,etal.Drugdiseasegraph:predictingadversedrugreactionsignalsviagraphneuralnetworkwithclinicaldata

WUYT,LIUX,FENGYS,etal.Neighborhoodmatchingnetworkforentityalignment

ZHANGFJ,LIUX,TANGJ,etal.OAG:towardlinkinglarge-scaleheterogeneousentitygraphs

WANGM,LIUM,LIUJ,etal.Safemedicinerecommendationviamedicalknowledgegraphembedding

WANGXY,ZHANGY,WANGXL,etal.Aknowledgegraphenhancedtopicmodelingapproachforherbrecommendation

FLAMINOJ,ABRIOLAC,ZIMMERMANB,etal.Robustandscalableentityalignmentinbigdata

LOUYX,ZHANGY,QIANT,etal.Atransition-basedjointmodelfordiseasenamedentityrecognitionandnormalization

韩冬,李其花,蔡巍,等.人工智能在医学影像中的研究与应用

HAND,LIQH,CAIW,etal.Researchandapplicationofartificialintelligenceinmedicalimaging

ZHAOSD,LIUT,ZHAOSC,etal.Aneuralmulti-tasklearningframeworktojointlymodelmedicalnamedentityrecognitionandnormalization

LUOZH,SHIMW,YANGZ,etal.pyMeSHSim:anintegrativepythonpackageforbiomedicalnamedentityrecognition,normalization,andcomparisonofMeSHterms

CHOH,CHOIW,LEEH.Amethodfornamedentitynormalizationinbiomedicalarticles:applicationtodiseasesandplants

GORRELLG,SONGXY,ROBERTSA.Bio-YODIE:anamedentitylinkingsystemforbiomedicaltext

WRIGHTD.NormCo:deepdiseasenormalizationforbiomedicalknowledgebaseconstruction

MONDALI,PURKAYASTHAS,SARKARS,etal.Medicalentitylinkingusingtripletnetwork

ZHUM,CELIKKAYAB,BHATIAP,etal.LATTE:latenttypemodelingforbiomedicalentitylinking

RAJANINF,BORNEAM,BARKERK.Stackingwithauxiliaryfeaturesforentitylinkinginthemedicaldomain

曹明宇,李青青,杨志豪,等.基于知识图谱的原发性肝癌知识问答系统

(1)多语言医学知识图谱...COMBAT-TB-NeoDB:fosteringtuberculosisresearchthroughintegrativeanalysisusinggraphdatabasetechnologies22020...基因组技术的最新进展使得从结核分枝杆菌分离物中产生大量成本效益高的“组学”数据成为可能,然后可以通过许多异构的公开可用的生物数据库共享这些数据.尽管碎片化管理很有用,但它对研究人员联合查询利用数据的能力产生了负面影响.2020年,LoseT等人[44]提出了抗结核病NeoDB(一个整合的结核分枝杆菌经济学知识库).基于Neo4j,将标签属性图模型绑定到合适的本体,从而创建抗结核病NeoDB.抗结核病NeoDB使研究人员能够通过链接著名的生物数据库和发表文献中的结核分枝杆菌变体数据来执行复杂的联合查询....

(1)多语言医学知识图谱...医疗大数据在学习型健康医疗系统中的应用32020...人工智能的发展已经进入快车道,作为新一轮科技革命和产业变革的重要驱动力量,人工智能技术正在深入各行各业,悄无声息地改变着人们日常生活的方方面面[1].知识图谱是由谷歌(Google)公司在2012年提出的一个概念,本质上是语义网的知识库.知识图谱由节点和边组成,节点表示实体,边表示实体与实体之间的关系,这是最直观、最易于理解的知识表示和实现知识推理的框架,奠定了第三代人工智能研究的基础[1]....

(1)多语言医学知识图谱...Methodsandmodelsofintellectualprocessingoftextsforbuildingontologiesofsoftwareformedicaltermsidentificationincontentclassification22019...2019年,LytvynV等人[4]提出了从自然文本中提取知识的方法和算法(包括一个基于本体引入的概念、关系、谓词和规则的多层次过程),建立了一种基于本体的本体开发方法,该方法利用现有本体对文本文档进行分析,构建了命名和本体术语体系.这使得本体开发过程自动化成为可能....

(1)多语言医学知识图谱...Role-preservingredactionofmedicalrecordstoenableontology-drivenprocessing22017...再者,由于医学信息的特殊性,对医学信息的匿名化处理在本体构建过程中也是一个难点.2017年,PolsleyS等人[5]提出一种可识别被映射到本体论术语的受保护健康信息(protectedhealthinformation,PHI)的方法,临床专家使用数百份医学文献对该方法进行了评价,F1分数达98.8%,在后续处理中保留语义信息具有一定的前景.但该方法仍有较大的局限性,需要不断地进行优化....

(1)多语言医学知识图谱...Ontology-basedmodeltosupportubiquitoushealthcaresystemsforCOPDpatients12018...其次,医学的临床数据会不断变化,如何根据患者的当前情况创建动态的最佳保护服务,为患者提供个性化的实时医疗护理也是医学实体构建过程中的一大问题[6]....Embeddingsoflabelcomponentsforsequencelabeling:acasestudyoffinegrainednamedentityrecognition22020...针对医学实体中大量同义词替换以及大量缩写的问题,2020年KatoT等人[7]提出了一种共享和学习标签组件嵌入的方法,通过对英语和日语细粒度NER进行实验,证明了该方法比标准序列标记模型性能更好,特别是在低频标签情况下....

(1)多语言医学知识图谱...Privacypreservingdatapublishingbasedonsanitizedprobabilitymatrixusingtransactionalgraphforimprovingthesecurityinmedicalenvironment22020...隐私是医院在发布涉及个人敏感信息的数据时应保留的一个重要因素.研究寻求在不侵犯个人信息保密性的情况下向公众发布数据的解决方案.对数据进行处理,可以在维护基本信息的同时安全地发布数据.2020年,SaranyaK等人[45]提出了一种基于事务图的自适应概率安全处理方法,用于医疗环境中的安全处理.该方法首先为每个用户交互生成交互图,并在此基础上估计每个交互项的收敛性和偏差测度.基于这些值,该方法计算了一个概率矩阵,并在这个矩阵的基础上生成本体.实验结果表明,所提方法可以产生有效的安全处理和数据发布结果....

(1)多语言医学知识图谱...一种基于知识图谱的医疗问答系统构建方法12018...语义提取指从用户提出的问句中提取出涉及的医学实体、关系等语义信息,主要包括实体识别和关系抽取两部分,可以采用词典匹配、传统机器学习、神经网络甚至平台工具(如哈尔滨工业大学语言云平台)等方法.参考文献[46]基于自定义词典的Jieba分词匹配获得问句中的实体....Boundaryenhancedneuralspanclassificationfornestednamedentityrecognition22020...为了解决医学名词实体较长、识别边界困难的问题,2020年,TanCQ等人[8]提出了边界感知的神经网络模型来预测实体的类别信息.该模型可以先定位出实体的位置,然后在对应的位置区间内进行实体类型的预测.在公开的嵌套NER数据集上,该模型取得了超越以往方法的效果,并在预测上取得了更快的速度....

(1)多语言医学知识图谱...Aneurallayeredmodelfornestednamedentityrecognition22018...另外,大多数NER系统只处理平面实体,忽略了内部嵌套实体,导致无法捕获底层文本中的细粒度语义信息.为了解决这个问题,2018年JuMZ等人[9]提出了一种新的神经模型,通过动态叠加平面NER层来识别嵌套的实体.模型将长短时记忆(longshorttermmemory,LSTM)层的输出合并到当前的平面NER层中,为检测到的实体构建新的表示,并将它们提供给下一个平面NER层.模型动态地堆加平面NER层,直到没有提取任何外部实体.该模型针对特定数据集(具有多种类别和嵌套的实体)具有较好的实验效果....

(1)多语言医学知识图谱...一种基于知识图谱的医疗问答系统构建方法12018...语义提取指从用户提出的问句中提取出涉及的医学实体、关系等语义信息,主要包括实体识别和关系抽取两部分,可以采用词典匹配、传统机器学习、神经网络甚至平台工具(如哈尔滨工业大学语言云平台)等方法.参考文献[46]基于自定义词典的Jieba分词匹配获得问句中的实体....ADIK-basedquestion-answeringarchitecturewithmulti-sourcesdataformedicalself-service22019...参考文献[47]中的DIK-QA系统使用BiLSTM-CRF神经网络模型抽取问句中的医疗实体,并在该模型中引入注意力机制,以提高实体识别的准确度.参考文献[48]借助哈尔滨工业大学语言云平台的LTPParser接口进行句法分析,将结果与词库内的实体进行比对,从而获取比对成功的实体和关系....

(1)多语言医学知识图谱...Hierarchicalcontextualizedrepresentationfornamedentityrecognition2...对于医学实体中常见的一词多义现象,2019年PhamTH等人[10]在细粒度NER任务中进行了多任务学习和语境化单词表征的有效性研究,并研究了多任务序列标记的不同参数共享方案、神经语言模型学习和不同单词表示设置下的学习.最终得到的最佳模型不需要任何额外的人工操作来创建数据和设计特征,F1分数达到83.35%.LuoY等人[11]提出了一个增加了上下文表示层次的模型:句子级表示和文档级表示.在句子级,考虑到单个句子中单词的不同贡献,通过标签嵌入注意机制来增强从独立的双向长短时记忆(bidirectionallongshorttermmemory,BiLSTM)学习到的句子表征.在文档级,采用键值存储网络记录对上下文信息相似度敏感的单个单词的文档感知信息.在基准测试的实验结果数据集(CoNLL-2003和Ontonnotes5.0英语数据集,CoNLL-2002西班牙语数据集)上获得了最先进的结果....

(1)多语言医学知识图谱...基于甲状腺知识图谱的自动问答系统设计与实现22018...参考文献[47]中的DIK-QA系统使用BiLSTM-CRF神经网络模型抽取问句中的医疗实体,并在该模型中引入注意力机制,以提高实体识别的准确度.参考文献[48]借助哈尔滨工业大学语言云平台的LTPParser接口进行句法分析,将结果与词库内的实体进行比对,从而获取比对成功的实体和关系....

(1)多语言医学知识图谱...Improvingneuralrelationextractionwithpositiveandunlabeledlearning22020...为了自动构建大规模的语料库,2019年LiY等人[12]提出了一种全新的轻量级神经网络框架来解决远程监督关系抽取问题,以弥补以往选择的不足,使用《纽约时报》(NewYorkTimes,NYT)数据集进行实验,结果表明该方法在AUC和Top-n精度指标方面都达到了较先进的性能.2020年HeZQ等人[13]设计了一个新的状态表示形式,它考虑了句子嵌入、关系嵌入以及所选的正向实例的嵌入,该方法解决了远程监督方法中的错误标签问题,同时提升了词袋水平的关系提取效果.ChenDY等人[14]提出了通过多代理强化学习模型来重新标记噪声训练数据,并共同提取实体和关系的新方法.他们在两个真实的数据集上对该方法进行了评估,结果证明,该方法可以显著提高提取器的性能,并实现有效的学习....

(1)多语言医学知识图谱...CopyMTL:copymechanismforjointextractionofentitiesandrelationswithmulti-tasklearning2...针对医学实体间普遍存在重叠关系这一问题,2019年ZengDJ等人[15]重新研究了基于复制机制的关系抽取模型,提出了使用序列到序列(Seq2Seq)方法共同提取实体和关系的多任务学习复制模型(copymechanismformulti-tasklearning,CopyMTL).该模型利用多任务的学习框架来识别多词实体,通过提高实体识别精度来提升关系抽取的效果,从而达到了较理想的效果.2020年NayakT等人[16]提出了使用编码器-解码器体系结构共同提取实体和关系的方法.该方法使用一种用于关系元组的表示方案,使解码器能够像机器翻译模型那样一次生成一个单词,并且仍然可以找到句子中存在的所有元组,它们具有不同长度的完整实体名称,并且具有重叠的实体.对NYT数据集进行的实验表明,该方法明显优于所有以前的模型....

(1)多语言医学知识图谱...Span-basedjointentityandrelationextractionwithtransformerpre-training2...为了减少深度学习方法关系抽取中错误的传递,2019年EbertsM等人[17]提出了一种混合模型,包括基于转换器的编码层、LSTM实体检测模块、基于强化学习的关系分类模块.实验结果表明,与基线方法相比,该混合模型在关系和实体提取方面表现更好.2019年BansalT等人[18]提出了一个新的模型——同时神经实体-关系连接器(simultaneousneuralentityrelationlinker,SNERL).首先使用自注意力机制来捕获文本中每个实体提及的上下文表示;然后使用这些上下文表示来预测提及水平的实体分布和提及对水平的关系分布;最后针对每个提及对,将这些预测概率进行组合,并合并到文档级别,以获得预测关系三元组的最终概率.实验结果表明,SNERL模型在CDT和CDR这两个生物医学数据集上的表现达到了最优的效果,并且可以大大改善系统的整体召回率,同时避免了级联错误....

(1)多语言医学知识图谱...Simultaneouslylinkingentitiesandextractingrelationsfrombiomedicaltextwithoutmention-levelsupervision2...为了减少深度学习方法关系抽取中错误的传递,2019年EbertsM等人[17]提出了一种混合模型,包括基于转换器的编码层、LSTM实体检测模块、基于强化学习的关系分类模块.实验结果表明,与基线方法相比,该混合模型在关系和实体提取方面表现更好.2019年BansalT等人[18]提出了一个新的模型——同时神经实体-关系连接器(simultaneousneuralentityrelationlinker,SNERL).首先使用自注意力机制来捕获文本中每个实体提及的上下文表示;然后使用这些上下文表示来预测提及水平的实体分布和提及对水平的关系分布;最后针对每个提及对,将这些预测概率进行组合,并合并到文档级别,以获得预测关系三元组的最终概率.实验结果表明,SNERL模型在CDT和CDR这两个生物医学数据集上的表现达到了最优的效果,并且可以大大改善系统的整体召回率,同时避免了级联错误....

(1)多语言医学知识图谱...Reasoningwithlatentstructurerefinementfordocument-levelrelationextraction2...针对医学关系跨度大的问题,2020年NanGS等人[19]提出潜在结构优化(latentstructurerefinement,LSR)模型,以端到端的方式构造一个文档级图谱来推理句间关系,通过迭代优化策略,模型能够动态构建潜在结构,以改善整个文档中的信息聚合.该模型在生物医学领域的两个文档级关系抽取数据集上取得了较好的效果....

(1)多语言医学知识图谱...Entityalignmentforheterogeneousknowledgegraphsusingsummaryandattributeembeddings22020...2020年,EHH等人[20]尝试将关系和属性三元组结合起来进行实体对齐.采用参数共享联合方法和基于翻译的知识嵌入方法将它们联合嵌入.实验结果表明,该方法对实体对齐任务有明显的改进.MunneRF等人[21]提出了一种基于嵌入的实体对齐方法.针对实体对齐任务,提出了一种汇总与属性嵌入的联合方法.当实体具有较少的属性或关系结构,无法捕获实体的有意义的表示时,实体摘要嵌入会很有用.他们在真实世界的数据集上进行了实验,结果表明,所提方法显著优于当时最先进的实体对齐模型....

(1)多语言医学知识图谱...Iterativecross-lingualentityalignmentbasedonTransC22020...2020年,ChenMH等人[22]提出了一种新的模型JEANS,在一个共享的嵌入方案中联合表示多语种的知识图谱和文本语料库,并试图通过文本附带的监督信号来改善实体对齐效果.在基准数据集上的实验结果表明,JEANS在伴随监督的实体对齐方面有很好的改善,并且显著地优于只提供知识图谱内部信息的最新方法.KANGSZ等人[23]利用本体提出了一种基于TransC的嵌入模型.该模型首先采用TransC和参数共享模型,将知识图谱中的所有实体和关系映射到一个基于对齐实体集的共享低维语义空间,然后迭代地使用重新初始化和软对齐策略来执行实体对齐.实验结果表明,与基准算法相比,该模型能有效地融合本体信息,取得了较好的效果....

(1)多语言医学知识图谱...Knowledgegraphalignmentnetworkwithgatedmulti-hopneighborhoodaggregation2...针对邻域结构的非同构性,SunZQ等人[25]提出了一种新的知识图谱对齐网络AliNet,旨在以端到端的方式减轻邻域结构的非同构性.该方法采用一种注意机制来突出有用的远距离邻居,并减少噪声,然后使用门控机制控制直接邻域信息和远程邻域信息的聚合.他们进一步建议使用关系损失来重新定义实体表示,并对5个实体对准数据集进行了详细的研究和分析,证明了AliNet的有效性....

(1)多语言医学知识图谱...OAG:towardlinkinglarge-scaleheterogeneousentitygraphs22019...2019年,ZhangFJ等人[27]将两个有上亿级别节点的网络——AMiner和微软学术进行了对齐,这项研究综合利用了LSTM、灰色神经网络(grayneuralnetwork,GNN)、哈希等技术,能够高效处理多种类型的节点以及不同类型的信息,并且使对齐效果达到了可以应用的级别(总体F1分数为96.81%)....

(1)多语言医学知识图谱...Atransition-basedjointmodelfordiseasenamedentityrecognitionandnormalization22017...2017年,LouYX等人[29]提出了一种基于转换的联合疾病实体识别与规范化模型,将输出构造过程转化为一个渐进的状态转换过程,允许使用非局部特征.实验表明,与其他方法分开执行任务相比,联合框架实现了更高的性能.与其他先进的方法相比,该方法更具优势....

(1)多语言医学知识图谱...pyMeSHSim:anintegrativepythonpackageforbiomedicalnamedentityrecognition,normalization,andcomparisonofMeSHterms22020...2020年,LuoZH等人[31]开发了pyMeSHSim软件包,这是一个用于生物医学文本挖掘的集成、轻量级和数据丰富的Python包.作为第一个一站式医学主题词(medicalsubjectheading,MeSH)工具包,它集成了生物NER、规范化和比较功能.pyMeSHSim嵌入了一个自制的数据集,其中包含主标题(mainheading,MH)、补充概念记录(supplementaryconceptrecord,SCR)及其在MeSH中的关系.基于该数据集,pyMeSHSim实现了4种基于信息内容的算法和一种基于图谱的算法,可用于度量两个网格术语之间的语义相似度.结果表明,使用pyMeSHSim识别的网络术语和以前手工识别的网络术语的语义相似度高达0.89~0.99.PyMeSHSim有望在生物信息学、计算生物学和生物医学研究中作为一种强大的工具得到广泛的应用....

(1)多语言医学知识图谱...Amethodfornamedentitynormalizationinbiomedicalarticles:applicationtodiseasesandplants22017...2017年,ChoH等人[32]联合解析同义词和缩写词的领域特定词典及基于神经网络算法组合的大量未标注数据,该联合方法的精确度显著提高....

(1)多语言医学知识图谱...NormCo:deepdiseasenormalizationforbiomedicalknowledgebaseconstruction22019...2019年,WrightD[34]提出了一个深度连贯模型NormCo,它考虑了实体提及的语义,以及单个文档中提及的主题连贯性.NormCo在两个疾病标准化语料库上的预测质量和效率方面优于当时最先进的基线方法,并且至少在准确性和标记文档的F1分数方面表现同样出色....

(1)多语言医学知识图谱...Medicalentitylinkingusingtripletnetwork22019...2019年,MondalI等人[35]提出了一种基于候选知识库条目与疾病描述相似度的排序方法,探讨了域内子词级信息处理疾病规范化任务的能力.该方法利用由疾病描述m、阳性候选qp、阴性候选qni组成的三元组(qp,m,qni)进行候选排序,引入了一个稳健的、可移植的候选生成方案,该方案不使用手工编制的规则.在标准基准NCBI疾病数据集上的实验结果表明,该系统在很大程度上优于先前的方法....

(1)多语言医学知识图谱...LATTE:latenttypemodelingforbiomedicalentitylinking22020...2020年,ZhuM等人[36]提出了一种潜在类型实体链接模型LATTE,该模型通过对实体提及和实体的潜在细粒度类型信息进行建模来改进实体链接.与以前直接在实体提及和实体之间执行实体链接的方法不同,LATTE在没有直接监督的情况下联合执行实体对齐和潜在的细粒度类型学习.大量的实验结果表明,该模型比几种先进的技术具有显著的性能改进....

(1)多语言医学知识图谱...Stackingwithauxiliaryfeaturesforentitylinkinginthemedicaldomain22017...2017年,RajaniNF等人[37]提出使用精确聚焦的辅助特征来克服医学领域的这些挑战,这些辅助特征可以从少量数据中形成分类边界.该模型优于多个基线水平,并在多个医学数据集上更新了最优结果....

(1)多语言医学知识图谱...基于知识图谱的原发性肝癌知识问答系统32019...基于医学知识图谱更侧重于实体之间的关系(例如药物-疾病、疾病-表征、药物-药物及药物-表征)的特点,医学知识图谱的存储基本采用图数据库,其中应用最广泛的为Neo4j系统.曹明宇等人[38]开发的基于知识图谱的原发性肝癌知识问答系统、吴嘉敏[39]构建的肺癌知识图谱都将Neo4j作为知识图谱的存储系统.DengW等人[40]利用Neo4j图形数据库构建医学图谱,包含医院科室、疾病和症状之间的关系,并基于图谱提供医学指导....

THE END
1.医学知识图谱构建技术与研究进展医学知识图谱构建技术与研究进展 来源: 人机与认知实验室 概要:医学知识图谱是实现智慧医疗的基石,有望带来更高效精准的医疗服务。 摘要:医学知识图谱是实现智慧医疗的基石,有望带来更高效精准的医疗服务。然而,现有知识图 谱构建技术在医学领域中普遍存在效率低,限制多,拓展性差等问题。针对医疗数据跨语种,专业性强,https://blog.csdn.net/cf2suds8x8f0v/article/details/78509879/
2.医学知识图谱构建技术与研究进展CSDN:医学知识图谱构建技术与研究进展 - CSDN博客 来源: 人机与认知实验室 概要:医学知识图谱是实现智慧医疗的基石,有望带来更高效精准的医疗服务。 摘要:医学知识图谱是实现智慧医疗的基石,有望带来更高效精准的医疗服务。然而,现有知识图 谱构建技术在医学领域中普遍存在效率低,限制多,拓展性差等问题。针对医疗数据https://zhuanlan.zhihu.com/p/41119169
3.中文医学知识图谱研究进展研究进展与展望 医学知识图谱通过信息技术从海量的医学数据提炼信息完成知识量的快速储存和增加过程,但如何保证图谱中知识的正确性?如何建立图谱有效的知识更新体系?知识检索符合使用者的需求?在临床辅助决策、医疗质量管理等医学智能化方面如何发挥更大作用?作者以医学专家参与图谱构建https://mp.weixin.qq.com/s?__biz=MzA5Mzg2MTMwMA==&mid=2650390535&idx=1&sn=067c94ce9fe21a35482b8b5f9f1bf68f&chksm=885a04dcbf2d8dca361a28a375e13117f0e06134fe31c12f7b6e2362dcfb87a9161a9101c8c2&scene=27
4.医学知识图谱构建技术与研究进展.pdf医学知识图谱构建技术与研究进展.pdf 9页VIP内容提供方:183***1457 大小:319 KB 字数:约8.43万字 发布时间:2022-03-10发布于北京 浏览人气:41 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)医学知识图谱构建技术与研究进展.pdf 关闭预览 想预览更多内容,点击免费在线https://m.book118.com/html/2022/0309/6210223052004122.shtm
5.医学知识图谱构建技术与研究进展10侯丽;钱庆;黄利辉;李军莲;夏光辉;基于本体的临床医学知识库系统构建探讨[J];医学信息学杂志;2011年04期 【相似文献】 中国期刊全文数据库前30条 1袁凯琦;邓扬;陈道源;张冰;雷凯;医学知识图谱构建技术与研究进展[J];计算机应用研究;2018年07期 2陈优敏;知识图谱构建方法探究[J];中国新通信;2019年05期 https://www.cnki.com.cn/Article/CJFDTotal-JSYJ201807003.htm
6.医学知识图谱构建技术与研究进展计算机应用研究袁凯琦;邓扬;陈道源;等.医学知识图谱构建技术与研究进展.计算机应用研究.2018.1-11袁凯琦,邓扬,陈道源,等.医学知识图谱构建技术与研究进展[J].计算机应用研究,2018,35(7):1–11.袁凯琦;邓扬;陈道源;等.医学知识图谱构建技术与研究进展.http://www.arocmag.corn/article/02-2018-07-068.htmI.https://www.cqvip.com/QK/93231X/20187/675835414.html
7.医学知识图谱构建研究进展《中华医学图书情报杂志》2018年10期医学知识图谱构建研究进展 修晓蕾;吴思竹;崔佳伟;邬金鸣;钱庆 开通知网号 针对医学数据专业性强、结构复杂等特点,解析了构建医学知识图谱的关键技术,介绍了利用机器学习和深度学习的方法识别医学命名实体、实体链接和抽取语义关系,以及医学知识图谱在医院智能导诊、疾病筛查和预测、辅助临床诊断、医疗保险风险预测和医学知识https://mall.cnki.net/magazine/Article/YXTS201810006.htm
8.知识图谱的构建和应用于医学领域知识图谱是对实体及其属性之间关系的定义和描述,它将人类自然语言组织为结构化的信息,能够有效地解决海量数据的存储、管理和查询问题。医学领域是知识图谱的重要应用之一,利用知识图谱技术可以更好地对医学知识进行组织和挖掘,为疾病预防和治疗提供重要支持。 一、知识图谱的构建 知识图谱的构建需要多个步骤,包括数据清洗https://wenku.baidu.com/view/da674b041db91a37f111f18583d049649b660edc.html