摘要:知识图谱是近年来出现的一种知识表达形式,在自然语言处理、知识推理、实体关系预测等领域得到了越来越多的应用。在这其中,知识推理无疑是一个发展潜力巨大的领域。在如今这个信息爆炸的时代,基于人的知识推理显然难以满足如此庞大的信息处理需求,从而基于知识图谱的知识推理成为了当下的热点。首先,本文将回顾知识图谱和知识推理的发展历程。然后,我们将传统知识推理的方式分为三种类型:基于谓词的知识推理、基于词向量的知识推理和基于神经网络的知识推理,进一步讨论最近火热的时序知识推理问题,梳理知识推理最新的研究进展。最后,我们会讨论知识推理面临的应用和挑战。
本节介绍知识图谱和知识推理的基本概念理论。
知识推理即从已知的知识中推理出未知的知识。给定知识图谱KG=
基于规则的知识推理其本质思想是通过统计特征或者是基础的规则进行知识图谱推理。在这种思想的指导下,Paulheim和Bizer[10]提出了SDValidate方法,利用统计特征来补全知识图谱和检测错误。具体来说,SDValidate使用头实体和尾实体在统计上的分配来预测实体的类型,计算每个关系的相对谓词频率(RPF),将RPF值较低的潜在关系排除。这种基于统计意义上的知识推理取得了很好的效果。在这之后,Wang和Mazaitis[11]等人使用了个性化PageRank(ProPPR)算法,将知识推理的发现过程抽象成随机马尔科夫过程,基于SLD定理进行理论证明,从而将问题表述为一个概率推理任务。
基于随机游走的知识推理基于一个核心思想,即路径规则对知识推理有启发作用,因此将路径规则注入到知识推理。在基于随机游走的知识推理中,路径排序算法(PRA)(Lao,Cohen[12])是较早使用的通用技术。PRA由三部分组成:特征提取、特征计算和特征分类。PRA的具体做法是先找到一些潜在有价值的连接实体对,构成关系类型序列,按此序列结合路径约束进行随机游走,记录游走的长度,然后计算游走的概率p(t|h,π),其中(h,t)为一个节点对,π为路径。具体计算方法为
在基于张量分解的知识推理中,最具有代表性的当属RESCAL[16]模型。RESCAL的具体做法是把知识图谱中的每一个关系都用一个矩阵表示,每一个实体用一个向量表示,图谱中所有的关系构成一个三阶张量。具体优化目标为
利用神经网络优化目标。本质为在对张量降维的同时保留数据特征,进行张量分解。在RESCAL的基础上,Yang等人提出了DistMult[17]模型。与RESCAL相同的是,DIstMult仍然用一个向量来表示实体。而不同的是,DistMult用一个向量来表示一个关系,从而将RESCAL中的R矩阵退化为对角矩阵。由此优化目标变为
其余与RESCAL类似。DistMult相比于RESCAL更高效、更准确,尤其是在速度上有很大的提升。但DistMult的缺点仍然明显。DistMult中一个关键的前提假设是知识图谱中的关系是对称的,但事实上这种假设难以达到。例如,基于DistMult的假设,“A是B的父亲”和“B是A的父亲”两个关系默认同时成立,这在现实中不可能正确。基于语义分析的知识推理具有很强的表达能力,同时没有约束,但是解释性不好。
基于翻译距离的知识推理的本质思想是:实体嵌入的向量之间的距离能够表示实体之间的关系。这种思想来自于TomasMikolov的发现[18]。在将词向量映射到二维空间可视化后,TomasMikolov敏锐的发现国家词向量和与其对应的首都词向量之间的差值及其相近,如图1所示。因此基于翻译距离的知识推理的前提假设为实体嵌入之间的距离表示实体之间的关系,例如:ChinaBeiJing≈BritainLondon基于这种思想,Bordes等人提出了经典的TransE[19]模型。该模型的具体实现方法为,对于一个三元组(h,l,t)∈S和(h′,l,t′)∈S′,其中S,S′分别为已知的和未知的三元组集合,优化目标为
其中d(h+l,t)=(h+lt)T(h+lt),并且进行约束∥h∥=1,∥t∥=1TransE是一个非常经典的算法,具有很高的准确率。但缺点在于它无法描述一对多的关系。例如,“A是B的父亲”和“A是C的父亲”完全可以同时满足,但B和C是不同的两个实体,AB≈AC很有可能并不成立。为了解决这个问题,Wang等人提出了TransH[20]模型。TransH的本质在于将实体映射到向量空间后,再将实体映射到不同的超平面。每一个关系都对应一个超平面。在上述例子中,B和C在向量空间中不在一个点上,但映射到“父子”关系对应的超平面后在一个点上,从而解决一对多关系的问题,如图2所示。
TransH将关系对应到一个超平面,而这种方法仍然略显复杂,当关系数量多时,计算复杂度将大大提升。Liu等人因此提出了TransR[21]模型。与TransH不同,TransR将实体空间与关系空间分开,TransR使用矩阵将关系映射到另一空间,使得具有关系的实体彼此相近,没有关系的实体彼此分离。优化目标改为
其中\(f_r(h,t)=||h_r+r-t_r||_2^2\)这种基于翻译距离的知识推理方法具有很好的解释性,但是缺点在于表达能力不强,并且模型对于约束有很高的要求。
在基于循环神经网络的知识推理中,PathRNN[22]是一个经典的模型。PathRNN使用PRA作为在知识图谱中讯号轮径的方法,然后将路径中的二元关系的嵌入式表达作为神经网络的输入。它将整个路径的起始实体与终止实体之间的关系抽象化,根据语义输出一个向量。如图10所示,在找到Microsoft→Washington→USA这个路径后,PathRNN生成了一个语义上接近“总部-国家”的关系向量。
PathRNN存在三个缺点。首先,它的推理是通过一整个关系链,而与构成路径的实体无关。其次,在进行未知知识的推理时,PathRNN只采用单一路径作为证据,可靠性不足。最后,由于它需要为每一个关系类型训练一个模型,因此变得难以扩展,需要维护的参数量也过于庞大。据此,Wang和Chen[23]等人提出了多段推理的注意力机制。在使用原有方法找到实体构成的路径之后,根据注意力分配机制将整个路径进行整合,从而判断关系类型。
对于一个固定的关系\(r_n\)进行规则推理的学习,对于每一个\(r_n\)找到一个上述的路径,生成\(conf(R)=\frac{rulesupport}{bodysupport}\).应用规则的过程主要是解决实体预测的问题,从满足t∈[\(t_qw\),\(t_q\)]的子图中寻找R的bodygroundings,对于每一个候选预测,计算得分f(R,C)。RE-GCN的本质思想是从现有的知识图谱中学习可能的关系之间的推演规则,应用于实体预测。
医学领域是最广泛、最适合使用知识图谱进行抽象表达和推理的领域之一[30]。由于医学领域的实体多种多样,可以是病毒、药物、器官、疾病、症状等等,并且实体之间的关系五花八门,可以是“病毒-疾病”的产生关系,可以是“疾病-症状”的对应关系,这种复杂、多样而且大量的信息用其他的方式难以储存。而知识图谱是最好的储存方法,而现有的基于知识图谱的知识推理也广泛的应用于医学领域之中。知识推理可以用于医疗信息搜索。传统的医疗搜索难以处理百亿计的网页数据,而知识图谱相较于传统方法,可以通过从图谱中抽取实体、关系和属性来进行扩展搜索。目前已经出现了很多典型的医疗专用搜索引擎,例如WebMD、Healthline等。Healthline是一个医学信息搜索引擎,已经涵盖5万条相互关联的概念。目前的医疗搜索引擎主要受限于医学知识图谱的数量和质量。
[1]FabianM.Suchanek,GjergjiKasneci,andGerhardWeikum.Yago:Acoreofsemanticknowledge.InProceedingsofthe16thInternationalConferenceonWorldWideWeb,WWW’07,page697–706,NewYork,NY,USA,2007.AssociationforComputingMachinery.
[2]MicheleBanko,MichaelJ.Cafarella,StephenSoderland,MattBroadhead,andOrenEtzioni.Openinformationextractionfromtheweb.page2670–2676,2007.Citedby:1139.
[3]FeiWuandDanielS.Weld.Openinformationextractionusingwikipedia.InJanHajic,SandraCarberry,andStephenClark,editors,ACL2010,Proceedingsofthe48thAnnualMeetingoftheAssociationforComputationalLinguistics,July11-16,2010,Uppsala,Sweden,pages118–127.TheAssociationforComputerLinguistics,2010.
[4]StefanSchoenmackers,OrenEtzioni,DanielS.Weld,andJesseDavis.Learningfirst-orderhornclausesfromwebtext.page1088–1098,2010.Citedby:147.
[5]NielsLandwehr,KristianKersting,andLucDeRaedt.Integratingnavebayesandfoil.JournalofMachineLearningResearch,8:481–507,2007.Citedby:53.
[6]NielsLandwehr,AndreaPasserini,LucDeRaedt,andPaoloFrasconi.Fastlearningofrelationalkernels.Mach.Learn.,78(3):305–342,2010.
[7]NdapandulaNakashole,MauroSozio,FabianSuchanek,andMartinTheobald.Query-timereasoninginuncertainrdfknowledgebaseswithsoftandhardrules.volume884,page15–20,2012.Citedby:7.
[8]ZhichunWangandJuanziLi.Rdf2rules:Learningrulesfromrdfknowledgebasesbyminingfrequentpredicatecycles,2015.
[9]MeghynBienvenu,CamilleBourgaux,andFranoisGoasdoué.Computingandexplainingqueryanswersoverinconsistentdl-liteknowledgebases.J.Artif.Intell.Res.,64:563–644,2019.
[10]HeikoPaulheimandChristianBizer.Improvingthequalityoflinkeddatausingstatisticaldistributions.Int.J.SemanticWebInf.Syst.,10(2):63–86,2014.
[11]WilliamYangWang,KathrynMazaitis,andWilliamW.Cohen.Programmingwithpersonalizedpagerank:alocallygroundablefirst-orderprobabilisticlogic.
InQiHe,ArunIyengar,WolfgangNejdl,JianPei,andRajeevRastogi,editors,22ndACMInternationalConferenceonInformationandKnowledgeManagement,CIKM’13,SanFrancisco,CA,USA,October27-November1,2013,pages2129–2138.ACM,2013.
[12]NiLaoandWilliamW.Cohen.Relationalretrievalusingacombinationofpathconstrainedrandomwalks.Mach.Learn.,81(1):53–67,2010.
[13]NiLao,TomM.Mitchell,andWilliamW.Cohen.RandomwalkinferenceandlearninginAlargescaleknowledgebase.InProceedingsofthe2011ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,EMNLP2011,27-31July2011,JohnMcIntyreConferenceCentre,Edinburgh,UK,AmeetingofSIGDAT,aSpecialInterestGroupoftheACL,pages529–539.ACL,2011.
[14]MattGardnerandTomMitchell.Efficientandexpressiveknowledgebasecompletionusingsubgraphfeatureextraction.InProceedingsofthe2015ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,pages1488–1498,Lisbon,Portugal,September2015.AssociationforComputationalLinguistics.
[15]QuanWang,JingLiu,YuanfeiLuo,BinWang,andChin-YewLin.Knowledgebasecompletionviacoupledpathranking.InProceedingsofthe54thAnnualMeetingoftheAssociationforComputationalLinguistics(Volume1:LongPapers),pages1308–1318,Berlin,Germany,August2016.AssociationforComputationalLinguistics.
[16]MaximilianNickel,VolkerTresp,andHans-PeterKriegel.Athree-waymodelforcollectivelearningonmulti-relationaldata.InLiseGetoorandTobiasScheffer,editors,Proceedingsofthe28thInternationalConferenceonMachineLearning,ICML2011,Bellevue,Washington,USA,June28-July2,2011,pages809–816.Omnipress,2011.
[17]BishanYang,Wen-tauYih,XiaodongHe,JianfengGao,andLiDeng.Embeddingentitiesandrelationsforlearningandinferenceinknowledgebases.InYoshuaBengioandYannLeCun,editors,3rdInternationalConferenceonLearningRepresentations,ICLR2015,SanDiego,CA,USA,May7-9,2015,ConferenceTrackProceedings,2015.
[18]TomásMikolov,IlyaSutskever,KaiChen,GregoryS.Corrado,andJeffreyDean.Distributedrepresentationsofwordsandphrasesandtheircompositionality.InChristopherJ.C.Burges,LéonBottou,ZoubinGhahramani,andKilianQ.Weinberger,editors,AdvancesinNeuralInformationProcessingSystems26:27thAnnualConferenceonNeuralInformationProcessingSystems2013.ProceedingsofameetingheldDecember5-8,2013,LakeTahoe,Nevada,UnitedStates,pages3111–3119,2013.
[19]AntoineBordes,NicolasUsunier,AlbertoGarcía-Durán,JasonWeston,andOksanaYakhnenko.Translatingembeddingsformodelingmulti-relationaldata.InChristopherJ.C.Burges,LéonBottou,ZoubinGhahramani,andKilianQ.Weinberger,editors,AdvancesinNeuralInformationProcessingSystems26:27thAnnualConferenceonNeuralInformationProcessingSystems2013.ProceedingsofameetingheldDecember5-8,2013,LakeTahoe,Nevada,UnitedStates,pages2787–2795,2013.
[20]ZhenWang,JianwenZhang,JianlinFeng,andZhengChen.Knowledgegraphembeddingbytranslatingonhyperplanes.InCarlaE.BrodleyandPeterStone,editors,ProceedingsoftheTwenty-EighthAAAIConferenceonArtificialIntelligence,July27-31,2014,QuébecCity,Québec,Canada,pages1112–1119.AAAIPress,2014.
[21]YankaiLin,ZhiyuanLiu,Huan-BoLuan,MaosongSun,SiweiRao,andSongLiu.Modelingrelationpathsforrepresentationlearningofknowledgebases.InLluísMàrquez,ChrisCallison-Burch,JianSu,DanielePighin,andYuvalMarton,editors,Proceedingsofthe2015ConferenceonEmpiricalMethodsinNaturalLanguageProcessing,EMNLP2015,Lisbon,Portugal,September17-21,2015,pages705–714.TheAssociationforComputationalLinguistics,2015.
[22]ArvindNeelakantan,BenjaminRoth,andAndrewMcCallum.Compositionalvectorspacemodelsforknowledgebaseinference.In2015AAAISpringSymposia,StanfordUniversity,PaloAlto,California,USA,March22-25,2015.AAAIPress,2015.
[23]ZikangWang,LinjingLi,DanielDajunZeng,andYueChen.Attention-basedmulti-hopreasoningforknowledgegraph.In2018IEEEInternationalConferenceonIntelligenceandSecurityInformatics,ISI2018,Miami,FL,USA,November9-11,2018,pages211–213.IEEE,2018.
[24]BaoxuShiandTimWeninger.Proje:Embeddingprojectionforknowledgegraphcompletion.InSatinderSinghandShaulMarkovitch,editors,ProceedingsoftheThirty-FirstAAAIConferenceonArtificialIntelligence,February4-9,2017,SanFrancisco,California,USA,pages1236–1242.AAAIPress,2017.
[25]YiTay,AnhTuanLuu,MinhC.Phan,andSiuCheungHui.Multi-taskneuralnetworkfornon-discreteattributepredictioninknowledgegraphs.CoRR,abs/1708.04828,2017.
[26]TimDettmers,PasqualeMinervini,PontusStenetorp,andSebastianRiedel.Convolutional2dknowledgegraphembeddings.CoRR,abs/1707.01476,2017.
[27]RakshitTrivedi,HanjunDai,YichenWang,andLeSong.Know-evolve:Deeptemporalreasoningfordynamicknowledgegraphs.InDoinaPrecupandYeeWhyeTeh,editors,Proceedingsofthe34thInternationalConferenceonMachineLearning,ICML2017,Sydney,NSW,Australia,6-11August2017,volume70ofProceedingsofMachineLearningResearch,pages3462–3471.PMLR,2017.
[28]RakshitTrivedi,MehrdadFarajtabar,PrasenjeetBiswal,andHongyuanZha.Dyrep:Learningrepresentationsoverdynamicgraphs.In7thInternationalConferenceonLearningRepresentations,ICLR2019,NewOrleans,LA,USA,May6-9,2019.OpenReview.net,2019.
[29]ZixuanLi,XiaolongJin,WeiLi,SaipingGuan,JiafengGuo,HuaweiShen,YuanzhuoWang,andXueqiCheng.Temporalknowledgegraphreasoningbasedonevolutionalrepresentationlearning.CoRR,abs/2104.10353,2021.
[30]袁凯琦邓扬陈道源张冰雷凯.医学知识图谱构建技术与研究进展.计算机应用研究,35:1929–1936,2018.