知识图谱相关的基本概念sqsq

1)知识图谱本身是一个具有属性的实体通过关系链接而成的网状知识库。从图的角度来看,知识图谱在本质上是一种概念网络,其中的节点表示物理世界的实体(或概念),而实体间的各种语义关系则构成网络中的边。由此,知识图谱是对物理世界的一种符号表达。

2)知识图谱的研究价值在于,它是构建在当前Web基础之上的一层覆盖网络,借助知识图谱,能够在Web网页之上建立概念间的链接关系,从而以最小的代价将互联网中积累的信息组织起来,称为可以被利用的知识

3)知识图谱的应用价值在于,它能够改变现有的信息检索方式,一方面通过推理实现概念检索(相对于现有的字符串模糊匹配方式而言);另一方面以图形化方式向用户展示经过分类整理的结构化知识,从而使人们从人工过滤网页寻找答案的模式中解脱出来

知识图谱的架构

知识图谱的架构,包括知识图谱自身的逻辑结构以及构建知识图谱所采用的技术架构。

首先介绍知识图谱的逻辑结构,从逻辑上将知识图谱划分为2个层次:数据层和模式层。在知识图谱的数据层,知识以事实为单位存储在图数据库。例如谷歌的Graphd和微软的Trinity都是典型的图数据库。如果以“实体-关系-实体”或者“实体-属性-性值”三元组作为事实的基本表达方式,则存储在图数据库中的所有数据将构成庞大的实体关系网络,形成知识的“图谱”。

模式层在数据层之上,是知识图谱的核心。在模式层存储的是经过提炼的知识,通常采用本体库来管理知识图谱的模式层,借助本体库对公理,规则和约束条件的支持能力来规范实体,关系以及实体的类型和属性等对象之间的联系。

知识图谱的一般技术架构。下图给出了知识图谱技术的整体架构,其中虚线框内的部分为知识图谱的构建过程,同时也是知识图谱更新的过程。知识图谱的构建过程是从原始数据触发,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素(即事实),并将其存入知识库的数据层和模式层的过程。这是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含3个阶段:信息抽取,知识融合以及知识加工。

知识图谱有自顶向下和自底向上2中构建方式,所谓自顶向下构建是借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库中;所谓自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核之后,加入到知识库中。

2.知识图谱的构建技术

采用自底向上的方式构建知识图谱的过程是一个迭代更新的过程,每一轮更新包括3个步骤:1)信息抽取,即从各种类型的数据源中抽取出实体(概念),属性以及实体间的相互关系,在此基础上形成本体话的知识表达;2)知识融合,在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等3;)知识加工,对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量,新增数据之后,可以进行知识推理,拓展现有知识,得到新知识。

信息抽取

信息抽取是知识图谱构建的第1步,其中的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元。信息抽取是一种自动化地从半结构化和无结构数据中抽取实体,关系以及实体属性等结构化信息的技术,涉及的关键技术包括:实体抽取,关系抽取和属性抽取。

2.1.1实体抽取

实体抽取,也称为命名实体识别(NER),是指从文本数据集中自动识别出命名实体。实体抽取的质量(准确率和召回率)对后续的知识获取效率和质量影响极大,因此是信息抽取中最为基础和关键的部分。实体抽取的方法归纳为3种:(1)基于规则与词典的方法,通常需要为目标实体编写规则,然后在原始语料中进行匹配。(2)基于统计机器学习的方法。主要利用数据来对模型进行训练,然后再利用训练好的模型去识别实体。(3)面对开放域的抽取方法

关系抽取

通过实体抽取获取的实体之间往往是离散且无关联的,通过关系抽取,可以建立起实体间的语义链接。关系抽取技术主要分为3种:(1)基于模板的关系抽取(2)基于监督学习的关系抽取(3)基于半监督或无监督学习的关系抽取

属性抽取

属性抽取的目标是从不同信息源中采集特定实体的属性信息。

知识融合

通过信息抽取,实现了从非结构化和半结构化数据中获取实体,关系以及实体属性信息的目标,然而,这些结果中可能包含大量的冗余和错误信息,数据之间的关系也是扁平化的,缺乏层次性和逻辑性,因此有必要对其进行清理和整合。知识融合包括2部分内容:实体链接和知识融合。通过知识融合,可以消除概念的歧义,剔除冗余和错误概念,从而确保知识的质量。

实体链接

指从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。

一般流程:1)从文本中通过实体抽取得到实体指称项;2)进行实体消歧和共指消解,判断知识库中的同名实体与之表示相同的含义;3)在确认知识库中对应的正确实体对象之后,将该实体指称项链链接到知识库中对应实体。

1)实体消歧

实体消歧是专门用于解决同名实体产生歧义问题的技术。实体消歧主要采用聚类法。聚类法是指以实体对象为聚类中心,将所有指向同一目标实体对象的指称项聚集到以该对象为中心的类别下。聚类法消歧的关键问题是如何定义实体对象与指称项之间的相似度,常用方法有4种。

2)共指消解(实体对齐)

共指消解技术主要用于解决多个指称项对应于同一实体对象的问题。在学术界对该问题有多种不同的表述,典型的包括:对象对齐,实体匹配以及实体同义,实体对齐。

3)知识合并

冲突消解目前的研究方向是利用图谱本身存在的特征,Trisedya等利用属性元组生成属性特征嵌入向量,利用成分函数来表示属性。将多个属性值都转化为单一向量,并将相似的属性映射为相似的向量表示。利用这些属性特征嵌入向量将两个图谱中的实体嵌入转换到同一空间中,计算实体的相似性。

知识加工

通过信息抽取,可以从原始预料中提取出实体,关系与属性等知识要素,再经过知识融合,可以消除实体指称项与实体对象之间的歧义,得到一系列基本的事实表达。然而,事实本身并不等于知识,要想最终获得结构化,网络化的知识体系,还需要经历知识加工的过程。知识加工主要包括3个方面内容:本体构建,知识推理和质量评估。

本体构建

本体是对概念进行建模的规范,是描述客观世界的抽象模型,以形式化方式对概念及其之间的联系给出明确定义。本体的最大特点在于它是共享的,本体中反映的知识是一种明确定义的共识。本体是同一领域内的不同主体之间进行交流的语义基础。本体是树状结构,相邻层次的节点(概念)之间具有严格的“IsA”关系,这种单纯的关系有助于知识推理,但却不利于表达概念的多样性。在知识图谱中,本体位于模式层,用于描述概念层次体系是知识库中知识的概念模版。本体可以采用人工编辑的方式手动构建(借助本体编辑软件),也可以采用计算机辅助,以数据驱动的方式自动构建,然后采用算法评估和人工审核相结合的方式加以修正和确认。

数据驱动的自动化本体构建过程包含3个阶段:实体并列关系相似度计算,实体上下位关系抽取以及本体的生成。1)实体并列关系相似度是用于考察任意给定的2个实体在多大程度上属于同一概念分类的指标测度,相似度越高,表明这2个实体越有可能属于同一语义类别。所谓并列关系,是相对于纵向的概念隶属关系而言的。2)实体上下位挂席抽取是用于确定概念之间的隶属(IsA)关系,这中关系也称为上下位关系。3)本体生成阶段的主要任务是对各层次得到的概念进行聚类,并对其进行语义类的标定。

知识推理

知识推理是指从知识库中已有的实体关系数据出发,经过计算机推理,建立实体间的新关联,从而拓展和丰富知识网络。针对知识图谱数据量大,关系复杂的特点,提出了面对大规模知识图谱的知识推理方法,并归纳为以下4类:(1)基于图结构和统计规则挖掘的推理(2)基于知识图谱表示学习的推理(3)基于神经网络的推理(4)混合推理

基于图结构和统计规则挖掘的推理

基于知识图谱表示学习的推理

表示模型将知识图谱中相应的实体和关系用向量,矩阵或者张量的形式表示,表示后进行运算完成知识推理任务。

(1)基于距离的推理模型

Bordes等提出了TransE模型,将所有的实体和关系表示为同一空间下的向量,假设事实元组中头实体向量和关系向量之和应该约等于尾实体的向量。通过随机替换事实元组中的某一项来构建负例。计算元组中头向量和关系向量的和向量与尾向量的距离作为候选实体的得分。尽管TransE模型简单且有效,但其仍然具有许多缺陷,因而衍生出很多基于该模型的方法。Wang等提出TransH模型,每一个关系都有一个特定的超平面,头实体向量和尾实体向量投影至特定的关系超平面计算事实元组得分。Lin等提出TransR模型,针对特定关系引入了空间,Xiao等提出了ManifoldE模型,引入了特定关系参数,尾实体向量有效范围是以头实体向量和关系实体向量的和向量为中心,以特定关系参数为半径的一个超球面。Feng等提出的TransF模型和ManifoldE模型有着相似的思路,放宽了TransE中对实体关系向量的要求,仅需要头实体向量位于尾实体向量和负的关系向量的和向量的方向上,同时尾实体向量也位于头实体向量和关系向量的和向量的方向上。

2)基于语义匹配的推理模型

Nickel等特出的的RESCAL模型将实体和向量联系起来,从而捕捉其中隐含的语义,潜在因子间的相互作用建模后得到关系表示矩阵,计算实体向量与关系矩阵的乘积来得到元组得分。Yang等提出DistMult模型,每一个关系都表示为向量,再将向量转换为对角矩阵,通过计算头尾实体向量与关系对角矩阵的乘积得到元组的得分。Trouillon等提出Complex模型,引入复数嵌入针对不对称关系建模。在Complex模型中,实体和关系都由复平面中的向量表示,计算头实体向量和根据关系向量建立的对角矩阵以及尾实体向量的共轭这三者的乘积,结果的实部作为元组的得分。Liu等提出ANALOGY模型,利用实体和关系的类比性质来建模,实体由嵌入空间中的向量表示,将关系矩阵处理得到一系列稀疏的对角矩阵,减少了关系矩阵的参数,将头尾实体向量与关系矩阵的积作为元组得分。

3)基于神经网络的推理

基于神经网络的推理方法将知识图谱中事实元组表示为向量形式送入神经网络中,通过训练神经网络不断提高事实元组的得分,最终通过输出得分选择候选实体完成推理。Socher等提出适应于实体间关系推理的神经张量网络模型,用双线性张量层取代神经网络层,实现通过连续的词向量平均表示进而提升模型的表示。

Dettmers等针对知识图谱中大规模与过拟合的问题,设计了参数简洁且计算高效的二维卷积神经网络(ConvE)模型。Vashishth等基于特征排列,新的特征变形以及循环卷积提出InteractE模型。InteractE模型通过使用多种排列输入,更简单的特征变形方法以及循环卷积来取得比ConvE更显著的效果。

4)混合推理

考虑多种方法的优势来提升推理效果,进而提出了混合推理方法。Guo等提出学习规则增强关系来补全知识图谱的方法,使用规则来进一步改善传统关系学习得到的推理结果,提升知识推理的准确性。Xie等提出一种利用实体描述的知识表示学习的方法,使用了连续词袋模型和深度卷积模型来编码实体的描述语义。之后进一步学习通过三元组和三元组中的实体的描述来学习表示知识。并利用学习到的知识来完成知识推理任务。Wang提出规则嵌入神经网络(ReNN)。ReNN基于局部的推理检测局部模式,由局部模式领域知识的规则来生成规则调制映射。针对规则引起的优化问题,采用两阶段优化策略。引入规则解决了传统神经网络必须受限于数据集的问题,从而提升了推理的准确率。

5)质量评估

质量评估也是知识库构建技术的重要组成部分。

知识更新性能

从逻辑上看,知识库的更新包括概念层的更新和数据层的更新。

THE END
1.知识图谱的表示方式有哪些种类知识图谱,英文为 Knowledge Graph,是指把各类概念、实体和关系通过数学模型构建成的网络。知识图谱的表示方式主要有两种:一种是知识图谱本体(Ontology),一种是关系表示。 在知识图谱中,本体(Ontology)是指对客观世界中实体的定义,其将各种事物抽象成一种共同的特性,这些特性能够用于描述概念之间的关系;关系表示(Relationhttps://www.yueshu.com.cn/posts/Knowledge%20-Graph-Ontology
2.图谱的基石:理解本体和数据模型知识图谱中的本体概念本体(Ontology)在计算机科学和信息科学中,尤其是在知识图谱领域,扮演着重要的角色。它提供了一种形式化的描述知识领域的方法,由一组表示概念、概念之间关系以及规则的集合组成。在知识图谱中,本体用于定义和分类数据的结构,为数据之间的语义关系提供了一个共有的框架。这种结构化和语义化的表达方式不仅增强了数据的可理https://blog.csdn.net/fanjianglin/article/details/137345379
3.知识图谱初步学习(一)——本体+Protege新手学习在开始学习知识图谱的过程中,首先就是要了解什么是本体(ontology)。 1.本体概念 本体的概念最初源自于哲学领域,在哲学中的定义为“对世界上客观事物的系统描述,即存在论”。哲学中的本体关心的是客观现实的抽象本质。而在计算机领域,本体是可以在语义的层次上来对知识进行描述,可以看做是某一个领域知识的通用模型。https://www.kuazhi.com/post/179679.html
4.基础知识服务介绍在知识图谱服务中,需要通过输入实体类型、抽取函数及抽取前后的数据字段,或创建信息抽取模型来配置信息抽取。 知识映射 知识映射是建立从基础数据抽取出的结构化信息与知识图谱本体的映射关系,例如抽取出的有关电影结构化信息与图谱本体映射关系如图2所示。 图2实体电影的知识映射关系 https://support.developer.huaweicloud.com/doc/development/AI-Guides/zh-cn_topic_0000001400921230-0000001400921230
5.知识图谱:构建与应用的深度探索知识图谱作为一种新型的知识表示和推理工具,可以帮助我们更好地组织和利用知识,因此受到广泛欢迎。本文将详细介绍知识图谱的构建流程,包括本体构建、知识抽取、知识表示和知识存储等关键步骤,并探讨如何将这些技术应用于实际问题中。一、本体构建本体是知识图谱的核心组成部分,它定义了领域内实体和实体之间的关系。在构建https://developer.baidu.com/article/detail.html?id=2866687
6.知识图谱的主要组成部分是什么?本体是一种对实体、属性和关系进行分类和定义的方法。本体通常包括一个分类层次结构,用于描述实体之间的层次关系和相互关系。本体还可以定义实体的属性和关系的约束条件,从而提高知识图谱的准确性和可靠性。 语义(Semantics) 语义是指实体、属性和关系的含义和语义。知识图谱中的语义可以通过本体来定义和描述,从而提高知识https://cloud.tencent.com/developer/techpedia/1765/12279
7.本体知识图谱本体就是对那些可能相对于某一智能体(agent)或智能体群体而存在的概念和关系的一种描述。 ——汤姆·格鲁伯——《迈向知识共享型本体的设计原则》。 本体从schema的角度来定义(自上向下),而知识图谱其实更强调的是数据层(自底向上)来构建。对于领域或垂直行业的知识图谱,一般都需要有本体层。而实https://maimai.cn/article/detail?fid=1511796444&efid=Qt5bP6R6brUaUDz1pXgeLQ
8.知识图谱构建(概念,工具,实例调研)AIGCStudio的技术博客知识图谱的构建方法主要有两种:自底向上和自顶而下。 1.开放域知识图谱的本体构建通常用自底向上的方法,自动地从知识图谱中抽取概念、概念层次和概念之间的关系。 2.领域知识图谱多采用自顶向下的方法来构建本体。一方面,相对于开放域知识图谱,领域知识图谱涉及的概念和范围都是固定或者可控的;另一方面,对于领域知识https://blog.51cto.com/u_16658015/10285476
9.2知识图谱体系架构其中,本体层由实体类型和其属性、 实体类型间关系类型、规则等本体相关知识元素构成;实例层是对本体层的实例化,由实体类型对应 的实体及其属性以及实体间关系等实体相关知识元素构成。 上图中知识图谱概念模式的主体是实体。实体是真实对象的抽象,实体类型是某类实体的进一 步抽象。基于不同层次的抽象,图中的本体层https://www.jianshu.com/p/64124219e725
10.知识图谱入门——认识知识图谱1.什么是知识图谱 1.1知识图谱的概念 知识图谱(Knowledge Graph)是人工智能的重要分支技术,它在2012年由谷歌提出,是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关属性—值对,实体间通过关系相互联结,构成网状的知识结构。 “图”的https://www.wejoysoft.com/m/news.aspx?id=3158
11.知识图谱人工智能之知识图谱的详细介绍数据收集:知识图谱的构建需要大量的数据作为支撑,这些数据可以来自于各种来源,如文本、图像、视频等。 实体识别:实体识别是知识图谱构建的关键步骤之一,旨在从文本中识别出具有特定意义的实体,如人名、地名、组织名等。这通常依赖于命名实体识别(NER)技术。 https://developer.aliyun.com/article/1588767