知识图谱构建流程详解

知识图谱是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过将数据粒度从document级别降到data级别,聚合大量知识,从而实现知识的快速响应和推理。

当下知识图谱的应用主要分为用于构建结构化的百科知识的“通用知识图谱”和基于行业数据构建和应用的“领域知识图谱”。

在AI与行业结合应用中,因行业领域的差异,存在大量数据模式不同,应用需求不同等现实,“领域知识图谱”以其更加符合实际应用需求的特性在工业领域得到了广泛应用。其中最为熟知的有Google搜索、百度搜索、天眼查企业图谱等。

据此【华来知识】将在本篇针对“领域知识图谱”所采用的自底向上知识图谱的构建技术进行全面的介绍。

自底向上(Bottom-UP)的方法,即首先对实体进行归纳组织,形成底层概念,再逐步向上抽象,形成上层概念。该方法可基于行业现有标准转换成数据可模式,也可基于高质量行业数据源映射生成。

领域知识图谱的构建流程主要包括6个环节:知识建模、知识存储、知识抽取、知识融合、知识计算以及知识应用。

知识图谱的基本单位,是“实体(Entity)-关系(Relationship)-实体(Entity)”构成的三元组,这也是知识图谱的核心。

如图所示,若两个节点之间存在关系,他们就会被一条无向边连接在一起,那么这个节点,我们就称为实体(Entity),它们之间的这条边,我们就称为关系(Relationship)。

在逻辑上,我们通常将知识图谱划分为两个层次:数据层和模式层。

·数据层:存储真实的数据。如C罗-足球运动员-皇家马德里;C罗-金靴奖-世界杯。

·模式层:在数据层之上,是知识图谱的核心,存储经过提炼的知识,通常通过本体库来管理。即实体-关系-实体,实体-属性-性值。

在了解了知识图谱的基本概念后,知识图谱的整体架构就不难理解了。如下图所示,其中虚线框内的部分为知识图谱的构建过程,同时也是知识建立和更新的主要流程。

首先是原始数据处理,数据源可能是结构化的、非结构化的以及半结构化的,然后通过一系列自动化或半自动化的技术手段,来从原始数据中提取出知识要素,即一堆实体关系,并将其存入我们的知识库的模式层和数据层。

构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含:知识储存、信息抽取、知识融合、知识计算,四个阶段。

1、知识存储:针对构建知识图谱设计底层的存储方式,完成各类知识的存储,包括基本属性知识、关联知识、事件知识、时序知识、资源类知识等。存储方式的忧虑将直接导致查询效率和应用效果。

2、信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达。

3、知识融合:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;

4、知识计算:对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。

知识建模就是基于行业的应用属性、知识特点、实际需求,依据知识图谱的模式进行业务抽象和业务建模,主要是实体定义、关系定义、属性定义。

为保证知识图谱质量,通常在建模时需考虑如下几个关键问题:

1、概念划分的合理性,如何描述知识体系和知识点之间的关联关系;

2、属性定义方式,如何在冗余度最低的条件下满足应用和可视化展示;

4、后续的知识扩展难度,是否支持概念体系的变更和属性调整?

知识图谱的原始数据类型一般来说有三类:

·结构化数据(StructedData),如关系数据库

·非结构化数据,如图片、音频、视频

·半结构化数据,如XML、JSON、百科

目前,主流的的知识存储解决方案包含单一式和混合式存储两种。其存储方式一般有两种选择,一个是通过RDF(资源描述框架)这样的规范存储格式来进行存储,比较常用的有Jena等。

还有一种方法,就是使用图数据库来进行存储,常用的如Neo4j等。

相较而言图数据库在关联查询的效率上会比传统的关系数据存储方式有显著的提高。当我们涉及到2,3度的关联查询,基于知识图谱的查询效率会高出几千倍甚至几百万倍。

除此之外,基于图的存储在设计上会非常灵活,一般只需要局部的改动即可。因此对大数据量的情况,更应用图数据库来进行存储的。

信息抽取(infromationextraction)信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。关键技术包括:实体抽取、关系抽取和属性抽取。

1、实体抽取,也称为命名实体识别(namedentityrecognition,NER),是指从文本数据集中自动识别出命名实体。

当前主流技术为面向开放域(opendomain)的实体抽取。

3、属性抽取,目标是从不同信息源中采集特定实体的属性信息,如针对某个公众人物,可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系模式,据此实现对属性名和属性值在文本中的定位。

通过信息抽取,实现从原始数据中获取到了实体、关系以及实体的属性信息后,就需要通过知识融合对数据进行逻辑归属和冗杂/错误过滤。即需要实体链接和知识合并两个流程实现。

1、对非结构化/半结构化数据处理:实体链接(entitylinking)的流程是通过给定的实体指称项,通过相似度计算进行实体消歧和共指消解,确认正确实体对象后,再将该实体指称项链接到知识库中对应实体。其中实体消歧解决同名实体产生歧义问题,共指消解解决多个指称对应同一实体对象的问题。

2、对结构化数据处理:知识合并主要涉及“合并外部知识库”,处理数据层和模式层的冲突;以及用RDB2RDF等方法“合并关系数据库”

在通过信息抽取,和知识融合后已经实现从原始杂乱数据中获得到一系列基本的事实表达。之后一步就是通过知识计算获得结构化,网络化的知识体系以及更新机制。其主要包括4方面内容:本体构建、知识推理、质量评估和知识更新。

1、本体构建:即通过实体并列关系相似度计算、实体上下位关系抽取、本体的生成,完成自动化的本体构建,实现将数据归类成人工的概念集合/概念框架,如“人”、“事”、“物”等。

2、知识推理:通过基于逻辑的推理、基于图的推理和基于深度学习的推理,处理知识图谱之间关系值缺失,完成进一步的知识发现。

3、质量评估:可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量。

4、知识更新:在知识图谱实际应用后,将有大量数据涌入和更新,因此知识的更新流程是必须搭建的。更新包括概念层的更新和数据层的更新。

概念层的更新是指新增数据后获得了新的概念,需要自动将新的概念添加到知识库的概念层中。数据层的更新主要是新增或更新实体、关系、属性值,对数据层进行更新需要考虑数据源的可靠性、数据的一致性(是否存在矛盾或冗杂等问题)等可靠数据源,并选择在各数据源中高频出现的事实和属性加入知识库。

至此经过上述流程的处理,知识图谱的初始化已经构建成功了。

经过上述5个环节,专项领域的知识图谱已经构建完成,在其具备的特有应用形态,与领域数据和业务场景相结合后,将实际助力企业在该领域取得实际的商业价值。现今知识图谱在很多行业中都有了成功的应用。例如:

-信息检索:搜索引擎中对实体信息的精准聚合和匹配、对关键词的理解以及对搜索意图的语义分析等;

-自然语言理解:知识图谱中的知识作为理解自然语言中实体和关系的背景信息;

-问答系统:匹配问答模式和知识图谱中知识子图之间的映射;

-推荐系统:将知识图谱作为一种辅助信息集成到推荐系统中以提供更加精准的推荐选项;

-电子商务:构建商品知识图谱来精准地匹配用户的购买意愿和商品候选集合;

-金融风控:利用实体之间的关系来分析金融活动的风险以提供在风险触发后的补救措施(如联系人等);

-公安刑侦:分析实体和实体之间的关系以获得线索等;

-司法辅助:法律条文的结构化表示和查询来辅助案件的判决等;

-教育医疗:提供可视化的知识表示,用于药物分析、疾病诊断等;

......

事实上,知识图谱的应用远不止于此。这个世界就是一张巨大的知识图谱,是无数个实体关系对,在未来工业界对图数据库、知识图谱将展现出巨大需求和应用契机!

THE END
1.数据挖掘概念(AnalysisServices生成挖掘模型是大型过程的一部分,此过程包括从提出相关数据问题并创建模型以解答这些问题到将模型部署到工作环境的所有事情。此过程可以使用下列六个基本步骤进行定义: 定义问题 准备数据 浏览数据 生成模型 浏览和验证模型 部署和更新模型 以下关系图说明过程中每个步骤之间的关系,以及 Microsoft SQL Server 中可用于完成https://technet.microsoft.com/zh-cn/library/ms174949(en-us,sql.105).aspx
2.数据挖掘主要步骤图数据挖掘六大基本步骤数据挖掘主要步骤图 数据挖掘六大基本步骤 当拿到一份处理好的数据时,我们首先应该做的是什么呢?是直接上手编写代码构造模型?都说事半功倍,所以在进行数据挖掘之前,我们头脑中一定要是有个完整的路径,这样,我们就能回溯于每个环节去检查整个项目(构造的模型),同样也是帮我们梳理整个项目的环节,可以帮助我们在项目汇报https://blog.51cto.com/u_16099209/7874359
3.数据挖掘的基本步骤和流程解析请阐述数据挖掘的基本过程和步骤通过对数据挖掘基本步骤和流程的深入理解,有助于我们更好地挖掘数据价值。 下面用一个具体的例子更详细的解释数据挖掘流程(具体代码用python语言实现)。 在这个例子中,我们将使用一个假设的电商数据集来进行用户购买行为的预测。 1. 明确目标 我们的目标是预测用户是否会购买某种商品。这属于二分类问题。 https://blog.csdn.net/m0_67484548/article/details/142665300
4.数据挖掘的六个阶段是哪些帆软数字化转型知识库数据挖掘的六个阶段是:数据收集、数据预处理、数据转换、数据挖掘、模式评估、知识表示。其中,数据预处理是最为关键的一步。数据预处理包括数据清洗、数据集成、数据变换和数据归约。数据清洗的目的是去除噪声和处理缺失值,数据集成则是将来自多个数据源的数据整合在一起,数据变换将数据变换为适合挖掘的形式,数据归约https://www.fanruan.com/blog/article/594238/
5.什么是数据分析职业介绍生涯规划薪酬情况基本素质知识摄取的系统化流程:挖掘数据需要一套有条理的流程,这其中包括明确的步骤,以及每一步清晰可实现的目标。就好比跨行业数据挖掘标准流程(CRISP-DM)(https://en.wikipedia.org/ wiki/ Cross_Industry_Standard_Process_for_Data_Mining)。 与数据共眠:相关机构应当投资热衷于数据的专业人士。将数据转化为资源的不是https://zhuanzhi.ai/document/ba50f489f166e5f700f1800aab8dea65
6.数据分析报告(精选15篇)简单来说,数据挖掘是基于“归纳”的思路,从大量的数据中(因为是基于归纳的思路,因此数据量的大小很大程度上决定了数据挖掘结果的鲁棒性)寻找规律,为决策提供证据。从这种角度上来说,数据挖掘可能并不适合进行科学研究,因为从本质上来说,数据挖掘这个技术是不能证明因果的,以一个最典型的例子来说,例如数据挖掘技术https://www.ruiwen.com/fenxibaogao/8204699.html
7.商战数据挖掘:你需要了解的数据科学与分析思维基本概念:一系列典型数据挖掘任务;数据挖掘流程;有监督型数据挖掘与无监督型数据挖掘 数据科学的一条重要原则是,数据挖掘的流程可以分解为几个通俗易懂的环节。有些环节涉及信息技术的应用,如数据中模式的自动发现和评估,而有些则主要依赖数据分析师的创意、常识和商业知识。理解数据挖掘的整个过程,有助于组织数据挖掘https://www.ituring.com.cn/book/tupubarticle/28952
8.信息系统项目管理师重点内容汇总(第八天)结构化设计 (Structured Design,一种面向数据流的方法,它以 SRS和 SA 阶段所产生的 DFD 和数据字典等文档为基础,是一个自顶向下、逐步求精和模块化的过程。SD 方法的基本思想是将软件设计成由相对独立且具有单一功能的模块组成的结构,分为概要设计和详细设计两个阶段,其中概要设计又称为总体结构设计 https://developer.aliyun.com/article/1416724
9.多喜爱:首次公开发行股票招股意向书股票频道离职6 个月后的 12 个月内通过证券交易所挂牌交易出售公司股 票数量占其所持有公司股票总数的比例不超过 50%。 4、发行人实际控制人陈军、黄娅妮、持有发行人股份的董事张 文、赵传淼和高级管理人员张海鹰、文新承诺:所持发行人股票 在锁定期满后两年内减持的,其减持价格不低于发行价;公司上 市后6 个月内如https://stock.stockstar.com/notice/JC2015052500000032_14.shtml
10.大数据挖掘流程及方法暮光倾城根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。 二、数据挖掘流程 定义问题:清晰地定义出业务问题,确定数据挖掘的目的。 数据准备:数据准备包括:选择数据–在大型数据库和数据仓库目标中 提取数据挖掘的目标数据https://www.cnblogs.com/labixiaoxinhefengjian/p/12273049.html
11.北京化工大学人工智能导论期末复习笔记人工智能学科是进来计算机科学领域热门学科,人工智能导论作为一门导论性课程,对我们对机器学习、人工智能、数据挖掘的概念了解还是十分有好处的。 虽然平时这门课没上几节,最后考试也不难,遂把期末复习的笔记整理发布出来,一方面可能有以后的学弟学妹可能有帮助,二来也是做一个小小的记录。 https://www.ihewro.com/archives/798/
12.广西日报广西云招人啦!30个岗位!待遇福利不错的哦~2.热爱摄影摄像、熟悉电视制作流程; 3.有较高的影视摄像和审美情趣; 4.善于创新、吃苦耐劳; 5.对摄影摄像有强烈的喜好,对新设备,新技术有强烈的探知欲望。能熟练掌握广播级专业级摄像机和照相机、航拍机的使用,熟悉各类拍摄辅助器材; 6.身高170cm以上,头脑活跃,思维清晰,有良好的团队协作能力与执行力。身体健康https://www.thepaper.cn/newsDetail_forward_13118370
13.大数据之Spark在大数据实际应用开发中存在许多迭代算法,如机器学习、图算法等,和交互式数据挖掘工具。这些应用场景的共同之处是在不同计算阶段之间会重用中间结果,即一个阶段的输出结果会作为下一个阶段的输入。 RDD 正是为了满足这种需求而设计的。虽然 MapReduce 具有自动容错、负载平衡和可拓展性的优点,但是其最大的缺点是采用https://www.jianshu.com/p/7e143a2294b8
14.苏宇:数字时代的技术性正当程序:理论检视与制度构建例如,《贵阳市政府数据资源管理办法》(2020)第22条规定:“行政机关应当对本机关提供和获取的政府数据建立日志记录,日志记录保存时间不得少于6个月,确保数据使用过程可追溯。”明确要求外部行政程序留存记录的制度规范虽不常见,但此类制度的雏形已经形成。例如,无锡市行政审批局印发的《电子行政许可案卷管理办法(试行)》http://fzzfyjy.cupl.edu.cn/info/1035/15241.htm
15.行业实习报告(精选12篇)1、培养从事经纪中介工作的业务能力。了解并熟悉保险代理人的日常业务和工作流程,学会进行工作。 2、理论联系实际,学会运用所学的基础理论。基本知识和基本技能去解决经纪中介实践中的具体问题。 3、虚心学习,全面提高综合素质。在实习中拜广大工作人员为师,虚心学习他们的好品质。好作风和好的工作方式,提高自己的综合素https://www.unjs.com/fanwenku/134670.html
16.苏宇:数字时代的技术性正当程序:理论检视与制度构建技术性正当程序理论的基本主张蕴含了多元的法律价值。该理论的形成源于这样一个基本判断:自动化行政有可能“使参与者丧失理解行政过程的能力”,弱化行政行为的可问责性,因而有必要着力恢复自动化系统的可问责性和透明度。42技术性正当程序为保障自动化行政的程序公正提供了丰富的建设性意见。在这一系列理论主张中,始终贯https://www.legal-theory.org/?mod=info&act=view&id=27510
17.什么是实证研究?本文主要包括实证研究方法概述、实证研究的基本流程、实证设计的基本方法与原则、实证设计成功的关键要素、实证研究的优势与局限等五部分内容。 1.实证研究方法概述 实证研究(Empirical Research)方法是一种与规范研究(Normative Research)方法相对应的方法,它是基于观察和试验取得的大量事实、数据,利用统计推断的理论和技术https://www.jxrtvu.com/xbbjb2023/2023/0508/c3981a35480/page.htm
18.华中科技大学推免政策4、英语水平良好,国家英语六级考试成绩达到425分及以上;或通过全国高校英语专业八级考试;或TOEFL成绩达到90分及以上;或IELTS成绩达到6分及以上;或GRE成绩达到300分及以上;或GMAT成绩达到650分及以上。 三、报名流程及招收办法 (一)网上报名(报名时间即日起至7月4日,请尽量避开最后两天,以免系统报名不成功):进入“华http://www.okaoyan.com/baoyanxialingying/450138_16.html
19.知识图谱:知识图谱的典型应用4.6.知识挖掘 a.实体消歧b.实体链接c.类型推断 d.知识表示学习 4.7知识抽取上机实践 A.面向半结构化数据的三国演义知识抽取 B.面向文本的三国演义知识抽取 C.人物关系抽取 五、知识融合 5.1知识融合背景 5.2知识异构原因分析 5.3知识融合解决方案分析 5.4.本体对齐基本流程和常用方法 https://www.elecfans.com/d/1906523.html