从零开始构建一个百科知识图谱,完成语义搜索和智能问答
个人入门知识图谱过程中的学习笔记,算是半教程类的,指引初学者对知识图谱的各个任务有一个初步的认识。目前暂无新增计划。
目标是包含百度百科、互动百科、中文wiki百科的知识,千万级实体数量和亿级别的关系数目。目前已完成百度百科和互动百科部分,其中百度百科词条4,190,390条,互动百科词条4,382,575条。转换为RDF格式得到三元组128,596,018个。存入neo4j中得到节点16,498,370个,关系56,371,456个,属性61,967,517个。
码源:点击跳转
半结构化数据从百度百科和互动百科获取,采用scrapy框架,目前电影领域和通用领域两类。
详细介绍请见从零开始构建知识图谱(五)Deepdive抽取演员-电影间关系
利用自己的百科类图谱,构建远程监督数据集,并在OpenNRE上运行。最终生成的数据集包含关系事实18226,无关系(NA)实体对336693,总计实体对354919,用到了462个关系(包含NA)。
详细介绍请见从零开始构建知识图谱(九)百科知识图谱构建(三)神经网络关系抽取的数据集构建与实践
结构化数据到RDF由两种主要方式,一个是通过directmapping,另一个通过R2RML语言这种,基于R2RML语言的方式更为灵活,定制性强。对于R2RML有一些好用的工具,此处我们使用d2rq工具,它基于R2RML-KIT。
详细介绍请见从零开始构建知识图谱(二)数据库到RDF及Jena的访问
图数据库是基于图论实现的一种新型NoSQL数据库。它的数据数据存储结构和数据的查询方式都是以图论为基础的。图论中图的节本元素为节点和边,对应于图数据库中的节点和关系。我们将上面获得的数据存到Neo4j中。
百科类图谱请见:从零开始构建知识图谱(八)百科知识图谱构建(二)将数据存进neo4j
电影领域的请见从零开始构建知识图谱(六)将数据存进Neo4j
基于浙江大学在openKG上提供的基于REfO的KBQA实现及示例,在自己的知识图谱上实现简单的知识问答系统。
详细介绍请见从零开始构建知识图谱(三)基于REfO的简单知识问答
本项目是对浙大的基于elasticsearch的KBQA实现及示例的简化版本,并在自己的数据库上做了实现。
详细介绍请见从零开始构建知识图谱(四)基于ES的简单语义搜索