目前知识图谱还没有统一的定义,Google公司2012年提出时,定义知识图谱是一种用图模型来描述知识和建模世界万物之间关联关系的技术方法。是为了准确地阐述人、事、物之间的关系,最早应用于搜索引擎。知识图谱是为了描述文本语义,在自然界建立实体关系的知识数据库。一般情况下,我们可以使用关系图来表示知识图谱。
在知识图谱中,人、事、物通常被称作实体或本体。
知识图谱的组成三要素包括:实体、关系和属性。
知识图谱(MappingKnowledgeDomain)也被称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
具体来说,知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律。
知识图谱本质上是一种语义网络。其结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。
我们可以从不同的视角去审视知识图谱的概念。
知识图谱的构建涉及知识建模、关系抽取、图存储、关系推理、实体融合等多方面技术。知识图谱的应用则体现在语义搜索、智能问答、语言理解、决策分析等多个领域。
知识图谱的价值归根结底是为了让AI变得更智慧。助力搜索、助力推荐、助力问答。
有哪些成熟的图谱
传统知识图谱:
1.清华:
多模态知识图谱:
1.人大:
2.阿里:
开源多模态知识图谱:
1.DBpedia
2.Wikidata
3.IMGpedia
4.MMKG
5.Richpedia
什么是中文知识图谱
中文知识图谱(ChineseKnowledgeGraph),最早起源于GoogleKnowledgeGraph。中文知识图谱的直接推动力来自于一系列实际应用,包括语义搜索、机器问答、情报检索、电子阅读、在线学习等等。百度、搜狗以及复旦大学GDM实验室相继推出了其中文知识图谱。
允许用户搜索搜索引擎知道的所有事物,人物或者地方,包括地标,名人,城市,球队,建筑,地理特征,电影,天体,艺术作品等等,而且能够显示关于你的查询的实时信息。它是迈向下一代搜索业务关键的第一步,使得搜索智能化,根据用户的意图给出用户想要的结果。
为什么要构建中文知识图谱
知识图谱架构
中文知识图谱研究方法
1.分布式爬虫
互联网上存在着丰富的资源,选择合适的资源以及相应的爬取策略至关重要;单台电脑已经无法支持大规模的网页爬取;网站可能存在着限制访问次数、访问出错等问题。因此,提出了多任务、容错、平衡、可设置优先级、多样性的分布式爬虫策略
2.知识抽取
3.知识集成
4.图数据管理系统
基于开源的Hadoop分布式文件系统与分布式数据库,作为大数据存储的基础,所有的操作都建立在HBase之上。<实体,关系,实体>或者<实体,属性,属性值>可以作为基本的表达方式,存储在图数据库中。模式层建立在数据层之上,是知识图谱的核心。通常,通过本体库来管理数据层,本体库的概念相当于对象中“类”的概念。借助本体库,我们可以管理公理、规则和约束条件,规范实体、关系、属性这些具体对象间的关系。
中文知识图谱的应用
1.百度知识图谱
2.复旦GDM中文知识图谱
深度阅读:运用知识图谱,对电子书中出现的词语进行精确、全面解释,挖掘词语背后的知识,改善阅读体验。
知识图谱主要研究领域
知识图谱主要包含知识库构建,用户查询理解,数据检索以及结果的可视化展现四个主要的过程。
知识库的构建:主要通过将网页中的各种异构的实体信息,通过收集、解析、清理、归一化、合并等步骤建立起实体以及实体属性的集合。
用户查询理解:是将用户输入的自然语言解析成查询知识库的SPARQL语句。
结果可视化是对检索出来的数据进行富媒体的展现,用户可以对需要的展现样式进行定制和个性化。
知识图谱构建
知识图谱构建方式
知识图谱有自顶向下和自底向上两种构建方式。自顶向下构建是指借助百科类数据源,提取本体和模式信息,并加入知识库中。自底向上构建是指借助一定的技术手段,从公开的数据中提取资源,选择其中置信度较高的信息,经人工审核后,加入知识库中。
在知识图谱发展初期,多数企业和机构采用自顶向下的方式构建知识图谱,目前大多企业采用自底向上的方式构建知识图谱。
知识图谱的规模
知识图谱通过收集来自百科类站点和各种垂直站点的结构化数据来覆盖大部分常识性知识,质量高但是更新慢。
知识图谱项目实践
从抽取图谱到知识图谱(知识图谱挖掘)
1.实体对齐(方法:聚类,关键在于定义合适的相似度度量。为了解决大规模实体对齐存在的效率问题,各种基于数据划分或分割的算法被提出)。
2.知识图谱schema构建(模式层构建:Google等公司普遍采用的方法是自顶向下(Top-Down)和自底向上(Bottom-Up)相结合的方式。)
3.不一致性的解决(当融合来自不同数据源的信息构成知识图谱时,有一些实体会同时属于两个互斥的类别(如男女),这样就会出现不一致性)。