AI普及教育_知识图谱(KnowledgeGraph)
互联网的发展带来网络数据内容的爆炸式增长,给人们有效获取信息和知识提出了挑战。
2012年5月17日,谷歌正式提出知识图谱,其初衷是为了提高搜索引擎的能力,改善用户的搜索质量和搜索体验。随着人工智能技术的发展和应用,知识图谱以其强大的语义处理能力和开放组织能力,被广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域,为互联网时代的知识化组织和智能应用奠定了基础。
知识图谱(KnowledgeGraph)是用图模型来描述现实世界中存在的各种实体以及实体之间关联关系的技术方法。知识图谱由节点和边组成,节点可以是实体,也可以是抽象的概念;边是实体的属性或实体之间的关系,巨量的边和点构成一张巨大的语义网络图。
众所周知,万维网WordWideWeb是蒂姆·伯纳斯·李(TimBerners-Lee)于1989年提出来的全球化网页链接系统。在Web的基础上,TimBerners-Lee又于1998年提出SemanticWeb的概念,将网页互联拓展为实体和概念的互联。
SemanticWeb问世后,很快出现了一大批著名的语义知识库:谷歌的“知识图谱”搜索引擎,其强大能力来自于谷歌的共享数据库Freebase,以IBM创始人托马斯·沃森名字命名的超级计算机沃森,其回答问题的强大能力得益于后端知识库DBpedia和Yago,以及世界最大开放知识库Wikidata,等等。因此,维基百科的官方词条称:知识图谱是谷歌用于增强其搜索引擎功能的知识库。目前,知识图谱已被用来泛指各种大规模的语义知识库。从网页的链接到数据的链接,Web技术正在逐步朝向Web之父Berners-Lee设想中的语义网络演变。除了提升搜索引擎的能力,知识图谱技术正在语义搜索、智能问答、辅助语言理解、辅助大数据分析、推荐计算、物联网设备互联、可解释型人工智能等各个领域找到用武之地,其核心是以图形的方式向用户返回经过加工和推理的知识实现智能化语义检索。
知识图谱中的最小单元是三元组,主要包括:“实体-关系-实体”和“实体-属性-属性值”等形式。每个属性-属性值对(attribute-valuepair,AVP)可用来刻画实体的内在特性,而关系可用来连接两个实体,刻画它们之间的关联。下图给出一个知识图谱的例子,其中,中国是一个实体,北京是一个实体,中国-首都-北京是一个(实体-关系实体)的三元组样例;北京是一个实体,人口是一种属性,2069.3万是属性值,北京-人口-2069.3万构成一个(实体-属性-属性值)的三元组样例。
大规模知识库的构建与应用需要多种技术的支持,其技术构架如下图所示。首先通过知识提取技术,从公开的半结构化、非结构化和第三方结构化数据库中提取出实体、关系、属性等知识要素;然后采用合适的知识表示技术对知识要素进行图谱化,以易于进一步处理;接下来再利用知识融合技术消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库。知识推理技术则在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。
知识图谱的研究领域极为广泛,主要包括知识表征学习、知识获取、时序知识图谱以及知识图谱应用等四个核心部分,每个部分都承载着对知识的深入挖掘和应用的探索。
综合而言,知识图谱的研究不仅是对知识的深度挖掘和理解,更是将其应用于实际场景中,为人类社会的智能化发展提供了有力支撑。