从本体论到知识图谱,著名学者PascalHitzler长文回顾语义网20年发展语义网本体论数据集图谱逻辑谷歌

在正式回顾语义网20年发展历程之前,我们首先需要明确一点,本文讨论的“语义网(SemanticWeb)”指的是一个研究领域,而不是一个具体的人造实体或产品。这就好比人工智能是一个研究领域而非人造实体一样。

或许有一天“语义网”作为人造产品真的会出现,也有人认为我们已经建立了一部分“语义网”,但我们主要回顾的是以它为核心的研究领域。

我们的回顾是相当主观的,因为该领域存在各式各样的研究方法和应用目标,其中包括许多不同但相互联系的子社区(领域),每个子社区对该领域的最新状况可能有着非常不同的解读。

因此,我会在回顾中指出许多不同的视角和观点,而想要达成一个共识几乎是不可能的。

我们的回顾也是有选择性的,因为语义网是计算机科学与其他众多学科广泛交叉的研究和应用领域。仅仅一篇回顾不可能详尽无遗,也无法对所有重要的个人贡献给予应有的评价。

现在我们明确了“语义网”是一个研究领域,那它到底在研究什么?

回答也是很主观的,因为领域内尚未形成明确的共识。

一种观点认为,该领域的长期目标是创建一个“人造语义网”产品,以及一系列必须的工具和方法,对其进行维护和应用。

在这种论调中,语义网是互联网(万维网)的强化版本,充斥着机器也可以理解的信息——现有互联网大多只负责提供信息,人类要自行理解消化——以及基于这些信息的智能服务代理。

这种理解方式,再加上利用信息提供智能服务的代理,让语义网和人工智能两个领域出现了明显的重叠。实际上,在过去20年的大多数主要人工智能会议中,都有明确的语义网分支。

不过,关于语义网的理解还有另一种较为新鲜的观点:该领域开发的方法和工具,其用途与互联网无关,即使不用机器可理解的数据创建智能服务代理,也可以提供附加价值。

在这种视角下,该领域更接近数据库,或者是数据科学中的数据管理分支。

由此还能引出一种更严格的定义,即“语义网”是以资源描述框架(W3C标准RDF)、OWL和SPARQL为核心,研究知识本体、关联数据和知识图谱的基础和应用的领域。

三种观点各有千秋,而“语义网”或许是三者的融合:

1、该领域以知识本体、关联数据、知识图谱为核心概念,围绕RDF、OWL、SPARQL组成(数据)交换格式,在语法(一定程度上是语义)的层面形成统一;

2、该领域的应用目的是建立有效的数据共享、发现、集成和重用方法(无论是否用于互联网上);

3、该领域背后的长期驱动因素是,在未来某个时候,创造出一个具有智能服务代理的“人造语义网”。

不过也存在更早的研究:让网络上的数据变成机器可以理解的数据,最早可以追溯到互联网诞生之初。

另一些努力包括美国DARPA的代理标记语言(DAML)项目,从2000年持续到2006年,专注于开发一种语义网语言和相应的工具。

欧盟也资助了类似项目On-To-Knowledge,从2000年持续到2002年,研究成果OIL语言后来与DAML合并,最终成为了W3C标准中的网络本体语言(OWL)。

不过有人可能会争辩说,该定义过于宽泛,仍需进一步解释。在更精确的意义上,知识本体实际上是有关概念及其之间关系的知识库,用基于形式逻辑的知识表示语言表示的。

形象地说,如果我们有两个概念:“哺乳动物”和“胎生”,它们的关系就是“哺乳动物是胎生的”,所谓的“知识库”指的就是包含无数概念和概念关系的库。在语义网的大背景下,知识本体是数据集成、共享和发现的主要工具,知识本体本身也可以被重复利用。

2004年,网络本体语言(OWL)成为了W3C标准,后来在2012年修订为新版本OWL2,为该领域提供了新的动力。

OWL的核心在于为网络文档和应用中固有的类以及其间的逻辑关系提供描述,仅使用一元和二元谓词,以及数量有限的量词,对语言的逻辑推理是可以判定的。在标准建立后,社区仍在讨论描述逻辑是否是最佳范例选择,基于规则的语言是其主要竞争者。讨论最终尘埃落定,但后来也被确立为W3C标准的规则交换格式(RIF)吸引力相对较小。

同样在2004年,资源描述框架(RDF)成为W3C标准,后来在2014年更新为1.1版本。本质上,RDF是用于表达标记化且类型化的有向图的语法,或多或少与OWL兼容。从这个角度来看,OWL知识本体可以用作RDF(类型)图的一种模式或类型逻辑(schema)。

所有这些关键标准是以W3C的名义开发的,因此它们与其他关键W3C标准保持了基本兼容性。例如XML可作为RDF和OWL的语法序列化和交换格式。所有W3C语义网标准还将IRI作为RDF图中标签的标识符、OWL类名、数据类型标识符等。

前文提到的美国DARPA执行的DAML语义网计划于2006年结束,随后美国几乎没有大型的语义网基础研究资助项目,结果就是大部分相应研究都转向了应用领域,例如医疗保健或国防领域的数据管理,或者并入相似领域。

与美国不同,欧盟的欧盟框架计划(EuropeanUnionFrameworkProgrammes),特别是FP6(2002-2006)和FP7(2007-2013),为基础和面向应用的语义网研究提供了大量资金。

此消彼长之下,目前语义网研究社区主要由欧洲人组成。社区的规模很难评估,但自2000年代中期以来,该领域的主要会议国际语义网会议(ISWC)平均每年吸引了600多名参与者。值得注意的是,许多语义网研究或应用成果都是在相似的研究或应用领域发布的。

从一开始,工业界的兴趣就很大,但是想要找到可靠的行业参与数据几乎不可能完成。从大学衍生出来的公司从一开始就能应用最先进的研究,博士毕业生——绝大多数来自欧洲——也能寻找到相应的行业工作。大、小公司都能参与到大型基础研究或应用研究项目中,尤其是在欧盟FP6和7的助力之下。

在此期间,一些起源于语义网社区的大型知识本体已经成熟。例如,始于1998年的基因知识本体,现在已成为非常重要的资源。另一个例子是医学系统命名法——临床术语(SNOMEDCT),可追溯到1960年代,但现在已成为OWL形式,广泛用于电子健康记录中。

在此期间,大多数知识本体被开发出来,但并未产生明显效果,变得难以维护和重用,加之开发好的本体需要相当大的前期成本,导致研究社区将注意力转向与之前似乎对立的方向。

2006年,“关联数据”的概念诞生,很快成为了语义网研究和应用的主要驱动力。这股势头一直持续到2010年代初。

图|LinkedOpenDataCloud网站上RDF图的数量

如上图所示,可公开获得的关联RDF图的数量一直显著增长,尤其是在最初的十年中。这些数据来自LinkedOpenDataCloud网站,并非所有RDF数据集都包括在内。

2015年的一篇论文显示,有超过370亿个三元组(triple)来自于超过65万份数据文档中——如此庞大的数据也只是网络中所有开放访问的RDF图三元组的一部分。

大型数据提供者通常仅提供基于SPARQL的查询接口,或使用RDF进行内部数据组织,但只通过供人类阅读的网页形式将其提供给外部。LinkedOpenDataCloud网站上的数据集涵盖了广泛的主题,包括地理、政府、生命科学、语言学、媒体、科学出版物和社交网络等等。

另一个最知名并广泛使用的关联数据集是DBpedia,上面的数据是从维基百科和Wikidata中提取的。在2016年4月公布的版本中,它囊括了约600万个实体和约95亿个RDF三元组。

由于其广泛的主题覆盖范围(基本上是维基百科上的所有内容),还是最早提供的关联数据集的组织之一,因此DBpedia在关联数据集的LinkedOpenDataCloud网站上扮演着核心角色:许多其他数据集都会与它关联,使其成为关联数据的枢纽。

从一开始,业界就对关联数据产生了浓厚兴趣。比如BBC是LinkedDataCloud的首批重要行业贡献者之一,纽约时报公司和Facebook也是早期使用者。但行业的兴趣似乎主要在于利用关联数据技术进行数据集成和管理,而在开放的互联网上通常看不到。

在关联数据时代,知识本体的作用要小得多。它们经常被当作模式(schema)使用,描述RDF数据集的内部结构,但是,与知识本体时期的过度承诺和深入研究相比,LinkedOpenDataCloud网站上的RDF图中的信息粗浅且简单。

2011年,schema.org出现了,最初由微软必应、谷歌和雅虎驱动,后来Yandex也加入其中。schema.org带来了一个相对简单的本体论体系,同时建议网站提供商使用它的词汇表在各自网站上注释实体,也就是在实体间建立关联。

作为回报,schema.org背后的搜索引擎提供商承诺,会使用注释作为元数据来改善搜索结果。2015年的一项研究显示,30%的网页上拥有schema.org注释。

2012年启动的另一项重要工作是Wikidata。它是德国维基媒体协会(WikimediaDeutschland)发起的,最初由谷歌、Yandex和艾伦人工智能研究所资助。

Wikidata的核心思想与维基百科类似,即众包信息。但维基百科是向人类读者提供的百科全书式文本数据,Wikidata却是关于创建供程序或项目使用的结构化数据。包括维基百科在内的许多其他维基类媒体都使用Wikidata向人类读者提供信息。

截至本文撰稿时,Wikidata拥有超过6600万个数据项,自项目启动以来已经进行了超过10亿次编辑,活跃用户超过2万名,数据库下载支持RDF等多种W3C标准。

在2010年代初期,关联数据的热度有所下降,行业重新回归理性。尽管关联数据确有一显著用途和应用,但结果表明,集成和利用这项技术比最初预期花费的精力更多。

一种观点认为,经常用于关联数据的浅显的非表达模式似乎是可重用性的主要障碍。最初的期望是,数据集之间的相互联系会通过某种方式解决这一弱点,但似乎并没有实现。

这不代表对关联数据的贬低,它为语义网及其应用领域带来了重大进展:仅仅以某种结构化的格式提供数据并遵循一个突出的标准,就意味着可以使用现有工具访问、集成、管理和利用数据。这比通过语法和概念上更异构的形式提供数据容易得多。

但是,寻找更有效的数据共享、发现、集成和重用的方法还是一如既往的重要,而且正在开始。

2012年,当谷歌推出了“知识图谱”,一个新的术语出现了。

在谷歌搜索引擎上,可以通过搜索有名的实体来查看谷歌知识图谱的部分内容:就在网页搜索结果旁边,会链接并显示一个所谓的信息框,上面显示的就是谷歌知识图谱的信息。

图|在谷歌上搜索KofiAnnan后显示的知识图谱内容

上图展示了一个例子,用户可以通过一个节点(链接)导航到图谱中的其他节点,比如点击KofiAnnan的配偶名字,跳转到NaneMariaAnnan的节点,新的搜索结果旁边会显示关于NaneMariaAnnan的新信息框。

尽管谷歌没有提供知识图谱的下载服务,但它开放了使用标准schema.org类型且符合JSON-LD的API,供人们获取内容。

其中一个区别在于开放性:正如关联数据的定义所指,语义网社区对关联数据所做的努力大部分都以“开放数据共享以供重用”作为其目标。这意味着关联数据主要是开放的,可以免费下载或通过SPARQL端点下载,所使用的非限制性许可证在社区中也很重要。

比如Wikidata作为知识图谱是开放的,没有所有权的。相反,关于知识图谱的最新努力通常由行业主导,从这个意义上讲,主要的应用方式并非真正开放的。

另一个区别是集中控制与自下而上的社区贡献:从某种意义上,LinkedDataCloud是目前已知的最大的知识图谱,但它并不是一个简洁的实体,而是由松散互连的单个子图组成,每个子图都由它自己的结构、表示模式等控制。

最大的不同可能是从学术研究(关联数据的主要推动力)到行业应用的转变。换句话说,近来围绕知识图谱的活动受到行业应用案例和它们(可能)带来的附加值所驱动。不过据我所知,还没有任何刊物正式评估了它们的优势。

知识图谱存在的许多挑战和问题仍与关联数据相同。例如,2019年的一项研究列出了当前存在的许多挑战,它们是语义网领域中早已存在的问题,已经进行了许多研究。

前文提到,语义网领域并不是主要由该领域固有的某些方法来驱动的,这与机器学习等领域有所不同。实际上,它是由一个共同的愿景驱动的,因此它可以根据需要借鉴其他学科。

自然语言处理作为一种应用工具,在知识图谱和本体集成、自然语言查询应答、自动文本知识图谱或本体构造等方面发挥着重要作用。

机器学习,尤其是深度学习,目前正用于完善语义网中困难任务的处理能力。例如补全缺失关系的知识图谱,处理嘈杂数据等等。与此同时,还有人在研究语义网技术推动AI可解释性的潜力。

在网络物理系统和物联网的某些方面也在探索语义网技术的应用,比如智能制造(工业4.0)、智能能源网和(智能)建筑管理等等。

语义网技术的潜在应用领域可以是任何需要数据共享、发现、集成和重用的场景,比如地球科学和数字人文学。

毫无疑问,无论是作为人造工件创建语义网,还是提供用于数据共享、发现、集成和重用的解决方案,语义网领域的宏伟目标都尚未实现。但正如有关知识图谱、schema.org和生命科学本体论的讨论所证明的那样,这并不意味着中间结果没有实际用途和价值。

然而,为了向更大的目标前进,几乎每个语义网子领域都需要进一步发展。对于其中的许多挑战,例如行业知识图谱、知识本体匹配、信息提取等等,已经有很多研究成果,与其重复这些,不如把重点放在一些当下面临的主要的短期障碍上。

在语义网及其应用社区中,有很多关于如何有效管理数据方面的问题,软硬知识都很丰富。但是,新入行者会听到、见到各种五花八门的方法,但关于这些方法的利弊介绍十分罕见。

另一方面,工具包的指导也很稀缺,无论是不适合实践的研究原型,还是针对特定问题的软件,都存在这个问题。用户不知道用哪种工具,哪些方法才能帮助其更好地实现特定目标。

因此,现阶段语义网领域最需要的是整合(consolidation)。作为一个由应用驱动的领域,这种整合将必须在语义网子领域中进行。这样一来,就能形成应用导向的流程,更好地记录其目标和利弊,并且伴随着易于使用和完善的工具来支持整个过程。还可以使用一些知名软件,比如Protégé本体编辑器,OWLAPI,Wikidata的引擎Wikibase,ELK推理机,都是功能强大且有帮助的。但在某些情况下,它们难以相互协作,即使它们都使用了RDF和OWL进行序列化。

谁可能是这种整合的驱动力?对于学者而言,开发和维护稳定易用软件的动力通常很有限,因为学术成绩(通常以出版物和获得的外部资助来衡量)往往不与此类活动挂钩。同样,复杂的流程本质上很难进行评估,这意味着此类成果在顶级刊物上的选择受限。

如果将编写高质量的入门教科书作为整合手段,则非常耗时且几乎没有学术回报。但是,通过开发在范式之间架起桥的解决方案,以及与应用领域合作开发和实现,学术界可以为整合提供基础。

语义网领域存在的前20年,已经积累了有效的关于数据共享、发现、集成和重用的数据管理知识。该领域做出的贡献可以通过已有的应用得到证明,包括schema.org,行业知识图谱,Wikidata,本体建模应用等等。

但如果追问“是什么关键的基础科学发现为这些应用奠定了基础”,我们很难找到答案。

我们看到,语义网领域正迎来主流工业界的采用。但是,对更有效的数据管理解决方案的追求远未结束,这将继续成为该领域的驱动力。

THE END
1.AI在自然语言处理中的突破:从理论到应用腾讯云开发者社区自然语言处理的核心技术 1. 词嵌入(Word Embedding) 词嵌入技术通过将词语映射到一个高维向量空间中,使得计算机能够理解词语之间的关系。常见的词嵌入模型包括Word2Vec、GloVe和FastText。这些模型通过大量文本数据的训练,能够捕捉词语的语义信息。 ###2. 变压器模型(Transformer) https://cloud.tencent.com/developer/article/2479408
2.自然语言处理中的知识图谱自然语言处理(NLP)是计算机科学和人工智能领域的一个分支,旨在让计算机理解、生成和处理人类语言。知识图谱(Knowledge Graph,KG)是一种以实体(entity)和关系(relation)为基础的图形数据库,可以帮助计算机理解和推理人类语言。在过去的几年里,知识图谱在自然语言处理领域取得了显著的进展,成为了NLP的一个重要组成部分。 https://blog.csdn.net/universsky2015/article/details/135788023
3.应用:自然语言生成与对话系统51CTO博客知识图谱(Knowledge Graph, KG)是一种用于表示实体(entity)和实体之间的关系(relation)的数据结构。知识图谱的核心是将实体和关系建模成图的节点(node)和边(edge),实体表示为节点,关系表示为边。知识图谱可以帮助计算机理解自然语言,从而实现自然语言处理(Natural Language Processing, NLP)的目标。 https://blog.51cto.com/universsky/9048284
4.AI自然语言处理NLP原理与Python实战:知识图谱的构建自然语言处理(Natural Language Processing,NLP)是人工智能(Artificial Intelligence,AI)领域的一个重要分支,旨在让计算机理解、生成和处理人类语言。知识图谱(Knowledge Graph,KG)是一种结构化的数据库,用于存储实体(如人、地点、组织等)及其关系的信息。知识图谱的构建是自然语言处理的一个重要应用,可以帮助计算机理解人类https://zhuanlan.zhihu.com/p/670006229
5.Python自然语言处理实战图1-5还显示了当我们使用Google的Translation API服务时,翻译文本的JSON响应。 1.2.5 自然语言推理 自然语言推理(natural language inference,NLI)任务对前提和假设之间的关系进行分类。在推理过程中,任务将前提和假设作为输入,并基于给定的前提输出假设是否为真的判断。 https://www.ituring.com.cn/book/tupubarticle/33684
6.文本序列的常用构图方法与代表案例剖析信息抽取图的目的是抽取结构信息来表示自然句子中的高级信息。 在实现上: 首先,通过Openie等工具识别出句子中的实体、实体之间的共指关系三元组(如上图中名字 "Pual"、名词 "He "和 "一位著名的计算机科学家 指的是同一个对象),以及主谓宾三元组(如图中的paul,grew up in seatle),一同作为关系三元组数据(https://www.shangyexinzhi.com/article/4455904.html
7.干货分享RDF和LPG知识图谱上的表示学习在本文中,我们将重温三元组在知识图谱构建中的结构范式,同时也将学到新概念—超图、超关系知识图谱以及超关系知识图谱的发展历程、超关系知识图谱编码、解码的全过程等等。原文(见阅读原文)翻译如下: 知识图谱(KGs)是现代自然语言处理和人工智能应用的基石——近期的成果包括问答、实体和关系链接、语言建模、信息提取,https://www.jianshu.com/p/5366ec5bc4a2
8.政策智能分析详解,达观RPANLP知识图谱技术多嘲落地应用通过机器人流程自动化(RPA)、自然语言处理(NLP)、共光学字符识别(OCR)、知识图谱、智能搜索、智能推荐、文档智能审阅等自动化与人工智能技术的结合,未来,达观数据也将继续助力企业快速实现智能化升级。https://blog.itpub.net/69997703/viewspace-2778372/
9.科学网—[转载]时态知识图谱补全的方法及其进展杜剑峰(1976-),男,博士,广东外语外贸大学教授,中国中文信息学会语言与知识计算专业委员会委员,主要研究方向为知识表示与推理、数据挖掘和自然语言处理。在AAAI、WWW、ISWC、CIKM和KAIS等学术会议上发表数十篇文章,获得多项国家自然科学基金项目资助。担任JournalofWebSemantics编委,长期担任CCKS、CSWS、IJCAI、AAAI、ISWC、https://blog.sciencenet.cn/blog-3472670-1296534.html
10.产品经理的知识图谱入门实操人人都是产品经理从无结构的文本中抽取知识,首先需要识别文本中的实体,这个过程称之为做命名实体识别(Named Entity Recognition,NER),命名实体识别属于自然语言处理中的一项基础任务,同时也是关系抽取、事件抽取、机器翻译、问答系统等多个NLP任务的基础工作,其目标是从文本中抽取出具有特定意义的实体,一般包括实体类、实践类、数字类三个https://www.woshipm.com/pmd/2638735.html
11.全国一体化政务大数据体系建设指南图2国家平台与地方和部门平台关系图 国务院办公厅统筹全国一体化政务大数据体系的建设和管理,整合形成国家政务大数据平台,建立完善政务大数据管理机制、标准规范、安全保障体系。国务院有关部门要明确本部门政务数据主管机构,统筹管理本部门本行业政务数据,推动垂直管理业务系统与国家政务大数据平台互联互通。已建设政务数据平台https://www.hc.gov.cn/bmjd/jz/gdz/zwxx_100731/dt_100733/202210/t20221031_11249976.html
12.Python自然语言处理之词干,词形与最大匹配算法代码详解python这篇文章主要介绍了Python自然语言处理之词干,词形与MaxMatch算法代码详解,涉及词干提取,词形还原,简单总结了二者的区别和联系,最后还分享了最大匹配算法的相关示例,具有一定参考价值,需要的朋友可以了解下。 本文主要对词干提取及词形还原以及最大匹配算法进行了介绍和代码示例,Python实现,下面我们一起看看具体内容。 https://www.jb51.net/article/128333.htm
13.?达摩院文档级关系抽取新数据集和五元组抽取新任务自然语言处理 关系抽取 EMNLP 信息抽取 知识图谱邴立东 2022-12-02关系抽取(RE)是 NLP 的核心任务之一,是构建知识库、事件抽取等下游应用的关键技术。多年来受到研究者的持续关注。 本文将介绍达摩院语言实验室多语言 NLP 算法团队的两篇 EMNLP 2022 主会论文。第一篇论文针对文档级关系抽取任务中普遍存在的假负https://techbeat.net/article-info?id=4379