本体构建方法还没有形成统一的规范,主要原因是众多研究者所处的领域和构建目的不同,因此,他们所采取的方法也不尽相同。研究者提出了多种本体构建方法,领域内普遍认可的主要有以下几种:
为了更好的构建本体,各领域纷纷开发适合自己领域的本体构架工具。在众多本体构建工具中存在着六个知名的构建工具,它们分别是:Protege、Ontolingua、OntoSaums、OntoEdit以及WebOnto。Protege是斯坦福大学研究人员根据本体构建需要开发的一款本体开发软件,为实现工具软件对其他语言的兼容性和开放性,Protege软件的开发采用面向对象语言—Java语言进行开发。
类的层次结构还只是本体的骨架,不足以全面表现领域知识和提供系统能力问题所需要的答案信息,其血肉就要通过类的关系,即属性来充实了。
属性分为外部属性和内部属性:
在对类的属性进行定义之后,应该根据类目的层次关系和属性的特征对属性所包含的不同分面分别进行定义,进一步保证属性的完整性。如对属性的取值进行定义,对属性的基数进行定义等:
本体中的关系多种多样,除了基本的语义关系,很多类目关系还需要用户自主归纳总结然后定义。对于本体的基本语义关系来说,主要有四种,分别是:part-of、kind-of、instance-of和attribute-of。
构建本体之前要有详细的规划,包括选择合适的本体描述语言、本体构建的工具以及本体构建的方法,做到统筹兼顾,全面把握本体构建的整个过程。在大众分类标签的基础上,运用微调后的七步法,采用protege4.3软件,展示一下旅游领域本体的构建过程。
本体构建完成后,需要对形成的本体进行保存。Protege本体构建软件为本体文档的保存提供了多种形式,如RDF/XML、OWL等保存格式。 使用各种转换软件即可实现。比如:neosemantics-3.4.0.2支持3.4.x版本neo4j数据库。 实体抽取。主要指的是从自然文本中抽取到我们所需要的命名实体(例如:地名、人名,以及各种专有名词)。这个过程也叫做命名实体识别(namedentityrecognition,简称NER)。最早的命名实体识别过程,都是基于规则的,由于所有的规则都是需要人为手工的编写,因此需要耗费大量的人力,可扩展性也很差。 在我们得到实体之后,就考虑从文本中挖掘出实体与实体之间的语义信息,也就是它们之间的关联关系。关系抽取不仅是信息抽取的任务之一,也是构建和补全知识图谱的关键所在,其研究的主要内容是从文本内容中挖掘出实体与实体之间的语义关系,从纯文本生成关系数据的过程,是自然语言处理(NLP)中的关键任务。该任务可以描述为:给定一段文本S,确定两个目标实体对 中文数据集可用成熟的LTP工具包实现关系抽取。英文数据集可用成熟的NLTK工具包实现关系抽取。 知识图谱的本质就是图,其中点代表实体,边代表关系。目前可以用两种形式来表示知识图谱。第一种就是RDF,第二种就是属性图的形式。 word1="七星景区"word2="七星公园"r=synonyms.compare(word1,word2,seg=fales)synonyms.compare会返回word1和word2的相似度,seg表示是否需要分词。在实体合并部分仍然会使用到Synonyms。具体实现算法分为3部分,第一部分实体链接、第二部分属性链接、第三部分属性值链接。 知识图谱存储主要可以通过三种方式:第一种是关系数据库(MySQL);第二种是文档数据库(MongoDB);第三种是图数据库(Neo4j)。Neo4j的优势在于: