知识图谱的应用有以下7种:一、语义搜索;二、股票投研情报分析;三、公安情报分析;四、反欺诈情报分析;五、面向多源异构关系数据的自然语言问答;六、面向知识图谱的智能问答;七、辅助判案。语义搜索是通过结构化知识搭建知识图谱。股票投研情报分析是通过表格和文本数据中批量自动抽取公司信息,搭建知识图谱。
知识图谱是一种语义网络,即一个具有图结构的知识库,这里图的节点可以是概念(比如说大学),可以是实例(比如说东南大学),可以是一个literal(比如说一个数字,一个日期,一个字符串),而图的边就是一个关系(比如说漆桂林就职于东南大学,这里“就职于”就是一个关系)。
语义网络的表达能力还是很强的,即一阶谓词逻辑可以表达的知识都可以用语义网络来表达。
语义网络可以有逻辑推理能力,而推理可以通过规则来实现,也可以通过父子节点的继承实现。
图1语义搜索示例
在图1中,当用户输入“jackiechan”,搜索引擎可以识别出jackiechan其实就是成龙,而且,会给出成龙的各种属性信息,比如说出生日期、国籍、配偶等。这些都是以前基于关键词的检索做不到的,有了知识图谱以后,就可以即问即答了。点击成龙的配偶“林凤娇”,可以直接进入她的知识卡片,见图2:
图2语义导航示例
这里我们可以把成龙、林凤娇看出图的节点,成龙跟林凤娇之间有一个关系,即夫妻关系,这就是一个小的关系图谱。
图3股票投研情报分析
图4公安情报分析
图5反欺诈情报分析
现在很多企业都有自己的数据库,而且这些数据库因为不是同一批人构建的,所以维护数据库的成本很高,访问数据库也很不方便,而且数据库之间的关联也很难发现。通过构建一个本体(该本体可以是从数据库的schema抽取后,然后通过人工来修改得到),然后构建本体和数据库的schema的映射以及数据之间的匹配,就可以方便的实现数据的集成和数据的语义关联,并且可以利用构建的本体和通过本体集成得到的知识图谱来对自然语言做解析,从而将自然语言查询直接转化为SQL去查数据库,并且给出答案,答案可以是用图表的方式来给出。下面给出一个例子(图6):
图6数据库集成和问答系统示例
如用户提问“龙蟠路高铁南站出口2013年8月1日经过的本田车辆有哪些”,系统直接给出结果。
Category:GeneralScienceClue:Whenhitbyelectrons,aphosphorgivesoffelectromagneticenergyinthisform.Answer:Light(orPhotons)
也就是说,问题会有一些分类,然后出题的人会给出一些暗示(Clue),做题的人或者机器根据这些暗示给出答案。
Watson的问答系统采用了wikipedia和DBpedia、Yago等半结构化数据以及图谱数据,但是更多的还是从文本中提取各种证据(evidence)来回答。IBMWatson系统架构见下图(图7)。
图7IBMWatson系统架构
1.僧伽是①涅槃义②和合众③杀贼义。
2.「诸行无常、诸法无我、涅盘寂静」称为①三种无常②三法印③三乘道。
3.人生最大的错误是①杀生②妄语③邪见。
下面是系统的截屏:
知识图谱技术可以帮助我们快速构建一个法律知识图谱,目前还缺乏法律知识图谱的理论工作。跟其他领域的知识图谱相比,法律知识图谱需要考虑法律的逻辑,下面就是一个法律知识图谱的片段:
从上面这个例子可以看出,每一个犯罪行为都有主体、客体、主观要件和客观要件,我们就需要从文本中去抽取这些信息,从而形成一个关于犯罪行为的图谱,而通过对海量判决书的挖掘,可以建立犯罪行为之间的关联,比如说,防卫过当和故意伤害之间有一个关联,即误判为的关系。通过这个图谱,给定一个判决书,可以辅助法官判的一个案件是否有误判,是否需要补充信息。