本发明涉及一种融合多类事理与实体知识的领域事件图谱构建方法和装置,属于自然语言处理及知识工程领域,属于一种领域知识库构建方法。
背景技术:
受限于当前自然语言处理技术的水平,目前事件逻辑知识库的构建和应用上还存在以下不足:
1、全自动抽取性能不高。目前基于全自动方式构建提取的事件及事件关系数据精度不高。以依存句法或正则规则模板抽取的方法能够得到较高的召回率,但错误率较高。以深度学习序列标注方法进行抽取能够保证较高的准确率,但需要大规模的标注语料。因此需要提出一种能够规避三种方法不足的方法。
2、事件抽取中的事件元素抽取往往需要提前对元素类别进行预设,不利于大规模事件表示的知识库的构建,一种可接受且语义较为丰富的事件通用论元有提出的必要。
3、事件抽取中的关系抽取目前主要集中在因果和顺承两种类型,缺乏对其他类型的抽取尝试和应用点探索。探索更为全面的事件类型体系及其应用点具有实际意义。
4、有关事件性知识和实体性知识的融合及链接的工作还相对空白。将实体性知识链接到事件性知识中的事件当中,可进一步丰富事件的语义,拓展应用场景。
技术实现要素:
针对现有技术中存在的上述技术问题,本发明的目的在于提出一种融合多类事理与实体知识的领域事件图谱构建方法和装置。
本发明采用的技术方案如下:
一种融合多类事理与实体知识的领域事件图谱构建方法,包括以下步骤:
对领域预料库进行事理关系抽取,并利用事件论元抽取技术进行实例事理元素抽取,形成实例事理逻辑知识库;
构建具有层级性的抽象概念知识库;
利用抽象概念知识库对实例事理逻辑知识库中的实例事件进行实体词抽象和谓词性抽象,形成抽象事理图谱;
利用实体知识图谱,采用实体链接技术对实例事理逻辑知识库中的实例事件进行实体链接,完成事理知识与实体知识的融合,形成事理知识图谱;
将抽象事理图谱与事理知识图谱进行合并,最终形成领域事件图谱。
进一步地,通过设定事理关系,借助依存规则、正则模板的方式抽取事理逻辑,并设定通用事件论元类型,利用事件论元抽取技术进行论元抽取(即进行实例事理元素抽取),形成实例事理逻辑知识库。
进一步地,所述领域事件图谱中的多类事理关系包括八种,具体为因果事理、条件事理、上下位事理、并列事理、互斥事理、顺承事理、转折事理、组成事理。
进一步地,所述事理关系的抽取方法指根据指定的事理关系类型,采用基于关系词限定、词性过滤与事件成立性的抽取方法;基于关系词与依存句法规则的抽取方法;基于序列标注的事理抽取方法。
进一步地,所述抽象概念知识库,指的是存储概念之间上下位层级的知识库,由名词性实体抽象知识库、性状类抽象知识库以及动作性事件抽象知识库三个知识库构成,构建思想为:融合hownet、同义词词林、百科类层级分类树、百科词条义项、领域词表等抽象概念。
进一步地,所述抽象事理图谱,指的是运用事件抽象的方法对实例事理逻辑知识库的事件进行抽象,最终形成具有抽象层级性的事理图谱,包括事件预处理、成分抽象和抽象成分融合三个步骤。
进一步地,所述事理知识图谱是事件知识与实体知识之间的融合,事件知识与实体知识融合,指的是将实例知识图谱和实体知识图谱之间进行链接,形成从事件知识到实体知识的通路,包括待链接实体获取以及实体链接两个部分组成。
基于同一发明构思,本发明还提供一种融合多类事理与实体知识的领域事件图谱构建装置,其包括:
实例事理逻辑知识库构建模块,负责对领域预料库进行事理关系抽取,并利用事件论元抽取技术进行实例事理元素抽取,形成实例事理逻辑知识库;
抽象概念知识库构建模块,负责构建具有层级性的抽象概念知识库;
抽象事理图谱构建模块,负责利用抽象概念知识库对实例事理逻辑知识库中的实例事件进行实体词抽象和谓词性抽象,形成抽象事理图谱;
事理知识图谱构建模块,负责利用实体知识图谱,采用实体链接技术对实例事理逻辑知识库中的实例事件进行实体链接,实现事件知识与实体知识的融合,形成事理知识图谱;
领域事件图谱构建模块,负责将抽象事理图谱与事理知识图谱进行合并,形成领域事件图谱。
与现有技术相比,本发明具有以下优点:
1、本发明提出了一种融合多类事理与实体知识的领域事件图谱构建装置,该装置从抽象事理、实例事理、知识融合事件三个角度出发进行图谱构建,可搭建一个层次分明、体系相对完善的事件图谱。
2、本发明提出了多种事件关系,给出了可行的抽取方案,并对应用点进行了论述,为后续的应用提供了参考。
3、本发明提出了一种融合现有概念性层知识库资源的有效方法,可构建起一个质量较高的层次性抽象知识库。
4、本发明提出了一种针对实例事件进行层次性抽象的方法,能够对实例性事件抽象成具有明显阶梯性的抽象事件图谱,可支持不同层级的应用。
5、本发明提出了一种事件性知识与实体性知识链接和融合的方法,有利于进一步拓展事件图谱的语义信息和丰富度。
6、采用本发明方法构建的领域事件图谱,能够综合静态实体性知识以及动作事件性知识两者的优点,可进一步拓宽知识问答的应用范围,并提供基于事件知识的预警和推理服务,并可作为常识知识库扩充领域语言资源。
附图说明
图1为融合多类事理与实体知识的领域事件图谱构建方法的流程图。
图2为实例事理逻辑知识库构建框架图。
图3为抽象概念知识库构建框架图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
本发明在实施过程中主要包括实例事理逻辑知识库构建、抽象概念知识库构建、抽象事理图谱构建、事件知识与实体知识的融合三个步骤,总体流程如图1所示,具体包括以下步骤:
一.实例事理逻辑知识库构建
图2为实例事理逻辑知识库构建框架图,包括事理关系抽取、实例事理元素抽取等步骤。
1、界定领域事件图谱的概念
2、界定领域事件图谱中的事理关系
本发明中将所述事件之间的逻辑关系类型分成八种,类型包括:
1)因果事理。用于描述某一事件导致某一事件发生,如<智利地震,有色金属上涨>;
2)条件事理。表示某一事件条件下另一事件发生,如<中美贸易达成协议,中美贸易战缓和>;
3)上下位事理。某事件是另一事件的上层抽象,如<人民币贬值,货币贬值>
4)并列事理。表示某事件与另一事件同时发生,如<奏国歌,升国旗>
5)互斥事理。某一事件与另一事件形成对立,如<美国攻打伊拉克,美国拯救伊拉克>
7)转折事理。表示本该发生的事件未能发生,如<刻苦学习,成绩下降>。
8)组成事理。表示某事件是另一事件的组成部分,如<奏国歌,升国旗仪式>
3、事理关系抽取
事理关系抽取的方法指根据指定的事理关系类型,采用基于关系词限定、词性过滤与事件成立性的抽取方法;基于关系词与依存句法规则的抽取方法;基于序列标注的事理抽取方法。
1)基于关系词限定的、词性过滤与事件成立性的方法。关系限定词指能够明显显示事理成分的关联指示词,如“导致”,“因为-所以”等因果关联词,其余七种事理关联词同理。通过关系词限定,抽取出事件描述字段;词性过滤指通过使用中文分词器进行分词和词性标注后设定需要保留的词性类别;事件成立性指事件需包含特定的事件成分,如事件动作、事件主体、客体等。
2)基于关系词与依存句法规则的抽取方法。具体包括通过对关系限定词对候选事件进行确定,借助依存句法分析手段,确定关联词对应的事件主体和事件客体,并通过修饰词之间的语义关系对事件进行扩展。
3)基于序列标注的方法,包括利用bio或bios等标记集对起始事件和结尾事件描述进行标注,最后训练序列标注模型进行标注。
4、实例事理元素抽取
4.1事件核心动作的抽取
所述事件核心动作,指事件描述能够明显描述事件动作的词语,通常为动词或者动名词。
提取方法为:
1)对事件描述进行依存句法分析,获取与root节点存在hed关系的词语作为核心动作,若该词语存在coo关系,则将coo关系关联的词语也当作核心动作。
2)对事件描述进行句子成分分析,获取整棵句法树最外层vp成分作为核心动作。
3)将方法1)和方法2)中抽取得到的词语作为事件的核心动作。
4.2事件动作主体的抽取
1)对事件描述进行依存句法分析,遍历整个事件核心动作词表,以每个核心动作为核心,找到与该动作词语存在sbv的词语,并对sbv的词语与att修饰成分进行组合,形成事件主体;
2)对事件描述进行句子成分分析,遍历整个事件核心动作词表,以每个核心动作为核心,找到位于该词vp成分之前连接的np短语作为事件主体;
3)若步骤1)与步骤2)中的事件均为找到主体,那将该词之前的描述字符串均作为事件主体
4.3事件动作客体的抽取
1)对事件描述进行依存句法分析,遍历整个事件核心动作词表,以每个核心动作为核心,找到与该动作词语存在vob关系的词语,并对vob的词语与att及cmp关系修饰成分进行组合,形成事件主体;
2)对事件描述进行句子成分分析,遍历整个事件核心动作词表,以每个核心动作为核心,找到位于该词vp成分之后连接的np短语作为事件客体;
3)若步骤1)与步骤2)中的事件均为找到主体,那将该词之后的描述字符串均作为事件主体
4.5事件发生地点的抽取
所述事件发生地点的抽取,指的是抽取给定上下文该事件发生的地点。具体抽取方法为:
1)对事件描述、事件上下文(事件描述句左右窗口为n的长句)进行地点词识别。
2)以1)中的结果,按照事件描述、事件上下文的优先级次序进行排序,得到最终的事件发生地点,若事件发生地点缺失,则留空。
4.6事件关联实体的抽取
1)利用开源的带有实体识别的自然语言处理工具进行常规实体的识别,得到人物实体和结构实体;
2)收集领域实体词表,采用实体词匹配的方式,完成领域实体词的识别。
3)标注领域实体识别语料库,训练领域实体序列标注模型,完成关联实体的抽取。
4)将三种方法得到的实体进行联合汇总,得到最终的关联实体列表。
4.7事件情绪的计算
所述事件情绪的计算,指对事件描述本身所反映出来的情感方向及情感强度进行计算。事件情感方向包括正向、中性、负向三种;情感强度用于衡量情绪影响的程度。具体计算方法为:
1)利用情感词表,并设定情感计算规则,考虑窗口、否定词、程度副词以及依存规则,进行情绪的加权计算,得到事件的情绪得分。
2)将事件的情绪得分进行整理,将情绪得分的绝对值作为事件情绪的强度,以事件情绪数值前的符号作为情绪方向,但情绪为负时,为负相,情绪值为零时,情绪为中性,反之为负。
4.8事件确定性的计算
所述事件确定性的计算,指对事件描述本身发生的确定性进行计算,并得到事件确定性的等级,等级包括不可能、可能以及肯定三个层级。具体计算方法为:
1)收集整理出汉语中表达情态的词语集合,包括表否定的否定副词,表祁使语气的状s态词,形成事件确定性词表。
2)针对事件确定词,设定确定性计算规则,得到事件确定性等级。
4.9事件时态性的计算
所述事件时态性的计算,指的是对事件描述本身发生的时态性进行计算,得到事件时态性的类别,包括过去,现在以及未来三个时态。具体计算方法为:
1)收集整理出汉语中表达时态的词语集合,包括三个时态分别对应的特征词,形成事件时态词语集合;
2)基于事件时态词,设定时态计算规则,得到事件时态的类别。
二.抽象概念知识库构建
所述抽象概念知识库,指的是存储概念之间上下位层级的知识库,由名词性实体抽象知识库、性状类抽象知识库以及动作性事件抽象知识库三个知识库构成。其中:
所述名词性实体抽象知识库,指具有明显上下位语义名词性实体层级的实体知识库,如“苹果”和“水果”,“水果”和“植物”分别描述了一对上下位抽象关系,“苹果”可以往上抽象成“水果”,“水果”可以进一步抽象成“植物”。大量具有这样上下位抽象关系的实体对,共同组成一个庞大的知识网络。
所述性状类抽象知识库,指具有明显上下位语义形容词或副词性词语组成的知识库,如“悲伤”和“消极”,“消极”和“变坏”分别描述了一对性状类的抽象层级关系。
所述动作类抽象知识库,指具有明显组成或上下位语义动词组成的知识库,如“杀人”和“犯罪”,“犯罪”和“作恶”分别描述了一堆事件性动词的抽象层级关系。
在具体实施上,遵循图3所示的流程,包括以下步骤:
1)获取hownet抽象层级。以hownet(知网中文词库)中的glossary文件作为基本的概念层级体系文件。glossary文件中描述了概念之间的上下位层级关系。
2)获取百科类抽象层级。采集百度百科、互动百科、维基百科中的百科分类层级,将三个分类体系进行融合,并设置根节点为“实体”。
3)融合抽象层级。将百科类概念体系与hownet概念层级进行融合,形成最终的概念层级体系。
4)训练领域词向量。利用词向量工具训练领域行业语料,得到领域词向量文件以及领域词表。
5)同义词拓展。以领域词向量中的所有词为种子词,使用领域词向量中进行相似度计算,设定相似度阈值,将与种子词相似度大于指定阈值的词作为高度相似词,并进行存储。
6)同义词融合。利用5)得到的同义词以及同义词词林中的同义词汇总,得到最终的同义词扩展词典。
7)百科词语开放分类获取。以步骤4)中得到的所有词在百度百科、互动百科以及维基百科中进行检索,得到每个词的开放分类,并将其所属概念分类作为该词的上位概念。
8)hownet词语义项获取。以hownet中的whole.dat文件作为基础概念词汇文件。所述whole.dat文件中对超过6万个词语进行了细粒度义项的解释。同时以该词条后的义项作为上位概念,形成词条的上位概念字典。
9)词语上位概念融合。将步骤8)得到的词条及其所属概念分类,与7)中的基础概念词汇文件进行融合,形成最终的词语上位概念词典。
10)词语概念描述融合。基于6)中得到的同义词拓展词典,对9)中形成最终的概念词汇文件进行概念扩展,若同义词中的某个词在概念词汇文件中,将其余同义词的概念描述都表示成该词的描述。
11)词语抽象路径生成。根据词语上位概念词典以及概念词汇文件,构建词条与概念的上下位有向图,利用最短路径算法,得到每个词条的最长的最短路径作为该词条的上下位抽象路径。
三.抽象事理图谱的构建
所述抽象事理图谱,指的是运用事件抽象的方法对实例事理逻辑知识库中的实例型事件图谱中的事件进行抽象,最终形成具有抽象层级性的事理图谱。抽象的过程遵循以下几个步骤:
1)事件预处理。对输入的实例事理图谱中的事件进行分词和词性标注,仅保留其中的名词性成分以及动词性成分。
2)事件成分抽象。利用抽象图谱,对结果1)中的名词性成分和动词性成分进行抽象,对名词性成分往上抽象,形成多层级(如图3中的)的抽象结果。
3)抽象成分融合。利用2)得到的结果,得到不同层级下的具有统一抽象层级的名词性成分和动词性成分,形成整体性的事件多层级抽象结果。
四.事理知识图谱的构建
所述事理知识图谱的构建,即事件知识与实体知识之间的融合,指的是将实例事理逻辑知识库与实体知识图谱之间进行链接,形成从事件知识到实体知识的通路。融合的过程遵循以下步骤:
1)待链接实体获取。给定知识图谱,根据实例事理逻辑知识库中的关联实体类型进行筛选,得到需要链接的知识实体列表。
2)实体链接。应用实体链接的方法,利用实例事理逻辑知识库中关联实体的上下信息作为特征,将事件图中不同类型的实体连接到1)中得到的待链接知识实体列表当中。
五.领域事件图谱的构建
所述领域事件图谱的构建,指将抽象事理图谱与事理知识图谱进行合并形成一个大的领域图谱的过程,具体合并方式为,针对实例事理逻辑知识库中的每一个事件,将该事件关联的抽象事理图谱中的抽象事件和事理知识图谱中的知识进行组合,形成一个大的图谱。
基于同一发明构思,本发明的另一个实施例提供一种融合多类事理与实体知识的领域事件图谱构建装置,其包括:
基于同一发明构思,本发明的另一个实施例提供一种计算机/服务器,其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
基于同一发明构思,本发明的另一个实施例提供一种计算机可读存储介质(如rom/ram、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
本发明未详细阐述的部分属于本领域技术人员的公知技术。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的原理和范围,本发明的保护范围应以权利要求书所述为准。