本发明属于数据挖掘、人工智能化,具体涉及一种基于在线增量学习机制的疾病知识图谱智能构建系统及其构建方法。
背景技术:
2、目前存在的疾病知识图谱智能构建系统,在应用于基于中文医学文本构建疾病知识图谱时主要存在着以下问题:(1)虽然可配置自动标注医学文本中医学概念的模型,但缺少在线增量学习机制,不能使得模型随着用户的标注进程不断进化;(2)机器学习模型的自动标注能力主要是体现在医学命名实体层次,但对医学实体关联的属性定义和属性识别能力尚不足;(3)缺少对医学概念标准化的智能支持;(4)缺少对医学概念及其关联属性的有效定义。正是由于这些问题的存在,使得在应用brat、tagtog、markup构建疾病医学知识图谱时,面临着所构建的疾病知识图谱规范化、标准化程度不够高等问题。
技术实现思路
1、为了解决现有技术的不足,本发明提供了一种基于在线增量学习机制的疾病知识图谱智能构建系统及其构建方法。在线增量学习(onlineincrementallearning)是指一个学习系统能不断地从新样本中学习新的知识,并实时快速地对机器学习模型进行调整。通过引入在线增量学习机制,本发明所构建的疾病知识图谱系统将能实时地从专家标注的疾病知识图谱中学习,不断调整底层的模型参数,提升自动标注医学概念和属性的准确度,使得疾病知识图谱的自动标注过程越来越准确、越来越智能。
2、本发明的目的通过以下技术方案来实现:
3、在线增量学习机制的疾病知识图谱智能构建系统,包括电性连接的,
4、知识表征模块:用于结构化表征疾病知识的语义信息模型;
6、人机交互模块:用于可视化展示和交互校对知识抽提算法的结果;知识融合模块:用于标准化知识图谱中的生物医学术语;
7、自动学习模块:用于基于专家制作的高质量知识图谱自动更新知识抽提算法的参数。
8、优选地,以上所述的在线增量学习机制的疾病知识图谱智能构建系统的构建方法,包括如下步骤:
9、s1、定义用于结构化表征疾病知识的语义信息模型形成知识表征模块,所述语义信息模型包括实体类型、实体属性和实体间关系;
10、s2、以给定生物医学文本为输入,利用知识抽提模块对文本中的主题疾病信息,以及与该疾病关联的基因、表型、检查和治疗实体及其关联属性信息进行知识抽提算法后输出;
11、s3、通过人机交互模块将文本中算法自动抽提出的疾病主题信息、实体及其关联属性信息进行高亮显示,并标记出其对应的实体类型信息进行交回,进行实体、属性的增加、删除、修改、关联等交互操作进行校正;
13、s5、利用自动学习模块通过自动在线增量学习机制,在专家完成算法自动抽提结果的校对后,将专家校对后的疾病知识图谱传递给用于知识抽提的机器学习模型,更新机器学习模型的参数,使系统随着专家校对的知识图谱不断积累完善。
14、优选地,所述实体属性包括且不限于为疾病实体类型、基因实体类型、表型实体类型、检查实体类型和治疗实体类型。
16、优选地,所述s2中知识抽提算法包括如下步骤:
17、s21,基于规则分析输入文本所描述的疾病主题;
18、s22、基于知识库和机器学习方法扫描输入文本中的实体信息和属性信息;
19、s23、基于机器学习方法识别实体关联的属性信息。
20、6、如权利要求5所述的在线增量学习机制的疾病知识图谱智能构建系统的构建方法,其特征在于:s21中的规则为:寻找文本中出现次数最多的疾病名称,或离提示疾病主题的关键词最近的疾病名称。
21、优选地,s22包括如下步骤:
22、基于知识库,使用最大正向匹配法扫描文本中出现的生物医学实体信息,其中,所述知识库为实体词典信息构成,包括国际疾病分类第十次修订本、人类表型本体、中国药典词典;
23、通过机器学习方法进行基于知识库方法的补充,识别未被词典收录的生物医学实体信息,所述识别采用序列标注方法。
24、优选地,s5中机器学习模型由预训练语言模型bert和条件随机场的组合构建。
25、本发明的有益效果体现在:本发明所述的构建方法能够有机地整合专家智能和机器智能的力量,通过引入在线增量学习机制推动底层机器学习模型不断进化,提升机器学习模型自动标注疾病知识图谱的能力,使得专家构建疾病知识图谱的效率越来越高。