一种基于大数据挖掘的医保反欺诈系统的制作方法

本发明涉及大数据分析处理技术技术领域,具体涉及一种基于大数据挖掘的医保反欺诈系统。

背景技术:

人社部公布的《2014年度人力资源和社会保障事业发展统计公报》显示,2014年全年城镇基本医疗保险基金总收入9687亿元,支出8134亿元,分别比上年增长17.4%和19.6%,尽管收仍然大于支,但收入增幅明显低于支出增幅,且很多地区的城镇职工医保资金出现收不抵支的情况,医保资金已不堪重负,而且现在各项医疗保险基金支出增长率均超过收入增长率。导致医保资金紧张局面的原因除了人口基数庞大和人口老龄化外,通过各种手段骗取医保资金造成的浪费尤为重要,据初步统计,医保欺诈造成的资金浪费占总医保资金支出的5%~10%左右。这些欺诈手段包括:挂床住院;病人和医生合谋伪造资料,倒卖高利润药品;使用医保卡套取现金、有价证券或购买日用品、食品;伪造、变造诊断证明、病历、处方等证明材料或虚假医疗票据、收费明细骗取基本医保基金支出等。

为监管医保资金支出,各地政府建立了医保反欺诈系统,这些系统主要是由熟知医保业务知识并有反欺诈侦测经验的专家建立的一系列规则库,这类系统称为基于商业规则的专家系统。这类反欺诈系统的规则一般较为简单,比如普通感冒病人的医保报销费用显著超过当地感冒治疗的平均费用时,认为是欺诈。此类医保反欺诈系统存在以下的缺限:只对已知的欺诈策略起作用,无法自动发现新的欺诈策略;难于维护和更新,当新政策出台时,必须手动更新规则库;新的欺诈策略很容易绕过内部定义的规则;受限于专家的知识水平,通常无法识别如医生和病人合谋欺诈的等场景。

技术实现要素:

本发明的目的在于克服现有技术的不足,提供一种基于大数据的医保反欺诈系统,解决了基于商业规则的医保反欺诈系统过度依赖专家知识水平和新的医保政策和新的欺诈策略对已有系统造成冲击的问题。

本发明的目的是通过以下技术方案来实现的:一种基于大数据挖掘的医保欺诈系统,它包括以下子系统:数据抽取、转换、加载子系统(etl)、大数据存储子系统、数据挖掘子系统、规则库和知识库子系统、实时流计算子系统和可视化子系统,所述数据抽取、转换、加载子系统(etl)与大数据存储子系统连接,大数据存储子系统与数据挖掘子系统连接,数据挖掘子系统与规则库和知识库子系统连接,规则库和知识库子系统与实时流子系统连接,大数据存储子系统、规则库和知识库子系统以及实时流计算子系统再分别与可视化子系统连接。

数据抽取、转换、加载子系统(etl)从系统外部数据库抽取、转换所需要的数据,并将处理后的数据加载到大数据存储子系统中;所述外部数据库包括关系型数据库、非关系型数据库和日志文件。

大数据存储子系统用于存储经过数据抽取、转换、加载子系统(etl)处理后的数据,存储数据类型包括结构化、非结构化以及半结构化数据;所用存储方式包括分布式关系型方式、非关系型数据库方式和分布式文件系统方式。

数据挖掘子系统包括分类、聚类、关联规则和社交网络图分析模块;其挖掘所需要的数据来自上述大数据存储子系统、规则库和知识库子系统,对存储在大数据存储子系统和规则库和知识库子系统中的数据运用预测、聚类、社交网络图分析等技术进行挖掘,形成模型、规则或知识,挖掘出的规则、模型和知识存储到规则库和知识库子系统;数据挖掘子系统还包括调度更新规则、模型和知识的功能。

规则库用于存储数据挖掘子系统挖掘的模型、规则或知识,并向数据挖掘子系统提供已有的规则或知识,其存储方式包括单机或分布式;知识库子系统用于存储数据挖掘子系统挖掘的模型、规则或知识,并向数据挖掘子系统提供已有的规则或知识,其存储方式包括单机或分布式,存储技术包括关系或非关系型数据库和文件存储系统。

实时流计算子系统运用规则库和知识库子系统中的规则或知识对新的医保报销数据进打标,标记为正常或欺诈,实时流计算子系统输入的数据包括上述存储在规则库和知识库子系统中的规则、模型或知识和外部业务系统新的报销数据;与外部业务系统的数据传输接口包括:消息队列接口和websocket接口;单独采用storm框架、单独采用spark框架和storm框架、spark框架两者均采用。

可视化子系统对大数据存储子系统中历史进行简单的统计分析并用图或表的形式进行显示;对规则库和知识库按表或图的形式进行显示;对实时流计算子系统打标为欺诈的医保报销记录进行可视化显示。

存储库包括关系数据库、非关系型数据库和文件存储系统。

本发明的有益效果是:

1)本发明是基于大数据挖掘技术的医保反欺诈侦测系统,解决了传统基于商业规则的专家系统中高于依赖于专家知识水平的限制,通过数据挖掘建立的规则较专家建立的规则更客观;

2)本发明基于数据挖掘的技术解决了传统基于商业规则的专家系统难以适应业务场景变化的情况,比如新的医保政策、新的欺诈策略和场景,解决了基于商业规则的专家系统面对变化需要手动更新规则库导致在规则更新之前系统处于无效状态的难题,由于近实时的模型学习和更新使这系统能对各种变化近实时地作出反映;

3)本发明从包括医保报销数据、医院门诊、住院数据、病人电子病历、药店销售数据等多维大数据中运用机器学习、神经网络、社交网络分析等数据挖掘技术挖掘出专家们难以发现的模型或知识,使用系统能识别出更复杂、更隐蔽的欺诈手段;

4)本发明解决了基于商业规则的专家系统将规则建立和规则更新与整个反欺诈系统分离的难题,基于数据挖掘的技术可以自动建立和更新规则库,无需外部的干扰。

附图说明

图1为本发明系统架构图;

图2为本发明系统数据流向图。

具体实施方式

下面结合具体实施例进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。如图1所示,一种基于大数据挖掘的医保反欺诈系统,它包括以下子系统:

1.数据抽取、转换、加载(etl)子系统

etl子系统的主要作用是从系统外部的数据库(包括各种存储业务数据的关系型数据库、文档型、键值型、图型等nosql数据库)或文件(如记录用户访问ip地址等信息的系统或业务日志文件)中抽取所需要的数据,并对数据进行必要的清洗和转换,再存储到到大数据存储系统中。

抽取的方法包括但不限于以下技术:

1)从同一数据库的多个表中合并数据

2)从多个同类型的数据库的不同表、集合中合并数据

3)从多个不同类型的数据库合并数据

4)从非结构化或半结构化数据中抽取结构化数据

5)从原记录或文档中抽取所用字段或属性的子集

清洗和转换的方法包括但不限于以下技术:

1)去除重复的记录

2)删除缺失具有重要意义的字段或属性的记录

3)去除不同字段名或属性名但含义相同的字段或属性

4)转换字段或属性的类型,如将日期类型转换成utc整型

5)将连续的数值类型转换为离散型,如将百分制成绩转换为等级

etl系统的组成包括但不限于以下技术:

1)flume

2)kafka

3)sqoop

2.大数据存储模块

用于存储经过etl子系统处理后的数据。

大数据存储系统包括但不限于以下分布式存储技术:

1)hdfs

2)hive

3)hbase

4)elasticsearch

5)cassandra

3.数据挖掘子系统

对存储在大数据存储子系统和规则库和知识库子系统中的数据运用预测、聚类、社交网络图分析等技术进行挖掘,形成模型、规则或知识,并将挖掘得到的模型、规则或知识存储或更新到规则库和知识库子系统中。

数据挖掘子系统包括但不限于以于机器学习和数据挖掘算法及其变种:

1)经典决策树

2)朴素贝叶斯

3)支持向量机

4)dbscan

5)kmeans

6)knn

7)fp-growth

8)各类神经网络

4.规则库和知识库子系统

用于存储数据挖掘子系统挖掘的模型、规则或知识,并向数据挖掘子系统提供已有的规则或知识。

规则和知识库包括但不限于以下技术:

1)关系型数据库

2)hdfs

3)hive

4)hbase

5)elasticsearch

6)pmml文件

7)其它规则和知识存储格式

5.实时流计算子系统

实时流计算子系统可以采用包含但不限于以下技术:

1)spark

2)storm

6.可视化子系统

主要对大数据存储子系统中历史进行简单的统计分析并用图或表的形式进行显示;对规则库和知识库按表或图的形式进行显示;对实时流计算子系统打标为欺诈的医保报销记录进行可视化显示。

如图2所示,反欺诈系统与业务数据流向为:通过基于大数据挖掘的医保反欺诈系统处理后的打标的报销记录输入到医保报销业务系统,医保报销业务系统将新报销记录传输给基于大数据挖掘的医保反欺诈系统中处理。

实施例1

如图1所示的基于大数据挖掘的医保反欺诈系统,在实际构建系统时,etl子系统可以用flume和kafka组成,大数据存储子系统可以选择hbase,通过将kafka部署系统外部的各个业务数据库服务器上,可以实时的抽取、转换各个业务数据库中的数据,并将处理后的数据存储到hbase中供数据挖掘子系统使用。

在系统初始时,规则库和知识库的内容为空,可以将已有的基于商业规则的专家系统中的规则库导入到系统的规则库中,数据挖掘子系统运用数据挖掘技术从存储在大数据存储子系统中的数据进行挖掘。针对大数据存储子系统中的数据是否有标记为欺诈或正常的特征,可分为二种挖掘方法:

1)无带是否欺诈特征的标记样本

运用包括但不限于如kmeas聚类算法,对报销的记录进行聚类,少数类的记录交由人工审计调查确定是否为欺诈,并将该标记字段追加到原数据中去,从而形成可以用于训练预测模型的带标记的样本集;然后运用这些样本训练预测模型。

2)有带是否欺诈特征的标记样本

运用包括但不限于如决策树算法,直接建立预测模型。

除了预测算法外,数据挖掘子系统可以运用社交网络图分析技术包括但不限于个性化pagerank等算法挖掘医生与病人之间的社交关系,发现可疑欺诈团伙,为原来的样本增加新的特征。

上面建立的预测模型若可以转换成规则,则存储或更新规则库;若不能,则直接将模型以包含但不限于pmml文件的形式存储到知识库中。

可视化子系统除上述的欺诈记分板功能外,还包括但不限于用图表等形式显示大数据存储子系统中的历史统计信息:

1)某一病人的历史报销的总金额、涉及的医生人数、不同的医院数等信息

2)某一医生涉及的历史报销总金额、涉及的病人人数等信息

可视化子系统还可以展示规则库和知识库中的信息,包括但不限于

1)具体的规则

3)可疑的欺诈团伙社交网络关系

基于大数据挖掘的医保反欺诈系统内部有两种方式更新规则、模型或知识:

1)周期性更新

数据挖掘子系统可以通过调度算法定期更新,该方法又包括两种:

b、实时更新。

基于大数据挖掘的医保反欺诈系统各个子系统以及子系统之间的数据交互可以根据不同的软硬件环境灵活的选择不同的技术,如实时流计算子系统可以选择storm,也可以选择spark。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的方法、系统和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本发明所揭露的方法、系统和模块,可以通过其它的方式实现。例如,以上所描述的实施例仅是示意性的,例如,所述模块的划分,可以仅仅是一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以说通过一些接口,系统或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述分立部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例的方案目的。

另外,在本发明各个实施例中的各功能子系统可以集成在一个系统中,也可以是各个子系统单独物理存在,也可以两个或两个以上子系统集成在一个系统中。

THE END
1.大数据挖掘的步骤是怎样的呢?大数据挖掘流程大数据挖掘是一个复杂而系统的过程,它利用计算机科学的方法和技术,对大量、多样化、高速增长的数据进行深入挖掘,以发现有价值的信息和知识。以下是大数据挖掘的主要步骤和方法: 一、大数据挖掘的步骤 数据收集: 从各种数据源中采集数据,包括结构化数据(如数据库中的表格)、半结构化数据(如XML、JSON等格式的数据)和非https://blog.csdn.net/weixin_54503231/article/details/141565108
2.什么是大数据挖掘方法帆软数字化转型知识库大数据挖掘方法是指通过使用各种技术和工具,从庞大的数据集中提取有价值的模式、知识和洞察的过程。大数据挖掘方法包括:数据预处理、数据清洗、数据集成、数据变换、数据挖掘、模式评估、知识表示。其中,数据预处理是大数据挖掘过程中至关重要的一步,涉及对原始数据进行清洗、转换和准备,以确保其质量和一致性。数据预处理https://www.fanruan.com/blog/article/602183/
3.数据挖掘论文精选5篇论文3.2 大数据挖掘方法 大数据时代缺的不是数据, 而是方法。大数据在旅游行业的应用前景非常广阔, 但是面对大量的数据, 不懂如何收集有用的数据、不懂如何对数据进行挖掘和利用, 那么“大数据”犹如矿山之中的废石。旅游行业所涉及的结构化与非结构化数据, 通过云计算技术, 对数据的收集、存储都较为容易, 但对数据的https://www.ruiwen.com/lunwen/1801458.html
4.《大数据挖掘:系统方法与实例分析》(周英卓金武卞月青)简介MATLAB官方(MathWorks)资深大数据挖掘专家撰写,MathWorks官方及多位专家鼎力推荐。从技术、方法、案例、*实践4个维度循序渐进地讲解了大数据挖掘技的流程、方法和原理。 作者:周英 卓金武 卞月青出版社:机械工业出版社出版时间:2016年05月 手机专享价 ¥ 当当价 降价通知 ¥57.00 定价 ¥79.00 配送http://product.dangdang.com/23955674.html
5.北京大学—化柏林:大数据分析与挖掘技术主讲人介绍:化柏林,博士,北京大学信息管理系助理教授、研究员、硕士生导师。主要从事大数据情报分析与知识抽取研究。主持国家自然科学基金项目、国家社科基金等课题5项,出版著作2部,发表论文50余篇。 (通讯员 李玉媛)2018年11月23日15:30,我院邀请北京大学化柏林教授来我院918会议室开展题为《大数据分析与挖掘方法》https://sim.ccnu.edu.cn/info/1047/6862.htm
6.大数据金融第二章大数据相关技术数据挖掘的任务:关联分析、聚类分析、分类、回归、预测、序列和偏差分析。 五 数据解释 数据解释是一个面向用户的过程,它是指将大数据挖掘及分析结果在显示终端以友好、形象、易于理解的形式呈现给用户。 (一) 数据可视化 数据可视化技术主要是通过图形化方法进行清晰、有效的数据传递。 https://www.jianshu.com/p/d68251554c66
7.大数据的数据挖掘方案有哪些?大数据的数据挖掘方案有:1、神经网络方法;2、遗传算法;3、决策树方法;4、粗糙集方法;5、覆盖正例排斥反例方法;6、统计分析方法;7、模糊集方法。关于数据挖掘,你必须知道的几个主要方法数据挖掘是一门交叉性的新兴学科,它将数据可视化、数据库技术、高性能计算机、统计学、机器学习、模式识别、人工智能等多个范畴的https://www.linkflowtech.com/news/1986
8.什么是工业大数据常用的五种大数据分析方法星云联动大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法才能深入数据内部,挖掘出公认的价值。 语义引擎 我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,https://www.istarscloud.com/electricity/3403.html
9.数据挖掘技术方法(精选十篇)大数据是下一个社会阶段的金矿和石油[3]。这对于审计人员既是挑战又是机遇。作为审计的核心方法———数据分析,能否有效地从各种超大规模的数据集中提取、挖掘有价值的信息,这将直接关乎审计效率。 1.3.2 全数据模式可以增加审计数据分析工作的精准性 在传统审计工作中,由于数据的繁杂,一般采用数据抽样分析。而大数据https://www.360wenmi.com/f/cnkeyg31vygx.html
10.数据挖掘与分析的六种经典方法论最近梳理了一下数据挖掘与分析的常用方法论,这里简要介绍6种模型。 1、CRISP-DM 模型 CRISP-DM是CrossIndustry Standard Process for Data Mining(跨行业数据挖掘标准流程)的字母缩写。CRISP-DM是由一家欧洲财团(时称SIG组织)在20世纪90年代中后期提出来的,是一套用于开放的数据挖掘项目的标准化方法,也是业内公认https://www.niaogebiji.com/article-30475-1.html
11.空间数据挖掘常用的17种方法腾讯云开发者社区PPV课大数据学习社区如果你对大数据感兴趣;如果你想转行做大数据;如果你想了解大数据是怎么改变我们生活,请点标题下蓝字关注PPV课大数据 问题1:空间数据挖掘有哪些常用方法,举例说明一种方法的原理及应用. 答:空间数据挖掘的常用方法有:统计法,聚类方法,关联规则发掘方法,Rough集方法,神经网络方法,云理论,证据理论,模糊https://cloud.tencent.com/developer/article/1101337
12.华为认证大数据方向(HCIE通过HCIE-Big Data认证,将证明您系统理解并掌握大型并行处理数据仓库平台的架构原理、分布式关系型数据库的设计和优化及应用开发;掌握大数据挖掘的基本原理,常用算法、常用挖掘方法、对华为大数据挖掘解决方案FusionInsight Miner和华为云机器学习服务MLS的熟练使用,胜任数据仓库开发、大数据分析、大数据数据挖掘和人工智能的相关http://m.edufly.cn/huawei/hcie/549.html
13.胡焕庸线存在性的大数据分析——中国人口分布特征的生态学及新由此可见, 这个数据体系由于其数据量和和数据源的多样性, 构成了一个大数据集合, 构成使用大数据挖掘方法分析的科学基础。由于缺少我国台湾地区的数据,所以在图中采用虚线表示我国台湾地区的疆域。 1.2 胡焕庸线的计算 根据胡焕庸线的表述, 胡焕庸线是从爱辉(今黑龙江黑河)到云南腾冲的一条直线, 在图1中绘制了https://www.ecologica.cn/stxb/ch/html/2019/14/stxb201812212776.htm