华云慧通大数据算法：虚开发票智能识别|大数据算法模型_在线学习

广东省税务局充分利用大数据、互联网技术，运用机器学习算法精准打击发票虚开行为。根据算法提供的线索，在部分地区成功找出一批虚开团伙，开启虚开打击“天眼”。

那么机器学习算法有何玄妙？

算法模型通常可以分为专家经验和机器学习两种类型。

机器学习则是通过大量的样本数据，让计算机自己从数据当中挖掘和发现规律，并且建立算法模型，从而能对未知数据集合进行预测的一种方法。它不需要或这很少依赖人为经验因素的干预，并且可以让预测结果更加精准。同时它还能有效解决目标群体变化的问题，不管目标群体的现实情况发生什么变动，只需要将新的数据给到计算机训练，它就能发现新的规律，建立适合目标群体情况的模型。

用一句行话来说“数据特征决定了所有算法的上限，而不同的算法只是离这个上限的距离不同而已”。因此特征是模型开发中的基础和核心，而按照处理程度不同，数据特征一般可分为简单特征和复杂特征。

简单特征是指没有经过加工的原始特征，比如纳税人的各种基本信息。

复杂特征则是指通过提取和加工的特征，比如企业四员关联关系，以及地址经纬度等。

而虚开发票预测这个算法用到的纳税人特征主要包括以下几个方面：

基本信息：包括行业、人员、资金等。

经营状况：进项、销项等。

四员信息：四员地区、年龄、关联企业等。

发票信息：顶额发票、省外发票、夜间开票等。

虚开发票预测算法的另外一个关键因素就是算法模型。机器学习算法模型很多，从模型的思路原理来看，可以分为三大类：线性模型、树形模型、距离模型。

不同的机器学习算法模型适合不同的业务场景，选择合适的模型十分关键。而虚开发票的现实情况相当复杂，不同的虚开户采用的作案手法千差万别，不能单纯用一种方法来简单识别。

为了让算法的通用性更强，我们针对线性、树形、距离三种类型，采用了逻辑回归、随机森林、支持向量机这三种模型作为Ensemble的基础模型，再综合考虑三套模型集合的结果。三套模型集合相当于三个专家团，最后再综合考虑三个专家团的意见，得出预测结果。

TIPS：逻辑回归（LogisticRegression）

逻辑回归又称逻辑回归分析，是一种广义的线性回归分析模型。因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同，都具有wxb，其中w和b是待求参数，其区别在于它们的因变量不同，多重线性回归直接将wxb作为因变量，即y=wxb，而逻辑回归则通过函数L将wxb对应一个隐状态p，p=L(wxb),然后根据p与1-p的大小决定因变量的值。

TIPS：随机森林（RandomForest）

决策树(DecisionTree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。

随机森林（RandomForest，简称RF）指的是利用多棵决策树对样本进行训练并预测的一种分类器。随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。

TIPS：支持向量机（SupportVectorMachine，SVM）

支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。建立方向合适的分隔超平面使两个与之平行的超平面间的距离最大化。其假定为，平行超平面间的距离或差距越大，分类器的总误差越小。

我们使用混淆矩阵中的准确度和召回率，以这两个指标对模型结果进行验证。混淆矩阵是表示精度评价的一种标准格式，包括各种指标，这些指标从不同的侧面反映了分类的精度。

以下图为例，大椭圆代表所有样本，红色椭圆代表实际的虚开户，蓝色椭圆代表算法预测出来的虚开户。

红色和蓝色交叉的紫色部分代表实际和预测都是虚开户，称为“真阳性”（TruePositive）；它们以外的空白部分代表实际和预测都是正常户，称为“真阴性”（TrueNegative）；红色椭圆与蓝色没有交叉的部分，实际是虚开户，但算法认为是正常户，称为“假阴性”（FalseNegative）；蓝色椭圆与红色没有交叉的部分，实际是正常户，但算法认为是虚开户，称为“假阳性”（FalsePositive）。

准确度（Precision）：真阳性/（真阳性假阳性），衡量一个算法模型预测结果够不够准确的指标。就是在所有预测出来的结果当中，预测正确的比例有多高。

召回率（Sensitivity）：真阳性/（真阳性假阴性），或者叫敏感度，衡量算法模型识别率有多高的指标。就是在所有的虚开户里面，算法模型能识别出来的比例有多高。

经过多次迭代调试，以及不断的调整优化我们的算法模型。最终我们可以利用模型对纳税人的虚开发票进行预测与分析，使得准确度和召回率均达到用户接受的程度，为税务风险分析提供创新式实践。

华云慧通研发算法体系

北京华云慧通科技有限公司是领先的专注于云计算、大数据的新型高科技公司，以咨询规划、业务上云、数据采集、数据治理、数据智能五大核心能力，致力于为政务、行业、企业提供云计算、大数据、应用上云、数据上云、智能应用等整体解决方案。

THE END

华云慧通大数据算法：虚开发票智能识别

全网最全的算法模型总结，一直被模仿，从未被超越…聚类因变量

华云慧通大数据算法：虚开发票智能识别

电子商务行业大数据分析采用的算法及模型有哪些?

省大数据局关于印发贵州省数据要素登记服务管理办法（试行）的通知

关于税收大数据赋能风险管理的思考

国金计算机AI模型算法助力数据分析服务行业数智化转型财富号

大数据慧眼：金华如何用算法照亮流动儿童的未来？

“三阶梯七联动三育人”的高职“课堂革命”探索与实践

中国大数据算法大赛京东赛区冠军出炉看京东如何玩转大数据

罗普特科技集团股份有限公司