华云慧通大数据算法:虚开发票智能识别

广东省税务局充分利用大数据、互联网技术,运用机器学习算法精准打击发票虚开行为。根据算法提供的线索,在部分地区成功找出一批虚开团伙,开启虚开打击“天眼”。

那么机器学习算法有何玄妙?

算法模型通常可以分为专家经验和机器学习两种类型。

机器学习则是通过大量的样本数据,让计算机自己从数据当中挖掘和发现规律,并且建立算法模型,从而能对未知数据集合进行预测的一种方法。它不需要或这很少依赖人为经验因素的干预,并且可以让预测结果更加精准。同时它还能有效解决目标群体变化的问题,不管目标群体的现实情况发生什么变动,只需要将新的数据给到计算机训练,它就能发现新的规律,建立适合目标群体情况的模型。

用一句行话来说“数据特征决定了所有算法的上限,而不同的算法只是离这个上限的距离不同而已”。因此特征是模型开发中的基础和核心,而按照处理程度不同,数据特征一般可分为简单特征和复杂特征。

简单特征是指没有经过加工的原始特征,比如纳税人的各种基本信息。

复杂特征则是指通过提取和加工的特征,比如企业四员关联关系,以及地址经纬度等。

而虚开发票预测这个算法用到的纳税人特征主要包括以下几个方面:

基本信息:包括行业、人员、资金等。

经营状况:进项、销项等。

四员信息:四员地区、年龄、关联企业等。

发票信息:顶额发票、省外发票、夜间开票等。

虚开发票预测算法的另外一个关键因素就是算法模型。机器学习算法模型很多,从模型的思路原理来看,可以分为三大类:线性模型、树形模型、距离模型。

不同的机器学习算法模型适合不同的业务场景,选择合适的模型十分关键。而虚开发票的现实情况相当复杂,不同的虚开户采用的作案手法千差万别,不能单纯用一种方法来简单识别。

为了让算法的通用性更强,我们针对线性、树形、距离三种类型,采用了逻辑回归、随机森林、支持向量机这三种模型作为Ensemble的基础模型,再综合考虑三套模型集合的结果。三套模型集合相当于三个专家团,最后再综合考虑三个专家团的意见,得出预测结果。

TIPS:逻辑回归(LogisticRegression)

逻辑回归又称逻辑回归分析,是一种广义的线性回归分析模型。因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同,都具有wxb,其中w和b是待求参数,其区别在于它们的因变量不同,多重线性回归直接将wxb作为因变量,即y=wxb,而逻辑回归则通过函数L将wxb对应一个隐状态p,p=L(wxb),然后根据p与1-p的大小决定因变量的值。

TIPS:随机森林(RandomForest)

决策树(DecisionTree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。

随机森林(RandomForest,简称RF)指的是利用多棵决策树对样本进行训练并预测的一种分类器。随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。

TIPS:支持向量机(SupportVectorMachine,SVM)

支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。建立方向合适的分隔超平面使两个与之平行的超平面间的距离最大化。其假定为,平行超平面间的距离或差距越大,分类器的总误差越小。

我们使用混淆矩阵中的准确度和召回率,以这两个指标对模型结果进行验证。混淆矩阵是表示精度评价的一种标准格式,包括各种指标,这些指标从不同的侧面反映了分类的精度。

以下图为例,大椭圆代表所有样本,红色椭圆代表实际的虚开户,蓝色椭圆代表算法预测出来的虚开户。

红色和蓝色交叉的紫色部分代表实际和预测都是虚开户,称为“真阳性”(TruePositive);它们以外的空白部分代表实际和预测都是正常户,称为“真阴性”(TrueNegative);红色椭圆与蓝色没有交叉的部分,实际是虚开户,但算法认为是正常户,称为“假阴性”(FalseNegative);蓝色椭圆与红色没有交叉的部分,实际是正常户,但算法认为是虚开户,称为“假阳性”(FalsePositive)。

准确度(Precision):真阳性/(真阳性假阳性),衡量一个算法模型预测结果够不够准确的指标。就是在所有预测出来的结果当中,预测正确的比例有多高。

召回率(Sensitivity):真阳性/(真阳性假阴性),或者叫敏感度,衡量算法模型识别率有多高的指标。就是在所有的虚开户里面,算法模型能识别出来的比例有多高。

经过多次迭代调试,以及不断的调整优化我们的算法模型。最终我们可以利用模型对纳税人的虚开发票进行预测与分析,使得准确度和召回率均达到用户接受的程度,为税务风险分析提供创新式实践。

华云慧通研发算法体系

北京华云慧通科技有限公司是领先的专注于云计算、大数据的新型高科技公司,以咨询规划、业务上云、数据采集、数据治理、数据智能五大核心能力,致力于为政务、行业、企业提供云计算、大数据、应用上云、数据上云、智能应用等整体解决方案。

THE END
1.大数据常用算法和分析模型大数据算法大数据常用算法和分析模型 1.线性回归(Linear Regression):线性回归是一种用于预测数值型变量的监督学习算法,它通过拟合一个线性函数来描述输入变量和输出变量之间的关系。 2.逻辑回归(Logistic Regression):逻辑回归是一种用于预测分类型变量的监督学习算法,它通过拟合一个逻辑函数来描述输入变量和输出变量之间的关系。https://blog.csdn.net/big_tank/article/details/131043044
2.大数据分析模型和算法模型的区别在当今的信息时代,数据以爆炸性的速度增长。大数据分析和算法模型成为科学研究、商业决策和技术开发中的重要工具。本文将探讨“大数据分析模型”和“算法模型”的区别,并通过一些代码示例帮助理解。 一、大数据分析模型 大数据分析模型是指在海量数据上进行分析、处理和挖掘的模型。这些模型通常有以下特征: https://blog.51cto.com/u_16213411/12040170
3.大数据分析建模有哪些算法帆软数字化转型知识库大数据分析建模有多种算法,包括决策树算法、支持向量机(SVM)算法、随机森林算法、K-means聚类算法、线性回归算法、逻辑回归算法、神经网络算法和贝叶斯分类算法。其中,决策树算法是一种使用树状模型对数据进行分类和回归的方法。决策树算法通过递归地将数据集分成更小的子集,同时相应地构建树结构,使其能够对未知数据进行https://www.fanruan.com/blog/article/71906/
4.美国金融银行业的大数据算法:随机森林模型+综合模型美国金融银行业的大数据算法:随机森林模型+综合模型 大数据的概念这两年非常火,对它的解读也是见仁见智。其实不管大数据也好,还是数据挖掘,或者机器智能,都只是个名词,代表了最先进的计算机数据存储和分析算法。它们的核心都是通过在看似变化莫测的数据中寻找规律来帮助解决实际问题,尤其是对未来的一些精准到个体的预测。https://cda.pinggu.org/view/1026.html
5.大模型算法和大数据算法工程师有什么区别说明:大模型算法和大数据算法工程师哪个就业前景好?大模型算法2023年招聘职位量 1.1K,较2022年增长了 18950%。大数据算法工程师2023年招聘职位量 287,较2022年下降了 4%。统计依赖于各大平台发布的公开数据,系统稳定性会影响客观性,仅供参考。 学历要求区别 https://www.jobui.com/gangwei/pk/damoxingsuanfa-dashujusuanfagongchengshi/
6.干货一文读懂工业大数据的算法与模型基本知识与应用算法和模型则是大数据分析体系中关键的核心问题,因此,本次慧都大数据对相关的基本概念和算法计算做一个系统的梳理和介绍。https://www.evget.com/doclib/s/14/10645
7.大模型和大数据的区别大模型和小模型的区别→MAIGOO知识摘要:大模型是指具有数百万或数十亿个参数的深度神经网络模型,这种模型经过专门的训练过程,能够对大规模数据进行复杂的处理和任务处理。本文将为大家介绍大模型和大数据的区别、大模型和小模型的区别、大模型和AIGC的区别等内容,希望能对您提供帮助和参考。 https://www.maigoo.com/goomai/1zEMMDMz.html
8.基于高阶多元马尔可夫模型的交通大数据分析研究学位通过机器学习的方法对交通场景建模,能够有效的利用交通数据,反映出交通模型的特征。将数据驱动的建模方法与传统交通流理论相结合,能使提高数据的使用效率和数据质量,使得所建立的系统模型更接近实际交通场景,提升模型对交通流数据分析预测的精确度和准确性。 本文设计了三种对交通场景建模及数据处理的算法:ARIMA模型(https://d.wanfangdata.com.cn/thesis/D01942233
9.电气工程与控制科学学院报告会:大数据研发中的智能算法——从介绍大数据研发中的核心技术——算法,也即人类记忆、回溯、认知和推理过程中的高效计算方法与算法模型。包括二大类:结构化数据的逻辑关联分析、及非结构化数据的语义关联分析,涉及复杂网络模型、图计算模型、数据挖掘、数据建模、动态规划、符号计算、计算机语义学、人工智能、机器学习等。主讲人将结合他们的算法研究实践https://eecs.njtech.edu.cn/info/1049/1585.htm
10.大数据网络传播模型和算法.pdf陈卫2020年版大数据网络传播模型和算法.pdf-陈卫-2020年版-人民邮电出版社 298页内容提供方:人民邮电出版社 大小:12.7 MB 字数:0 发布时间:2020-12-14发布于四川 浏览人气:315 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元) 作者:陈卫 出版社:人民邮电出版社 出版时间:2020-https://max.book118.com/html/2020/1214/5113211120003042.shtm
11.企业供销有难题?汇缴退税周期长?云链通算法模型来帮忙通过设置110个算法模型,搭建包括基础征管、纳税服务、政策支持等300余个标签的数据管理平台,自动对企业申报情况进行快速扫描、系统自动评估、形成“应享未享”企业清单,并依托税企互动平台开展“一企一策”提示提醒和跟进辅导,帮助企业及时享受优惠政策。https://www.jfdaily.com/news/detail?id=549451
12.多层概率决策的网络大数据协作融合算法AET摘要: 为了改善网络大数据传输效率及其精度,降低网络数据传输负荷,基于多层概率网络模型和联合决策研究了一种网络大数据协作融合算法。首先,以复杂异构多层网络的数据采集与缓存为对象,以实时感知数据及其准确处理为优化目标,设计了一种多层概率联合决策模型。接着,通过主层-分层和信号强度进行网络大数据的多维描述,结合3步http://www.chinaaet.com/article/3000084613
13.听起来很“性感”的大数据风控,为何会被“污名化”?对算法、大数据风控的盲目崇拜和错位应用,是极大的误区。 基于“了解你的客户”的原则,不同的客户群体、消费场景、产品设计所面临的风险点是不同的,没有一套风控模型可以包打天下;风控体系搭建非一日之功,数据驱动也非一针见效的灵丹妙药,需要不断的迭代、优化,小步快跑。 https://www.tmtpost.com/3029480.html
14.人工智能AI算力+边缘算力+大模型(垂直模型)算力+算法+数据,山洋深圳市山洋时代科技有限公司,位于中国Zui科技时尚的美丽海滨城市深圳;公司创建于2013年,专注于人工智能算力、云计算、边缘计算平台的智能感知物联网应用解决方案;通过人工智能AI算力、大模型(垂直模型)、边缘算法、5G移动互联网、物联网和大数据等技术,让算能、算法、数据融合起来,并通过一套完善的“互联网+端-边-云https://product.11467.com/info/29206391.htm