大数据审计应用实践初探

随着大数据的产生和发展,大数据已成为一种非常重要的战略资源,并在提升产业竞争力、国情分析和社会管理等方面发挥着愈发重要的作用。同样,审计机关在执行审计监督的过程中,运用大数据审计在加快构建集中统一、全面覆盖、权威高效的审计监督体系起到了不可替代的作用。目前,大数据审计工作模式及应用已贯穿审计全过程,提升了审计跨领域、跨层级、跨系统、多思维的数据分析水平,推进了审计全覆盖。加大财务数据与业务数据、单位数据与行业数据以及跨行业、跨领域数据的综合比对和关联分析,可极大提升审计效率,使“大海捞针”变为“重点撒网”,使审计的深度、广度和精度得以实现新的拓展,推动审计工作迈向大数据审计时代。本文从大数据审计内涵及特征入手,重点通过关联分析,对大数据审计的应用做初步探讨。

一、大数据审计内涵及特征

(一)大数据审计的概念

(二)大数据审计的特征

2.技术特征。“审计全覆盖”的要求使得大数据审计的范围大大扩充,审计对象更加复杂多样。与此同时,数据跨行业、跨部门、跨领域,信息系统复杂多样,使得数据采集、预处理、分析挖掘和可视化技术应用更加复杂化、多样化、精益化和动态化。

二、大数据审计的技术方法

(一)关联分析

(二)结构分析

(三)趋势分析

(四)数据挖掘

数据挖掘是指从大量的数据中自动搜索隐藏于其中的信息的技术。审计数据挖掘是指审计人员使用离群点挖掘、孤立点检测、异常点检测、聚类分析和关联规则等方式确定审计问题的一种方法。

三、大数据审计的步骤

(一)数据采集

审计数据采集不仅会影响到对被审计单位的审计结论,还会影响审计项目资源的投入产出,因此审计数据采集是审计项目开展的重要环节。审计数据采集应满足以下原则:一是应能实现审计实施方案的审计目标,二是要在对被审计单位业务流程、信息系统充分了解基础上进行数据采集,三是不仅要采集被审计单位的内部数据,还要选择外部关联数据。在数据采集方式上可以采取联网数据共享与采集、定点采集和定期报送方式实现。

(二)数据储存

由于大数据的容量大、类型多、范围广等特点,造成审计机关采集数据储存方式难。要实现大数据的有效储存,一是做好大数据的顶层设计和统筹规划,二是加快实施“金审三期”工程,完成“审计云”建设,为下一步数据储存提供明确的方向和思路。

(三)数据清洗

数据清洗主要内容是检查、分析数据的质量,修正数据。审计数据清洗的任务是过滤不完整、错误和重复的数据,只有通过清洗与过滤得到干净完备的数据,才能通过分析与挖掘得到可用于支撑审计问题和决策的数据基础。

(四)数据分析

2.分析审计数据模型。主要是指为实现分析模型,需要哪些具体的审计数据,根据已建立的审计分析模型,确定待用的基础表,并且要对具体的数据进行研究,确定各字段、代码和业务数据具体内容代表的含义等。分析的过程中,需要综合数据词典和数据库说明等技术文档对数据的含义,对业务流程的理解等方面的认知情况,对数据产生全面、深入的认识。

3.建立分析性“中间表”。利用被审计单位数据库中的数据来实现审计分析,要对清理、转换后的基础数据按审计目的进行“再加工”,从基础数据中选择出所需要的数据,生成能完成审计分析的数据表。为了实现最终的分析,在数据分析的过程中往往需要构建多个数据表,这就是分析性“中间表”。建立审计分析性“中间表”一般是通过对选定的基本表进行“投影”“联接”等操作来实现。

4.完成审计模型分析。按照分析模型,采用一定的方式、方法,对数据进行具体的分析,得出结果,完成分析。审计的数据分析可分为三个层次:第一个层次为数据分析人员通过sql、oracle等语言来交互式地描述查询要求,对数据库中的记录进行访问和查询,实现查询型分析;第二个层次为数据分析人员先提出自己的假设,然后利用各种工具和方法进行反复递归的检索查询发现问题,实现验证型分析;第三个层次为数据分析人员通过趋势分析和行为分析,挖掘出大数据中可能被忽略的信息,为审计人员作出前瞻性的决策提供帮助,实现挖掘型分析。

(五)疑点核实

目前数据分析结果不能直接作为审计结论,必须要通过查证延伸,才能获取被审计单位的认可。也就是说,数据分析结果只是缩小审计范围,提取出“嫌疑数据”,提高延伸审计的质量,得出审计结论还是要经过审计查证这一过程。

四、大数据实践与探索--关联分析的应用

(一)纵向关联分析应用

1.资金维度数据分析。某省财政部门使用的是财政预算管理信息系统。其中,指标管理系统包含FROMCTRLID和TOCTRLID两个字段,将指标管理系统里的指标流向串联起来;该系统中包含映射表,控制可执行指标、国库集中支付和总预算会计账务系统的对应关系,跟踪资金的最终流向,确定最终收款方;该系统可以将指标、用款计划、支付申请、支付凭证、总预算会计凭证等关联起来,实现资金流向的逐层分析。如可按照项目资金流,先从指标管理系统查询项目资金下达中涉及单位及执行情况,再通过国库集中支付系统查询该项目对应资金的最终收款方,对资金流进行追踪,筛选出同一企业享受多种不同财政补助、相似项目多头申报财政补助、连续多年财政直接支付给相同个人等疑点线索,看是否存在资金沉淀、资金滞留财政及部门当年未实际支出等问题。

2.业务维度数据分析。医院管理信息系统(HIS)主要包括药库、药房、门诊、住院四个管理子系统的电子数据,存储的每一条记录都有明确含义,存在紧密的业务对应关系,因此可利用其业务关系建立审计分析模型,发现问题线索。如在医院财政财务收支审计中,审计人员可通过病人的住院天数计算出实际应按天收取的床位费、护理费、暖气费等项目,再以病人ID号为关键字进行关联,计算应收与实收的医疗费用差额,看医院是否存在多收病人医疗费的现象。

(二)横向关联分析应用

横向关联分析是指通过使用关联数据的关键字段对来自同一部门不同业务系统之间或者不同部门业务系统之间数据关联比对,实现不同数据库的整合展示,发现审计疑点线索。其中关联字段比较常用的有身份证号码、统一社会信用代码、工商登记号等。

1.同一部门不同账务系统数据分析。审计人员可借助外部数据发现关联事项,再顺藤摸瓜进行关联审计,揭示一些现象后面掩盖的真相。如通过比对被审计单位的财务账和工会账等,可发现部分房租收入列入单位工会而未做单位财务收入;部分资金,如接受捐赠、变卖资产等,长期体外循环,单位不列收列支的情况等,诸如这类违纪违法活动,单从单位财务账很难发现端倪。

2.不同部门业务系统间数据分析。不同部门间数据关联比对往往以一个数据为主,其他业务数据起到佐证作用,称为“1+N”数据模式,通常可以包含财务数据和业务数据,也可以包含多个业务数据和行业数据,例如在扶贫资金审计中,因为扶贫资金发放面广、链长、点多、量小,要做到审计监督全覆盖必须创新审计方式方法,强力推进大数据关联分析。其中各类资金发放都有相应的政策法规规定,一些还有比较严格的条件限制,而这些前提条件往往可通过其他部门业务数据间接佐证。利用多部门数据间的关联关系,以贫困人口建档立卡、危房改造、低保户信息为主,身份证号作为关键关联字段,分别与财政供养人员、工商登记、个人所得税、房产、车辆、证券、医保、死亡人员信息等数据关联比对,可发现扶贫对象、危旧房改造对象、低保户认定不精准和扶贫资金安全方面问题线索,大大提升了精准审计力度和工作效率。

3.外部数据关联分析。部分业务数据作为外部数据被广泛应用于各类审计项目中,如工商登记和税务信息等。例如通过将财政供养人员与工商登记信息比对分析,可发现公职人员经商办企业的问题;通过将企业领导干部与个人所得税信息进行比对分析,发现领导干部兼职取酬的问题。

THE END
1.数据挖掘入门:三步教你轻松破解复杂数据无论是企业决策、市场分析还是科学研究,数据挖掘都在帮助我们从海量数据中提取有价值的信息和知识。本文将通过三个简单步骤,帮助你轻松入门数据挖掘,并逐步掌握这门技术。步骤一:理解基本概念数据挖掘是从大量数据中挖掘出未知且有价值的信息和知识的过程。它结合了数据库技术、机器学习、统计学和可视化方法,帮助我们https://baijiahao.baidu.com/s?id=1811612301183056951&wfr=spider&for=pc
2.数据挖掘分析方法本文主要讲述数据挖掘分析领域中,最常用的四种数据分析方法:描述型分析、诊断型分析、预测型分析和指令型分析。 1. 描述型分析:发生了什么? 这是最常见的分析方法。在业务中,这种方法向数据分析师提供了重要指标和业务的衡量方法。 例如,每月的营收和损失账单。数据分析师可以通过这些账单,获取大量的客户数据。了解客https://www.elecfans.com/d/834681.html
3.数据挖掘的分析方法可以划分为关联分析序列模式分析分类分析和数据挖掘分析方法指南 数据挖掘是从大量数据中提取有用信息的方法,主要分为四种分析方式:关联分析、序列模式分析、分类分析和聚类分析。在本指南中,我们将详细介绍这四种方法的实现过程,并提供相应的代码示例。 数据挖掘流程 首先,我们需要明确数据挖掘的基本流程,如下表所示: https://blog.51cto.com/u_16213297/12863680
4.7种数据挖掘的分析方法,实际嘲该怎么应用?数据挖掘的分析方法有:分类 (classification)、 估计(estimation)、 预测(prediction)、 相关性分组或关联规则(affinity grouping or association rules)、 聚类(clustering)、 描述和可视化(description and visualization)、 复杂数据类型挖掘https://www.fanruan.com/bw/sjwjal
5.干货数据挖掘的10大分析方法腾讯云开发者社区【干货】数据挖掘的10大分析方法 1.C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法.C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1)用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;https://cloud.tencent.com/developer/article/1041761
6.基于属性分类的数据挖掘方法本文介绍的数据挖掘方法分为两个大步骤, 第一步进行数据的收集和整理, 形成基础表进行准备工作; 第二步是对基础表进行属性分类, 并发现其中的关系, 形成决策规则.数据分析师培训 CDA数据分析师考试相关入口一览(建议收藏): ? 想报名CDA认证考试,点击>>>“CDA报名”了解CDA考试详情; https://cda.pinggu.org/view/17168.html
7.数据挖掘常用分析方法与算法研究.pdf臂浇兆踞玖勉晌揣捆彰宫甸捻厂去荡数据挖掘常用分析方法与算法研究椽啪础谩吊瘩硫飞啪屈次孽谜犀媒尘芳扔针制气估盎捷赊募卤驰禽颜该娘须十很苗静辣贡映府灭详眩俘纸制反榔亩沙俊堕栈西厩屋建余玻哲只瞬消俺勿蔬脾挝恕抑购扔凭搏兼轿箕公键作蛔兑惟部计抓纺苦石赏郁尧谋恐无躲斌贿穿咸规削图https://max.book118.com/html/2017/0629/118893352.shtm
8.数据挖掘与分析的六种经典方法论最近梳理了一下数据挖掘与分析的常用方法论,这里简要介绍6种模型。 1、CRISP-DM 模型 CRISP-DM是CrossIndustry Standard Process for Data Mining(跨行业数据挖掘标准流程)的字母缩写。CRISP-DM是由一家欧洲财团(时称SIG组织)在20世纪90年代中后期提出来的,是一套用于开放的数据挖掘项目的标准化方法,也是业内公认https://www.niaogebiji.com/article-30475-1.html
9.商战数据挖掘:你需要了解的数据科学与分析思维数据科学的一条重要原则是,数据挖掘的流程可以分解为几个通俗易懂的环节。有些环节涉及信息技术的应用,如数据中模式的自动发现和评估,而有些则主要依赖数据分析师的创意、常识和商业知识。理解数据挖掘的整个过程,有助于组织数据挖掘项目,使它们更接近系统性的分析,而不是凭借运气和个人智慧的冒险行为。 https://www.ituring.com.cn/book/tupubarticle/28952
10.(3)数据分析中十大经典算法解析——机器学习中的数据挖掘方法数据挖掘(Data Mining)是指从大量的数据中提取有效信息,并应用于决策、预测或其他目的的一门学科。本文将通过简要介绍十大经典的机器学习算法,对数据挖掘的重要性和应用场景进行阐述。 2.数据挖掘的定义 数据挖掘是指从海量数据中提取有价值的信息,并运用这些信息进行高效决策的过程,属于计算机科学的一个重要分支。 https://download.csdn.net/blog/column/9462993/132507321
11.大数据分析方法五种大数据分析的方法有可视化分析,数据挖掘算法,预测性分析能力,数据质量和数据管理。 大数据分析方法五种 企服解答 大数据分析的方法有可视化分析,数据挖掘算法,预测性分析能力,数据质量和数据管理。 1、可视化分析 大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化https://36kr.com/p/1481724298822022.html
12.数据挖掘的常用方法都有哪些?在数据分析中,数据挖掘工作是一个十分重要的工作,可以说,数据挖掘工作占据数据分析工作的时间将近一半,由此可见数据挖掘的重要性,要想做好数据挖掘工作需要掌握一些方法,那么数据挖掘的常用方法都有哪些呢?下面就由小编为大家解答一下这个问题。 首先给大家说一下神经网络方法。神经网络是模拟人类的形象直觉思维,在生物http://api.cda.cn/view/26507.html
13.苏木亚及其学术专著《基于谱聚类的金融时间序列数据挖掘方法研究》该专著围绕谱聚类方法及其在金融时间序列数据挖掘中的应用展开研究。在理论分析与算法设计部分提出两种谱聚类方法并对谱聚类矩阵进行扰动分析,另外还提出了两种基于成分分析的单变量时间序列谱聚类方法。在实际应用部分利用本文提出的算法首先对欧洲主权债务危机背景下的全球主要股指进行联动性分析,再对国内开放式基金的投资风https://news.imu.edu.cn/info/1076/16128.htm
14.大数据金融第二章大数据相关技术指根据业务的需求和目的,运用合适的工具软件和数据挖掘方法对数据仓库中的数据信息进行处理,寻找出特定的数据规律或数据模式,得出有价值的信息和知识。 (二) 对象 数据挖掘的对象:根据信息存储格式,分为关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internethttps://www.jianshu.com/p/d68251554c66
15.数据处理方法有哪些,掌握这些技巧让你轻松应对数据分析问题2.数据挖掘方法:数据挖掘是从大量数据中发现隐藏在其中的有价值的信息的过程。数据挖掘方法包括分类、聚类、关联规则挖掘、异常检测等。 3.数据分析方法:这是一种关注于分析数据中存在的模式、趋势、关联关系和异常变化的方法。数据分析方法主要包括统计分析、人工智能算法以及机器学习算法等。 https://www.jiandaoyun.com/fe/sjclffynxz/