淄博市审计局内审天地基于大数据+的全寿命4C审计模型构建及应用研究|数据预处理_在线学习

2018年5月，习近平总书记在中央审计委员会第一次会议中讲到，要善于运用新技术、新手段，坚持科技强审，积极推进大数据审计。进一步为新时期审计的发展指明了方向。2018年1月，审计署印发第11号令《审计署关于内部审计工作的规定》，要求内部审计对本单位及所属单位经济活动、内部控制、风险管理等实施独立、客观的监督、评价和建议。面临新时期大数据环境，传统的内部审计管理模式、技术方法将逐渐跟不上时代发展的脚步。

早在2012年3月，美国奥巴马政府就率先启动了“大数据发展计划”，将大数据上升为国家战略；2016年5月，我国制定出台大数据产业“十三五”发展规划，推进大数据技术创新和产业发展。国内各企业大数据建设也有序推进，国家电网有限公司提出“数字国网”顶层设计，优化企业级数据模型。大数据的出现颠覆了传统的数据管理方式，随着大数据与各行业的深度融合，进一步释放了大数据的能量，从而改变了当今社会每一个行业的管理和生产经营模式。

目前审计在大数据应用方面，仍存在一些问题，主要包括专业壁垒凸显、数据未有效共享、大数据审计流程不够贯通，不能快速、精准发现隐藏于大数据之下的深层次问题和风险；构建审计模型不能动态循环、迭代优化，不能实现数据全过程有效连接；大数据统计分析作用发挥不够充分，数据在快速、高效应用上存在缺陷，有了“大”数据，没有实现期待中的“大”作用。本文基于大数据快速发展的背景，借助大数据思维重构审计实施流程，提出基于大数据+的全寿命4C审计模型的构建，将孤立的、静态的数字，逐步转化成分层的、流动的、系统的数据，提高审计效率、效果。

（一）关于大数据的研究

对于大数据（Bigdata），国内外政府机构、企业和专家从不同角度给出了不同的定义。2011年5月，麦肯锡发布《大数据：下一个具有创新力、竞争力与生产力的前沿领域》，表明大数据时代的到来，并指出“大数据技术描述了一个技术和体系的新时代，被设计用于从大规模、多样化的数据中通过高速捕获、发现和分析技术提取数据的价值”；美国国家标准和技术研究院（NIST）认为，“大数据是指由于数据的容量、数据的获取速度或者数据的表示限制了使用传统关系方法对数据的分析处理能力，需要使用扩展的机制以提高数据处理效率的技术”；大数据专家维克托·迈尔-舍恩伯格在其经典著作《大数据时代》中指出，大数据“是当今社会所独有的一种新型能力，以一种前所未有的方式，通过对海量数据进行分析，获得有巨大价值的产品和服务，或深刻的洞见。”

由此可见，大数据包含了数据和技术两层含义，数据必须经过采集、存储、分析等技术处理，才能体现其潜在价值。如何利用好大数据对审计领域产生的冲击，是内部审计研究的重要课题。

（二）关于大数据对审计影响的研究

2014年，AICPA发布了一份白皮书，名为《Reimaginingauditinginawiredworld》（在数字世界里重构审计），研究了大数据环境对审计工作的影响，并通过数据分析技术，理顺被审计数据中的关联关系，发现审计线索；2015年，Earley描述了大数据技术在CPA审计中的应用，并分析了给审计工作带来的机遇和挑战；2015年，Wang在调查工作中发现，社会和内部审计人员对大数据审计的重视和应用还远远不够，同时在开展时还存在各种困难，包括难以获得合适的数据、不知道从哪里开始、审计收益与成本不确定，建议从8个方面研究大数据审计存在的问题。

图1大数据审计原理

（三）关于审计模型的研究

大数据审计于传统审计相比较，其中一个主要特点是模型的构建和应用。因此，大数据时代下，数据建模是审计流程构建的核心，隐藏于大数据之下的深层次问题必须依托诸多模型相互融合的模型库，才能找出其本质与规律，才能从庞大的信息流中分辨、析取、整理、挖掘出对审计有用的信息。

简单来说，审计模型就是数学公式或逻辑表达式，结合目前研究成果，本文将审计模型概念分为广义和狭义两种（见图2）。

1.狭义分类。通常情况下，指的是审计分析模型，是大数据审计流程的一部分。2016年，刘汝焯编著的《审计分析模型算法》中指出，它是审计人员根据既定目标，按照审计事项应该具有的性质或数量关系，设置一定判断、限制的分析条件，建立一个个数学或逻辑表达式，用于验证审计事项实际的性质或数量关系，来判断审计事项的真实情况。

（一）全寿命4C审计模型内涵

1.全寿命4C审计模型。是指在大数据环境下，在企业数据全面采集的基础上，参考大数据处理流程，重新梳理审计步骤，在审计准备、审计实施、审计完成等阶段，分别构建数据预处理模型（Collection）、审计分析模型（Clue）、结果展示模型（Cognition）以及质量控制模型（Control），赋予全寿命周期管理，实现智能优化迭代，提高数据的应用效率和效果（见图3）。

第一层数据预处理模型，是指在企业数据实现全采集的基础上，在数据初步清洗、转换、归集阶段构建的模型，将数据分类存放在不同的审计主题库中。

第二层审计分析模型，是指根据具体审计目标和要求，提取不同主题库数据，建立审计中间表，把握总体、具体分析，精准定位问题线索，现场取证验证。

第三层结果展示模型，是在系统分析的基础上，将审计成果通过数据变动趋势、占比、问题分类等维度可视化的方式展示出来，辅助理解数据，增强数据吸引力，深化审计成果应用。

第四层质量控制模型，是指在数据持续更新、审计目标变动的情况下，调整各层审计模型内容和方法，对比分析、查找漏洞，形成针对不同模型的质量考核指标体系。

图3全寿命4C审计模型构建示意图

（二）全寿命4C审计模型构建思路

图4电网企业业务系统数据源

2.构建全寿命4C审计模型。依托企业大数据平台（中心），应用大数据技术，按照层层递进的审计流程，构建4C审计模型，实行全寿命周期管理。

在4C审计模型中，数据预处理模型（Collection）是系统建模的开端，通过清洗、转换、关联等，实现数据智能化；分析模型（Clue）是核心，通过总体和个体分析，实现线索疑点精准化；结果展示模型（Cognition）是关键，注重审计成果的深化应用，输出结果可视化；质量控制模型（Control）是提升，实现数据、模型的更新持续化（见图5）。

图5全寿命4C审计模型框架示意图

（一）建立数据预处理模型，审计数据智能化

数据预处理就是对获取的原始数据，通过审核、筛选、排序等程序，完成分类或分组。在大数据审计流程中，通常有数据清洗、转换、验证等方面。建立企业的审计数据主题库，实现数据的智能分类，在现有技术、人员和资金投入的情况下，能够更加高效地利用采集到的数据信息。

3.设计数据清洗条件。未清洗的数据通常会对数据分析带来准确性降低、效率不高的问题，不完整的数据对审计分析带来影响。审计数据清洗工作主要包括替换空值、消除冗余数据、修改错误值、解决数据中的冲突等，通过对数据的匹配与合并，保留或生成一个完整的对象。

5.建立主题数据库。审计搜集到的数据来自多个不同系统，通过数据清理、转换、集成等一系列预处理，将采集的数据按照统一的格式输出。将所获取的审计数据，按照类别不同建立主题的、集成的、相对稳定的、反映历史变化的数据主题库，满足数据分析、决策支持、成果应用的需求。

（二）建立审计分析模型，问题线索精准化

围绕持续审计事项，从主题库中提取数据建立审计中间表，按照一定的模型构建条件建立审计分析模型,可分别从系统、类别、个体三个层面建立分析模型（见图6）。

1.创建审计中间表。审计中间表是在经过数据转换、清理、验证后的原始数据基础上，按照不同的审计目标和任务，经过进一步有效选择、整合重建的数据表格，具有针对性强、可直接表内或表间分析的特征。也就是说，审计中间表是建立审计分析模型的基础。

中间表一般可分为基础性中间表和分析性中间表。基础性中间表是结合被审计单位的总体经营情况和数据结构，包括主题数据库中的数据表，或者根据不同的分析主题生成的反映企业总体情况的中间表；分析性中间表是根据具体的审计目标和分析需求生成的，通过对基础中间表的进一步筛选、组合、关联，用于特定目的的审计中间表。

2.建立系统分析模型。围绕企业目标和主要指标，从整体、系统的层次上开展总体经营、运营状况进行分析和评估，从而掌握被审计单位经营、管理等方面的总体情况，并根据分析结果初步确定重点审计范围。

3.建立类别分析模型。在对企业整体情况进行分析的基础上，按照被审计单位的关键业务和数据特点，构建不同业务类别的审计分析模型，确定审计重点，为个体分析模型的构建提供依据。

5.审计疑点验证。对输出的疑点数据根据筛选规则进行风险特征复核验证，对契合要求的数据进行梳理汇总形成疑点数据，将核实工单下发到被审计单位。对不契合要求的数据，迭代修改审计模型规则，直至符合风险特征规则要求。

（三）建立结果展示模型，输出结果可视化

数据可视化作为大数据分析的关键一环，通过可视化技术，将枯燥乏味的数据呈现出丰富生动的视觉效果，将数据的各个属性以多维数据图形的形式表示，并进一步对数据进行对比分析，设定展示条件一键式输出。

1.分析审计业务需求。根据审计工作方案，明确审计结果使用需求，提供企业管理层进行决策分析、项目安排、投资管理等经营管理活动的依据。

2.选择可视化工具。根据数据展示需求和工作条件，选择不同的可视化工具。例如Excel表格，可以制作折线图、饼状图、散点图等各种统计图表，进行数据的处理、统计分析等操作（见图7）。

图7电网企业电价变化曲线图

3.设置多维展示条件。对经过层层分析后生成的每一项数据作为一个图元素，从审计结果使用者的角度出发，选择不同纬度数据属性、设置不同数据提取路径，满足多维度观察、使用数据，对审计结果进行更深入的观察、分析和应用。

4.实时多维分析审计结果。利用可视化技术，结合前端模型分析结果数据，实时呈现当前分析结果，引导审计成果使用者参与分析过程，根据使用者反馈信息不断修改展示条件，完成与分析算法的全程交互，实现审计需求与数据分析算法的完美结合。

（四）建立质量控制模型，迭代更新持续化

审计数据的提取、处理和分析不是一成不变的，任何事物都有自己的生命周期。按照大数据处理流程，采用分层控制的思想建立质量控制模型，按照审计任务对照审计目标进行模型复核，使各环节、各阶段产生的技术方法、思路技巧及模型语句不断迭代优化，螺旋上升，对大数据审计流程进行一个全方位的质量管理。

针对各个审计阶段，对业务流程制定不同的质量控制标准，明确具体任务的控制目标、关键点，形成大数据审计质量控制模型（见图8）。

图8控制模型层次结构示意图

1.明确控制标准。对大数据审计的具体每项流程，事先应根据审计任务确定不同的控制标准，明确经过不同的操作过程所要实现的目标，并作为评价依据。如数据转换的质量控制标准包括数据的正确性、选择性和有效性等。

2.明确控制目标及方法。根据不同流程中的具体任务，细化控制目标，找到关键节点。通过日志、影像、过程资料等方法获取业务操作过程中的信息，并将与控制标准有关的信息传递到执行控制的各个关键点。

3.计算质量指标。控制的关键节点将获取的信息与控制标准进行比较，做出评价。并按照各阶段设定的质量考核指标，计算结果，与考核标准对照，作出该阶段的最终评价。

4.纠正或改进。如果经过质量控制的评价，认为实际发生的业务过程与既定标准不符，应将控制评价的结果及时反馈和作用于任务操作的过程，采取相应的ying纠正、改进措施。

本文从电网企业大数据审计现状出发，以工程项目结算管理审计为例，在审前数据采集、审前数据准备、审计实施分析、审计完成展示及质量控制阶段，从应用层面说明全寿命4C审计模型的构建以及迭代优化过程。

（一）数据采集阶段，梳理各类源数据

（二）数据准备阶段，建立工程审计数据库

图10工程审计全过程数据平台

（三）审计实施阶段，数据分析定位疑点

在电网企业工程项目结算管理审计中，以电代煤工程项目的审计为例构建审计分析模型。

第一个阶段是明确审计思路，重点对某市县公司电代煤工程开竣工、领料情况、成本列支及资金支付、投资效果等关键环节进行持续监督。根据重要性原则，选择新装变压器的采购、安装、运行和资产管理作为此次审计的重点。

第二个阶段是编写模型语句。根据审计目标建立中间表，将原始数据导入sqlserver数据库，建立工程施工明细表、设备台帐明细表和变压器新装明细表，包含字段如表1所示。

表1：

在sqlserver数据库中创建审计模型，一是通过营销系统变压器新装明细与工程施工明细进行对比，查询营销系统新增公配台区是否与工程现场相符。

selectdistincta.*,b.台区编码,b.生产厂家

fromdbo.工程施工明细aleftjoindbo.变压器新装明细b

ona.配变出厂编号=b.出厂编号

whereb.出厂编号isnull

二是对新增设备台帐明细与工程施工明细进行对比，通过PMS系统查询新增设备，与工程现场相符。

selectdistincta.*,c.台区编码

fromdbo.工程施工明细aleftjoindbo.设备台帐明细c

ona.配变出厂编号=c.出厂编号

wherec.出厂编号isnull

（四）审计完成阶段，多维数据分析展示

依据工程项目各项信息获取要求，形成自动展示各单位年度计划、报审完成率等指标，提供给企业管理层进行决策分析，实现审计成果的深化应用。

图11工程审计可视化看板

二是多维分析。大数据动态更新维护，依据企业对审计资源管理要求，建立基本信息模块，形成对中介机构信息、工程审计里程碑计划信息、内审台账的维护及管理，促进对项目建设程序、概算执行、资金使用、造价控制、竣工验收、决算增资等环节的审计监督。

（五）质量控制阶段，指标考核迭代优化

在工程审计实施的过程中，分析的思路和分析性复核的思路一样，并充分利用数据分析软件和工具。例如对数据分析及预测的方法，包括回归分析、非线性估计、数据分布情况分析和异常值分析等。在对审计模型的分析，主要表现在不同情况下的修正和完善。例如对数据分析的流程制定的控制目标和控制点见表2。

表2：

同时为实现审计模型质量的优化提升，建立模型考核的标准体系。例如，对审计分析模型设置风险识别准确率、现场到位验证率等考核指标。

风险识别准确率=疑点数据转为风险数据量/全部疑点数据数量*100%。即审计模型导出疑点数据，经过验证问题数据占所有数据的比例，分析该审计模型对同一类问题发现的频率。以此判断审计模型的风险识别准确性，确定优化方案，提高审计模型应用效果。

现场到位验证率=不需现场核实的疑点数据量/全部疑点数据数量*100%。根据《问题疑点核实工单》反馈情况，计算非现场审计即可得出确定问题的比例，比例越高说明审计模型查询出的问题疑点同准确性越高，通过系统发现的机率越大，越容易推广和应用。反之，针对系统数据无法确定的问题，优化审计模型，改进分析方法，提高非现场问题核实率。

THE END

淄博市审计局内审天地基于大数据+的全寿命4C审计模型构建及应用研究

数据的预处理包括哪些内容？常见问题

数据预处理的流程和步骤是怎样的？

数据预处理是什么意思数据预处理的四个步骤数据预处理的目的聚合数据

预测建模常用的数据预处理方法

Spark大数据分析案例之平均心率检测

科学网—重磅综述：三万字长文读懂单细胞RNA测序分析的最佳实践教程（原理代码和评述）

淄博市审计局内审天地基于大数据+的全寿命4C审计模型构建及应用研究