聊一聊数据报表/数据分析的对数日常数据源算法数据流

一、数据比对的痛“这数不对”。“为什么A这里的数据和B的数据不一致?”“为什么平时这个数是C今天变成了D?”“为什么这么高?”亦或是“为什么这么低?”

——【我的对数日常】

一旦有人对某数据提出质疑,就会开始令所有人崩溃的对数。

尤其是经营分析会、月度会议期间,数据团队面临反复且高频的折磨,不同需求方不同角度都等着回答和解释。

非常无辜,非常无语,活还是要干!

不考虑模型设计、不讲数据治理、制度和流程梳、不谈组织合理性、不谈数据意识和数据团队地位,不与业务battle。

落在当下,必须要面对的工作面前,只是想聊一聊“对数到底应该怎么对?”

二、对数对数,对的是什么1.数据比对的场景2.数据团队的心态

数据技术有门槛,但数据是公司的数据、是业务的数据。

数据本身没有价值,数据脱离业务应用,就只是磁盘上的文件而已。

下面是数据团队避无可避的问题:

1)提升团队数据素养

2)提升公司数据意识和数据产品的可信度

3)解放人力实现自动化

3.对数对数,对的是什么

对数就是实际和预期的弥合,为什么A不是B?

A是数据部门输出的数据,B可能是之前某版本的数据、可能是心理预期、可能是某业务线的手工数据、可能是去年同期数据、可能是上个月的数据。

解决方案有几种:证实“A是对的”;证否“B是错的”。

证实”A/B都是对的,但有cdef造成了两者的数据差异”。

都要给出结论、对照和明细凭据。

三、通用可复制的方法

数据比对是有目的的数据分析。

著名的咨询公司Gartner于2013年总结、归纳、提炼出一套数据分析的框架,Gartner把数据分析分为四个层次,分别是:

数据比对是描述性分析,即对数据现状拆解出数据依据。

那么数据比对的过程,就是描述性数据分析的过程,可按以下顺序进行:

下面具体说如何操作,让观点可执行。

1.确认分析的目的和思路

1)假设验证确认分析思路

(1)明确对照项[A-B]

确定问题,明确目标,得出A、B哪个正确?差异原因。

首先明确对照项A、B的定义,判断其定义、口径、算法是否一致?

(2)对照指标数据流向及构成

对照数据流向,分析数据构成及计算过程。

(3)收集数据进行证伪推断,得出结论

准备基础明细数据,导入excel,通过vlookup、透视表等关联分析,关系走通,记录过程数据,提供结果数据。

Example:统计结果比对(数值1vs数据2,差异值)、12明细、差异明细比较。

Tips:明确分析目的和方案前,别急着到处要数,可能费力要了又用不上。

2.数据一致性验证方式

1)基础认识一致性验证

Example1:实时、离线指标不一致属于正常情况,可直接解释原因:

Example2:回款率单位为%,城市结果值求平均并不等于全国数值,也可直接告知业务原因。

2)正向验证

3)反向验证

2.数据准备、处理及分析

1)数据准备

在分析思路确定的基础上,准备收集准备数据,可能是:系统导出、数据提取。

2)数据处理(清洗、转化、提取、计算)

基础数据准备完毕,按既定的思路计算、比对,加工需要的可用于分析的数据。

3)数据分析(数据统计、数据挖掘、数据呈现)

比对后发现并分析差异,用适当的分析方法及工具(极大多数场景Excel足够),对处理过的数据进行分析,提取有价值的信息,形成有效结论。

3.数据结论及报告

1)明确结论

2)结果呈现

数据比对的报告不需要精致,能够做到逻辑清晰,图表搭配,层次分明。

让阅读者一目了然理解差异和差异构成就可以进行结果数值比对、差异明细、对照过程及明细。

呈现饼图和柱形图足够了,柱形图看差异,饼图看差异构成。

四、数据人的下一步

应对被动的数据比对之后,如何化被动为主动,进行常态化的数据监控,不再耗心费力疲于应对,提升数据健康度,对数据异动监控提示,实现数据可用可查有提示可预警。

唯一且艰难的道路:有数据质量标准是基础,在制定数据质量计划的标准上,进行周期性的数据质量盘点和数据治理!

这条道路需要数据团队有决心、信心,有足够的耐心和体力,去细致打磨适合企业的数据标准。

需要对每个数据域、数据实体、数据项,甚至到字段、属性,定义数据标准,核实数据质量。

1.数据质量

(GB/T36344-2018数据质量评价标准)

Example:

(GB/T36344-2018数据质量评价标准-数据质量评价过程)

2.数据清洗

在建立数据规范的基础上,就可以进行数据质量提升的行动,也就是“数据清洗”。

数据清洗,就是从数据库表中更正和删除不准确的数据。

1)数据清洗

2)数据清洗实践要点

3.监控预警

监控预警是化被动为主动的方法,可根据数据质量规则制定监控策略。

通过数据质量监控工具来提示数据异常或数据波动,来确保对业务数据稳定的掌控感和保证数据的准确性,问题处理的及时性。

质量规则不再多说,可以聊一聊波动性,什么样的指标波动可以看作是“异常”呢?

指标波动不可怕,数据波动是业务发生的正常情况,业务产生自然会发生数据变化。

比如每周的销售额肯定不一样,脱离业务场景没法谈数据波动。

但像之前都1000w,这周只有200w,是不是就属于异常状态?

监控可以根据公司业务情况和数据情况来综合评定,通过绝对值预警、相对值预警两方面来设定。

4.提前准备

在新需求的设计过程中,就提前准备数据比对的工作。

评估不同线上线下、离线实时的差异,找出可能产生问题的原因并解决,技术架构方案选择,或预评估差异。

5.一些提醒

1)再次强调:业务、业务、业务

数据必须和业务结合才有意义,熟悉业务才能看到数据背后隐藏的信息。

缺乏对行业、公司业务认知,数据应用和数据分析结果都会出现偏离,变成自嗨或者空中楼阁。

要懂上下游数据,也要弄清楚公司所在行业结构,对行业的上游和下游的经营情况有大致的了解。

2)数据敏感度

数据本身是客观的,但被解读出来的数据是主观的。

同样的数据由不同的人分析很可能得出完全相反的结论,所以一定不能提前带着观点去分析。

Example:比如指标预警没有合适方法,可暂定波动值超过5%预警。

如果一个变量符合正态分布,则其95%的值会落到均值左右二个方差内。

3)迭代化思维

业务是不断调整和发展的,依托的系统和数据也是不断迭代变化,相应指标也需要随着业务不断调整,更加精确的度量业务。

4)精细度控制好,不要追求极细

细分是深入的分析的基础,但不要追求极细,细分意味着复杂,要判断公司团队数据意识和业务精细化管理是否到了匹配的阶段。

本文由@申墨扬原创发布于人人都是产品经理。未经许可,禁止转载。

THE END
1.数据挖掘类文章属于什么类型mob64ca12e83232的技术博客数据挖掘类文章属于什么类型 数据挖掘是一种从大量数据中提取隐含的、有用信息和知识的过程。它涉及统计学、机器学习、数据库技术等多门学科,因此数据挖掘类文章通常属于数据分析、机器学习和统计学等类别。本文将介绍数据挖掘的基本概念,并结合具体的代码示例,展示如何使用Python进行简单的数据挖掘任务。https://blog.51cto.com/u_16213397/12827058
2.在数据挖掘中人工智能应该具备怎样的知识结构来发现隐藏模式和随着技术的发展,人工智能(AI)已经渗透到我们生活的方方面面,从推荐系统、语音助手到自动驾驶汽车。然而,想要真正发挥出AI的潜力,我们需要确保它能够有效地处理和分析大量数据,以便从中提取有价值的信息。 对于AI来说,最重要的是学习如何进行高效率的人工智能数据挖掘。这个过程涉及多个关键技术领域,其中包括机器学习、深https://www.ykngnhhi.cn/shou-ji/546494.html
3.数据挖掘概念与技术(第三版)课后答案——第一章1.1 什么是数据挖掘?在你的回答中,强调以下问题: (a)它是又一种广告宣传吗? (b)它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗? (c)我们提出了一种观点,说数据挖掘是数据库技术进化的结果。你认为数据挖掘也是机器学习研究进化的结果吗?你能基于该学科的发展历史提出这一观点https://blog.csdn.net/qq_43060870/article/details/106942974
4.数据挖掘论文无论是在学习还是在工作中,大家都有写论文的经历,对论文很是熟悉吧,通过论文写作可以培养我们独立思考和创新的能力。你知道论文怎样才能写的好吗?下面是小编整理的数据挖掘论文,欢迎大家借鉴与参考,希望对大家有所帮助。 数据挖掘论文 篇1 【摘要】由于我国的信息技术迅速发展,传统档案管理的技术已经不能满足现代的信https://www.unjs.com/lunwen/f/20220924130749_5650839.html
5.大数据时代试题综合题库7)在云生态环境中,用户需求相当于( 14 ),云数据中心相当于 ( 15 ),云服务相当于( 16 )。DCB A. 降水 B. 水滴 C. 水库 D. 阳光 8)尿布啤酒是大数据分析的( 17 )C A. A/B测试 B. 分类 C. 关联规则挖掘 D. 数据聚类 9)在GAPMINDER的Wealth & Health of Nations 中,中国在什么区域 https://www.360docs.net/doc/73fa81e4580102020740be1e650e52ea5418ce51.html
6.浅析模糊语言在古诗词英译中的应用(推荐11篇)论文摘要:近年来,模糊语言已经引起学术界的广泛关注。本文在探讨模糊语言在中国古典名著《红楼梦》英译中体现的基础上,从合作原则的角度剖析《红楼梦》若干典型实例,总结运用模糊语言处理:史化信息所达到的理想预期效果及翻译方法,以期为汉语文学作品汉译英过程中可能遇到的问题提供切实可行的解决方案。 https://www.hrrsj.com/wendang/qitafanwen/900326.html
7.面试中的数据模型设计问题该怎么回答?腾讯云开发者社区面试中关于数据模型设计是一个很常见的问题,这个问题很宽泛、看起来很简单,但是想回答好并不容易。 这篇文章很短,我们就简单聊一下这个问题。 问题本身 模型设计本身是一个开放性的问题,什么意思呢?这个问题并没有100%对的标准答案。 当然各种社区有很多关于模型设计的方法论、规范性质的文章可以参考,但是这些理论https://cloud.tencent.com/developer/article/2417731
8.每日热点1211重点机构和场所应采取哪些措施预防呼吸道疾病?中疾控专家解答 2023-12-10人民网 人民网北京12月10日电 (记者乔业琼)今日,国家卫生健康委召开新闻发布会,介绍冬季呼吸道疾病防治有关情况,并回答记者提问。 会上,有记者提问,对于重点机构和场所,如学校、托幼机构、公共交通工具等,应采取哪些措施预防呼吸道疾病的传播https://www.sccdc.cn/Article/View?id=32635
9.系统分析师(必背知识点)你只有3块,其中2块会被用来做备份。 RAID 2将数据条块化的分布于不同硬盘上,并使用海明码校验; 理解:实际是RAID 0 的改进版,组中的第1、2、4、…2 n 个磁盘驱动器是专门的校验盘,用于校验和纠错。其它磁盘存数据。 RAID 3使用奇偶校验,并用单块磁盘存储奇偶校验信息; http://it.en369.cn/jiaocheng/1725919287a577322.html
10.高考二轮复习:高考标点重点难点突破讲与练如果你是“未经登记”的陌生人,你是无法进入的。 【分析】“未经登记”并没有什么深层含义,字面意义一读就懂。这里可以不加引号,但加上了,就是起着重强调作用。 那么,着重强调与特殊含义的区别在哪里呢? 【着重强调】例如: 古人对于写文章有个基本要求,叫作“有物有序”。“有物”就是要有内容,“有序”就https://www.360doc.cn/mip/1132046832.html
11.全面了解风控策略体系消费金融风控联盟,很高兴能够通过文字认识你 模型和策略的开发是一个系统工程,这其中需要有业务经验、统计理论、算法运用、和数据认知,是一个不断反思,不断积累经验的过程。沙滩上建不起摩天大楼。扎扎实实的基本功永远有价值,永远不会过时。 ——余旭鑫博士 说明 互联网风控是无边界的,几乎所有时间、所有地方、所有人都能以某种https://www.shangyexinzhi.com/article/6849659.html
12.从自身经历谈教师个人的专业成长在近10年的教学生涯中,教师的职业的经验和能力得到充分的发展,从现实中,教师也属于学校的骨干教师,甚至是把关教师,教师也从此走入了自我反思阶段,反思自己10年的教学历程,同时,积极尝试教学创新,不断追寻符合个人自己特色的教学风格,实现经验型向学者型教师的转变。能全面、深刻理解课程标准,系统把握学科内容,能结合本https://www.360wenmi.com/f/filek97addba.html
13.国际国内公共卫生情报信息2023年第49期l研究人员建立细胞外囊泡数据挖掘新技术 lNature子刊:基因工程干细胞,更好地治疗帕金森病 l促进生育的基因突变会缩短寿命 l“无中生有”的新基因起源机制发现 l这个点儿入睡对血管最友好 l贪吃真“伤脑子”!英国伯明翰大学最新研究表明高脂肪会降低脑功能,并增加精神压力! https://www.pzhcdc.com/Article/View?id=7682
14.大数据时代的英语教学12篇(全文)大数据的研究能推进和改善个性化学习工具和学习管理系统的研发。通过大数据的分析能更好的了解学生的学习需求和过程存在的问题, 因此系统的研发就更具针对性和实用性, 在运用过程中也更加便利。 3.教育数据的挖掘和学习行为的预测。早期的教育数据挖掘所依靠的数据来源较少, 主要是通过网站日志的数据进行分析。现在随着https://www.99xueshu.com/w/ikeyr0085fwg.html
15.2021年中国大学慕课《中小学教师数据素养》课程期末考试题库及2021年中国大学慕课《中小学教师数据素养》课程期末考试题库及答案2021年中国大学慕课MOOC《中小学教师数据素养》课程期末考试题库及答案每位学员抽到的题目不一样,本题库包含95?98%的题目,请用电脑答题,并用手机WPS打开文件查找功能在本题库内查询正确答案(因平台有防作弊功能)【单选题】教育大数据区别教育数据最https://www.yxfsz.com/view/1585090603741450241
16.2010年7月自考00054管理学原理真题及答案30.数据挖掘:数据挖掘是一个从数据中萃取和展现可付诸行动的、隐含的和新颖的信息的流程,可以从数据仓库中发现经营业务过程中存在的各种典型模式。 四、简答题答案 31.指出管理过程学派的创始者,并简要说明该学派的基本观点。 管理过程学派的创始人是法约尔。管理过程学派的基本观点有:①管理是一个过程,即让别人同自https://www.zikaosw.com/lnzt/glxl/22390.html