谈谈数据中台数据分层建模和数据指标体系建设

数据资产是数据管理和应用领域经常被提到的概念,数据中台的目的就是将数据转变为数据资产。数据资产是由企业拥有或控制,能够为企业带来经济利益的数据资源。可明确作为“资产”的数据资源,表现为以下两种形式:可帮助现有产品实现收益的增长;数据本身可产生价值。数据资产一定是有价值的数据,没有价值的数据不能称为数据资产。

什么样的数据能成为数据资产呢?比如,大型集团集采平台基于供应商数据、采购业务数据、物资数据做出推荐系统,这个推荐系统提升了采购体验,提高了采购效率,降低了采购成本,这些整合后的供应商数据、采购业务数据、物资数据就是数据资产。但是,现在一些企业没有统一的定义数据的标准,没有统一的数据存储规范,只是粗放地收集数据,把数据散乱地存放在服务器里,这些数据不能被组织和利用,就不能成为数据资产。因此我们需要一套标准的指标体系和模型体系来定义和存储数据,标准化输出数据能力,让数据成为资产。

二、数据指标体系

1、数据指标的定义

指标是公司在经营和生产管理过程中衡量某一个目标或事物的数据,包含指标名称和定义、计算单位、计算方法、维度和指标数值等要素。通过指标的拆解定义一套没有歧义、标准一致的数据指标体系,只有增长指标才能指导企业如何行动,从而实现企业价值增长。

2、数据指标的重要性

要想发挥数据中台的核心作用,要做的第一件事就是梳理公司的数据指标体系。在实际项目中,当梳理公司的指标时,我们会发现每个部门对同一个指标的定义有可能是不一致的,甚至一个部门内的人员对同一个指标的理解都有可能不同,由于每个部门职责不同,他们通常只会站在本位角度上定义指标,而每个人看待和理解这个世界的角度也是不同的,所以他们通常会站在自己的角度上定义指标。

通常各部门根据自身业务需要,都有一部分的量化指标,但不够全面,也缺乏方法论指导,对于企业整体数据分析应用能力提升的指导作用有限;由于缺乏整体考量而设置的指标体系,以及错误的指标分析方法,会产生错误的分析结果,进而影响运营层面、产品改进方面的决策。另外,如果标准不统一,就很难进行部门间的横向对比。比如部门A提交的年交易额是10万元,部门B提交的该年交易额是50万元,如果没有统一的标准,我们就无法衡量50万元的交易额比10万元的交易额的价值高。一个指标的开发过程涉及业务部门、管理部门、技术部门等,沟通成本很高,只要一个环节理解不对,指标的计算结果就会不准确。因此,为公司建立一套清晰、没有歧义的指标体系是数据中台需要承担的一项十分重要的工作。

3、如何定义数据指标

那如何让指标定义清晰且没有歧义呢?解决这个问题的核心方法就是拆解:将一个数据指标拆解到不能再继续拆解为止,这样就能够最大限度地保证理解无误。

(1)业务板块:即面向行业的业务,也就是公司的业务线,不会经常变。比如一个公司有六大业务分别是油气、炼油和化工、矿业、装备制造、光伏、科研,那么这六个业务就分别属于不同的业务板块。

(2)数据域:数据所属的领域。例如,销售、生产、库存都属于数据域。

(3)业务过程:完成某个业务所涉及的全部过程。如销售业务中的定价、寻客、销售、回款等环节都属于业务过程。

(5)修饰类型:对修饰词的描述。如供应商中的信用级别、所属区域等。

(6)修饰词:除了维度以外的限定词,如支付方式中的电汇、支票、承兑等。

(7)原子指标:即不可再拆分的指标,比如支付金额、支付件数等指标。

(9)属性:隶属于维度。如地理维度中的国家名称、省份名称等都属于属性。

接下来我们通过一个实际的案例来看下制定指标的方法。

为确保指标数据标准定义的完整与严谨,我们形成了一整套指标数据标准的信息项属性架构。

通过对业务的全面梳理和分析,归纳并定义了5大主题36个子主题域共2083个指标,来反映公司关键数据指标的分布。

根据公司实际情况,制定数据指标体系建设4步走的推进路线,即收集→梳理→讨论→统一,有序推进项目进展,实现集团和园区层面的数据指标体系统一、完整、准确。

最后为了保证数据指标的一致性,公司的数据指标应该交由数据中台负责部门统一管理,公司内所有部门应该以这套指标体系为准,如果有对指标的新增或者修改,首先要通知数据中台负责部门,然后再同步给公司其他部门。这套指标体系的定义如同公司的法律,必须人人遵守,这样就能最大程度地保证指标的一致性和统计数据的合理性。

三、数据模型设计

要想了解为什么要进行数据模型设计,首先我们要了解一些概念,比如什么是数据库、什么是数据仓库、数据仓库和数据库的区别是什么、数据仓库为什么要分层存储。

1、什么是数据库和数据仓库

假设公司领导让你统计公司当月的总交易额,如果你的公司只有一条产品线,那么这项工作就十分简单。

首先,你可以从业务系统中提取产品线的全部订单,接着,你可以提取当月的订单,并针对下单金额做汇总。最后,你就可以将汇总计算出的交易额数据准确无误地提交给领导。

但是如果你所在的公司是一家大型多元化集团公司,公司内部有多个板块,你的领导要求你汇总各板块当月的总交易额,你应该怎么做?在没有数据仓库的情况下,你会这样处理:首先统计公司有多少条业务板块;然后找到每个业务板块的业务负责人,索要当月该板块的订单;接着将所有订单汇总到Excel中,这时候你会发现,因为业务形态的不同,各板块给你的订单数据没有统一的标准,比如订单状态,每个板块都会有自己的标准。你应该以怎么样的口径统计每个板块的交易额呢?因为标准不统一,会导致你的工作效率很低,而且统计的数据不一定准确。

通过以上案例我们可以看出数据库与数据仓库的用途是完全不同的。数据库和数据仓库虽然都是用来存储数据的,但数据库是用来存储业务数据的,而数据仓库是用来存储汇总后的报表数据的。

数据仓库的主要作用是存储汇总统计的数据,以支撑公司的决策分析。一般来说,数据仓库的数据量是比较大的,而且其汇总统计的数据一般是不会再有变化的,比如上文提到的公司当月的交易额,这个汇总的数据不会因为新增的订单而变化,而业务数据库的数据量会随着用户的交易次数增多而增多。如果公司业务比较简单,那么就没有必要搭建数据仓库,基于数据库已经足够做统计分析了,但是多元化集团公司要做大量的数据分析时,就适合搭建数据仓库。

2、数据仓库的分层建模体系

数据中台数据模型的分层建设业界比较通用的分层方式是将数据模型分为四层:

①ODS层(OperateDataStore,操作数据层)和DIM层(Dimension,维度数据层);

②DWD层(DataWarehouseDetail,明细数据层);

③DWS层(DataWarehouseService,汇总数据层);

④ADS层(ApplicationDataStore,应用数据层)。

第二层是DWD层。DWD层数据是数据仓库的第二层数据,一般基于ODS层和DIM层的数据做轻度汇总。DWD层存储经过处理后的标准数据,需要对ODS层数据进行再次清洗(如去空/脏数据、超过期限的数据等操作)。DWD层的结构和粒度一般与ODS层保持一致,但是DWD层汇总了DIM层的维度数据,比如在ODS层只能看到A车间的产量数据,但是在DWD层不但能看到A车间的产量数据,还能看到B车间的产量数据。

第四层是ADS层。ADS层数据是数据仓库的最后一层数据,以DWS层数据为基础进行数据处理。ADS层的最主要目的就是给数据可视化应用提供最终的数据。后端开发工程师基于ADS层的数据将最终数据结果以接口的形式展示给数据中台的应用层。

在实际数据中台项目中针对数据指标的开发,有以下两种情况比较常见。

(1)数据指标口径发生变化。随着业务的变化,数据指标的统计口径不是一成不变的,数据指标经常会基于业务目标的变化而变化,相应的统计逻辑也会变化。

(2)增加数据指标的统计维度。单个维度的数据指标统计随着业务的发展有可能不再满足需求,此时很有可能遇到给数据指标增加统计维度的情况,数据指标的统计维度越丰富,就越有利于数据分析。

针对这两种情况我们分别看一下没有分层建模和分层建模的区别。

第一种情况:数据指标的统计口径发生了变化。比如统计口径由之前的统计A产品的当月全部订单的交易额变为统计A产品当月的订单状态为“已支付”的订单的交易额。此时其实数据指标并没有发生变化,仍然叫“交易额”,但是统计口径发生了变化。

如果没有进行分层建模,那么对外的接口要增加订单状态筛选的逻辑,再进行测试、核对数据、发布新版本接口才能完成针对交易额统计的优化。如果进行了分层建模,ADS层、DWD层的数据是不用变化的,因为业务数据库的原始数据没有变化。此外,因为数据指标的显示没有变化,所以只需针对DWS层增加筛选订单状态为“已支付”的统计逻辑,然后由数据开发工程师、测试工程师测试DWS层并统计数据即可,不用发布新版本的对外接口,所以应用层并不用再针对接口做对接。

第二种情况:给数据指标增加统计维度。比如不但要查看A产品的当月交易额,还要查看A产品的当月不同省份、不同行业的交易额。如果没有进行分层建模,每增加一个维度就增加一倍的工作量,要重新修改计算逻辑、重新定义对外接口、重新测试、重新发布新的版本才能完成数据指标的新的维度统计。

如果进行了分层建模,由于DWD层和DWS层已经丰富了交易额的维度如区域、行业等,那么只需后端开发工程师在通过接口提取ADS层数据时新增维度“省份”和“行业”的统计结果,然后重新发布对外的接口即可,由于新的数据指标统计不需要数据开发工程师的参与,所以大大减少了数据中台开发的工作量。

4、综述

数据中台项目建设过程中,数据模型的科学性、合理性、高效性是数据资源转化为数据资产的重要基础,数据指标定制的全面性、规范性、有效性是数据中台发挥价值的重要保障。因此,企业在构建数据中台时,必须重视数据指标体系的构建和数据模型的设计,必要时引入外部咨询机构和专家力量,避免将数据中台建成数据重台。

THE END
1.数据中台有哪些层帆软数字化转型知识库数据中台通常包括数据接入层、数据存储层、数据处理层、数据服务层、数据治理层、数据应用层等。数据接入层负责将各种数据源的数据接入中台,数据存储层则存储和管理这些数据,数据处理层对数据进行清洗、转换和加工,数据服务层提供数据查询和分析接口,数据治理层负责数据的质量和安全管理,数据应用层将数据应用于具体业务场景https://www.fanruan.com/blog/article/659389/
2.数据中台到底包括什么内容一文详解架构设计与组成01数据中台功能架构 数据中台建设是一个宏大的工程,涉及整体规划、组织搭建、中台落地与运营等方方面面的工作,本节重点从物理形态上讲述企业的数据中台应该如何搭建。一般来讲,企业的数据中台在物理形态上分为三个大层:工具平台层、数据资产层和数据应用层(见图4-2)。▲图4-2数据中台功能架构 1.工具平台层 工具https://baijiahao.baidu.com/s?id=1683679836117359447&wfr=spider&for=pc
3.大数据学习笔记1:数仓数据湖数据中台狗哥的专栏大数据数据仓库数据湖数据中台 赞6收藏5 分享 阅读8.2k更新于2021-06-18 泊浮目 4.9k声望1.3k粉丝 ? 上一篇 大数据学习笔记0:大数据基本框架 下一篇 ? 大数据学习笔记2:现代数据湖之Iceberg 引用和评论https://segmentfault.com/a/1190000039970684/
4.马蜂窝大数据架构详解:小白都能懂的数据仓库与数据中台马蜂窝数据仓库遵循标准的三层架构,对数据分层的定位主要采取维度模型设计,不会对数据进行抽象打散处理,更多注重业务过程数据整合。现有数仓主要以离线为主,整体架构如下: 如图所示,共分为 3 层:业务数据层、公共数据层与应用数据层,每层定位、目标以及建设原则各不相同。 https://www.51cto.com/article/607919.html
5.数据中台管理系统数据中台 了解更多 立即咨询 星环数据中台解决方案聚合跨域数据,对数据进行清洗、转换、整合,实现数据标准化、集成化、标签化,沉淀共性数据服务能力,以快速响应业务需求,支撑数据融通共享、分析挖掘和数据运营,创造业务价值。 数据中台管理系统更多内容 行业资讯 https://www.transwarp.cn/keyword-detail/9432-37
6.数据中台到底是什么?说来也奇怪,网上很难找到数据中台的更科学解释,能找到的大多也不够清晰,与大数据平台有千丝万缕的关系,笔者最近正好在思考这个问题,特此分享于你,当然仁者见仁,智者见智了。 所谓数据中台,即实现数据的分层与水平解耦,沉淀公共的数据能力,笔者认为可分为三层,数据模型、数据服务与数据开发,通过数据建模实现跨域数据整https://www.jianshu.com/p/f8a7c33709b3
7.百度爱番番实时CDP建设实践随着营销3.0时代的到来,以爱番番私域产品来说,主要是借助强大的CDP为企业提供线上、线下数据的打通管理的同时,企业可以使用精细化的客户分群,进行多场景的增育活动(比如自动化营销的手段,节假日促销通知,生日祝福短信,直播活动等等)。更重要的是,企业可以基于纯实时的用户行为进行更加个性、准确、及时的二次实时营销,https://www.imooc.com/article/323371
8.数仓到底要分多少层?彭文华特意放上实时数仓的架构图,就是想说明一下无论是实时数仓还是离线数仓,架构都是一样的,该分几层分几层。只不过实时数仓用的是Kafka等MQ作为实时存储介质。 搜狐5层数据仓库架构: 来源于搜狐公开PPT 这是搜狐的5层数据仓库架构。之所以放搜狐的案例,是因为这里有一个STG层。这边把ODS细分为STG和ODS。STG是数据缓https://www.niaogebiji.com/article-71735-1.html
9.企业级大数据中台架构实战3为了面向业务服务服务建模,为了整合资源,为了让数据复用,为了让数据的价值得到更好的分析挖掘,为了,我们设计了下面大数据中台分层架构。 大数据中台总体分层架构耦合性比较低,分为PAAS(platform as a service)层、 DAAS (data as a service)层、DA(data application)层共三层架构。 数据https://blog.itpub.net/69925873/viewspace-2889139/
10.收藏!数据建模最全知识体系解读在业务系统中,通常面对业务库的随机读写,目前主要是采用三范式(3NF)模型存储数据。 而在数据仓库的建模过程中,由于主要是数据的批量读取操作,但是事物并不是我们所关心的,主要是关注数据的整合以及查询处理性能,因此会采用其他的建模方法,以Kimball维度建模最为经典。 六、Kimball和Inmon架构 6.1 Inmon架构 辐射状企业https://zhuanlan.zhihu.com/p/300643260
11.超全面的数据可视化设计指南:风格篇优设网总结了商业项目中遇到的一些可视化案例以及科幻可视化风格,大体的将其分为三个大类:传统风格、HUD 风格、FUI 风格。 传统酷炫风格 传统狭义上的数据可视化, 更多是纯图形去代表数据,通过图形去展示数据,直观的展示所需要表现的指标。数据可视化也有很多分类, 不过也许你也懒得了解了。 https://www.uisdc.com/visual-design-style
12.王伟:“城市大脑”让城市更智慧新华访谈合肥的“城市大脑”三层架构比较明确,所有的基础设施由第一层政务云提供,第二层是数据共享交换、能力提供层,第三层应用层,鼓励所有委办局百花齐放,建设各种应用。“城市大脑”目前运行情况良好,支持了合肥市营商环境的改善、政务服务的改善,城市中台目前已经建设了1627个应用能力,为全市各个委办局的便民系统http://www.ah.xinhuanet.com/fangtan/sjww.htm
13.中台再「升温」,下一站是哪?2、云徙是双中台(业务中台与数据中台)模式,更偏重行业解决方案。 3、数澜偏重解决方案,近年来又与金蝶合作密切,金蝶认为企业数字化正在从ERP(企业资源系统)向以数据中台为核心的EBC(企业业务能力)转型,因此双方的合作是在向未来发出邀请。 4、奇点云发力零售等领域,其数据中台更偏重零售的行业产品。 https://36kr.com/p/1416543565485698
14.数据中台建设五步法系统都是为应用而生的,数据中台也不例外。要构建一套数据中台服务于企业内部和外部运营,需要有成熟的建设方法论作为指导。数据中台建设方法论可分为高阶规划、系统设计、开发实施、试运行和持续运营 5 个阶段。 1、高阶规划 数据中台规划阶段可细分为业务架构师主导的业务规划和数据架构师主导的数据规划。由业务规划https://www.esensoft.com/industry-news/dx-29423.html
15.数据中台演进的四个阶段奇点云 CEO 张金银是阿里巴巴第一个数据仓库的创建者,他认为数据中台的意义在于降本增效。最近,他基于阿里巴巴的数据处理过程分享了数据中台演进的四个阶段,以下为重点内容。 阿里巴巴的数据处理经历了四个阶段,分别是: 数据库阶段,主要是 OLTP(联机事务处理)的需求; https://time.geekbang.org/column/article/119907
16.5分钟看懂数据中台的典型架构数据中台架构数据转换工具也是关键组成部分之一,负责将数据从一种格式转变为另一种格式,以便后续的处理和分析。常见的数据转换工具有ApacheNifi、Talend 等。这些工具通常具备高效的处理性能和灵活的转换规则,能够应对复杂的数据转换需求。 四、数据服务层 数据服务层在数据中台当中占据重要地位,主要负责以 API、数据接口等方式将处理https://blog.csdn.net/oOBubbleX/article/details/142819951