TableauExtension:MailScheduler

很多企业经历了多年信息化建设,完成了业务系统的在线化和数字化,积累了大量数据。

基于数据实现更加科学全面的经营决策、更加精准的营销运营、更加高效的生产组织与供应链管理和更加智能的客户服务也逐渐成为企业内生的需求。

统一建设以数据湖仓为核心的一套数据中台,提升数据开发的效能与质量是CIO们的第一反应。

其实先不必急于选型,让我们来结合过去十年间数智化先行者们的中台经验与教训,推演下我们从0到1建设数据体系需要提前考虑的问题。

计划建设数据中台前需要提前考虑哪些问题?

》您的企业和业务伙伴做好准备了么?

数据体系最终是要为业务服务的,最简单质朴的诉求就是让业务及时用上好数据。

做到这一点,不仅仅是技术团队的问题,更重要的是我们的管理层和业务侧是否已经完成了用数需求的梳理,很清楚要看什么样的数据,达成怎样的业务价值。

数仓建模水平的高低不仅是个技术问题,更重要的是对业务的理解,这一点是资深ETL工程师与普通工程师的重要分水岭。具体来说,

传统数仓开发基于物理数据的拷贝与加工,每一层建模都涉及到数据计算与存储的成本和数据开发与任务运维的人力成本。

如果企业从战略层到业务执行层还没有养成用数的习惯,也没有清晰明确的用数场景,数仓建模缺乏需求驱动的规划性,会导致高投入与低产出。一旦模型先行,业务需求的灵活变化也会导致很多前置成本浪费,模型变更的代价并不亚于重新建设。

综上,大量失败的中台案例究其原因,可能第一步就错了。

》您的团队做好准备了么?

目前市面上有着众多的一体化中台产品,数仓建模也是一套比较成熟的方法论,容易让人误以为数据体系建设等同于一次性部署和后期常规的代码开发测试上线。这种想法过于简单了。

工作内容

工作对象

知识技能

如上表,数据开发是一项综合工程,涵盖了从数据收集、存储、处理、分析到应用的全过程,高度类似工业领域的流程制造,具有较高的复杂度,需要工程师具备多方面的知识和技能。

数据工程所面临的诸多技术挑战包括:

应对以上挑战,不仅要具备数据科学与软件工程的综合技能,还考验着数据工程师对业务的理解与对多种工具和技术的驾驭能力。这也意味着,建设与管理企业的数据体系需要一个具有一定人数的专业团队。

》您本人做好准备了么?

作为企业数据平台的一号位,您本人不仅是具备前述各种数据工程知识、技术与经验的专家,而且还要为数据体系的ROI负责。

“R”是数据体系建设的收益,即企业从数据洞察中获得的价值。无论是管理层战略决策、经营管理的数据支撑,还是未来越来越频繁与深入的营销运营用数需求,让业务及时用上好数据都是您的首要任务。及时,对应的是数据交付的效率问题;好,对应的是数据质量问题。

现代数据工程与架构以数据仓库技术与生态工具为基础,其运作的基本前提是数据的物理集成,其最核心的工程方法论是ETL。

前者意味着无论数据的位置如何分散,数据的变化如何频繁,数据最终是否被查询使用,都必须将全域数据进行同步集中,才能进行后续的加工整合和交付使用,也意味着对数据的每一层加工都伴随着数据的拷贝和加载;

后者意味着数据的流动要伴随着同步、整合、建模、交付等一系列工作流和大量代码开发、作业配置、作业运维、性能调优和链路治理的人工工作。

企业数智化的深入,对技术团队意味着数据源、数据类型、数据规模、数据需求的快速膨胀和变更的频繁发生,也就意味着数据链路和数据工程的复杂度持续增加。

数据链路不断加长,汇总层和集市层表数量不断膨胀,如果说资产数量和开发工作量是线性增长的话,任务配置、调度、变更和运维的工作量则是指数级增长,伴随而来的还有质量风险的不断扩大、存算资源成本的快速拉高、数据治理的难度和压力越来越大。

归纳来说,基于物理集中的数据开发是投资先行、持续投入,但效益不确定的模式,随着数字化的深入,效率、质量与成本必将构成一个不可能三角,三者间的平衡取舍是所有CDO共同面对的难题。

作为企业数据平台的一号位,当您要牵头启动数据体系建设项目的时候,要用长期可持续的视角来进行整体规划和设计,还要综合考虑到企业目前和未来的用数需求和团队能力。

如果传统中台思路注定会走进效率、质量与成本困局,是否存在全新的思路和全新的方案达成更好的ROI呢?

答案是肯定的。

数据虚拟化技术为数据体系建设提供新思路

近年来,在数据源高度分散、数据量爆发式增长的背景下,数据虚拟化技术得到了快速发展。

数据虚拟化(DataFabric)是一种先进的数据管理技术,它为数据使用者提供了一个统一的、抽象的和封装的视图,使用户能够查询和操作存储在异构数据存储集合中的数据。

数据虚拟化技术通过创建一个逻辑数据层,集成了分散在不同系统中的企业数据,实现了集中化的安全管理和治理。核心特征包括数据封装、抽象和按需集成。它允许用户实时或近实时地访问分散的数据,而无需物理移动或复制。

经过国内外众多企业的实践验证,数据虚拟化技术具有下述优势:

同传统中台体系相比,数据虚拟化最大的差异是无需物理集中,“以销定产”,提供更加实时的数据访问与统一的安全管理,特别适用于需要整合多源异构数据、提高数据访问效率、增强数据安全性的场景,为正在规划建设数据体系的企业提供了一种全新的思路。

基于数字虚拟化技术的AloudataNoETL解决方案

Aloudata团队在大规模数据体系建设与长期管理实践中,充分体验到传统ETL工程体系的复杂性与效能瓶颈,因此始终致力于提升ETL工程自动化水平,以“让数据随时就绪”为使命。

AloudataAIR逻辑数据编织平台基于DataFabric理念,自研国内首个数据虚拟化引擎,实现逻辑数据集成、自动化数据编排和自适应查询加速。无需关心数据存放位置、数据任务运维和查询性能优化,直接基于SQL即可对全域数据进行探索、加工与查询。

AloudataAIR具有以下特性:

对于数据体系建设0-1阶段的企业来说,逻辑数仓是比传统物理湖仓更加简单、经济和高效的方案。无需前置大量投资和大规模团队建设,即可快速实现数据探查、集成加工与交付,让数据团队从繁重的物理ETL任务中解放出来,更加专注于沟通、理解与支持业务需求。通过更高效的需求响应,数据团队可以快速实现投资收益,获取更高的ROI。

区别于目前市面主流的数据虚拟化产品,AloudataAIR通过RP技术不仅可以确保敏捷用数场景下的查询性能,还可以实现智能作业编排,自动化代持人工ETL调度与运维作业,进而通过物化快照完成需要保留历史数据的模型资产的持久化。因此,AloudataAIR兼具传统数仓与数据虚拟化技术的双重优势。

AloudataCAN自动化指标平台,可直接对接数仓公共层的明细模型,支持用户通过业务语义表达实现配置化的指标定义,系统代持数仓汇总层和应用层的ETL作业,实现自动化指标生产。

基于全部明细数据的自动化ETL能力,让业务人员实现任意指标、任意维度的灵活组合分析与归因下钻,真正获取全部明细数据的分析自由。

系统代持指标开发,轻松实现指标口径与名称校验判重,彻底解决指标口径不一致的问题。统一指标服务,一处定义,下游多场景可共同消费口径一致的指标。

通过NoETL自动化的指标平台,企业可以一举解决指标开发效率低、分析不灵活、应用层报表无序膨胀导致的数据治理和指标口径治理难等顽疾,进一步降低数仓开发压力,提升业务用数的效率和质量。

结合AloudataAIR和AloudataCAN,我们向数据体系0-1阶段的企业推荐下述最佳实践:

采用AloudataAIR作为逻辑中台,对接各个业务系统的数据,快速实现逻辑集成与数据整合;

数仓团队结合业务需求完成DWD层的逻辑建模和模型的持续优化,沉淀高质量的数据资产;

根据查询访问的情况配置RP,按需物化高频访问的数据模型,确保查询性能;

应用AloudataCAN对接AloudataAIR中的DWD层明细模型,配置化指标定义,自动化指标开发,开放化指标服务。

上述方案在证券、能源、制造、医疗等客户生产场景中获得了真实验证,对比传统方案均实现了10倍以上的数字化运营效率提升、50%以上的存储成本节约和70%以上的ETL数据管理工作量下降,为企业的数智化深入奠定了坚实的基础。

获取最新的数据新闻

注册以获取优阅达DataBlog的快讯、见解和研究

订阅成功,是否希望成为我们的会员,以便获得更多的会员服务?

THE END
1.数据中台有哪些层帆软数字化转型知识库数据中台通常包括数据接入层、数据存储层、数据处理层、数据服务层、数据治理层、数据应用层等。数据接入层负责将各种数据源的数据接入中台,数据存储层则存储和管理这些数据,数据处理层对数据进行清洗、转换和加工,数据服务层提供数据查询和分析接口,数据治理层负责数据的质量和安全管理,数据应用层将数据应用于具体业务场景https://www.fanruan.com/blog/article/659389/
2.数据中台到底包括什么内容一文详解架构设计与组成01数据中台功能架构 数据中台建设是一个宏大的工程,涉及整体规划、组织搭建、中台落地与运营等方方面面的工作,本节重点从物理形态上讲述企业的数据中台应该如何搭建。一般来讲,企业的数据中台在物理形态上分为三个大层:工具平台层、数据资产层和数据应用层(见图4-2)。▲图4-2数据中台功能架构 1.工具平台层 工具https://baijiahao.baidu.com/s?id=1683679836117359447&wfr=spider&for=pc
3.大数据学习笔记1:数仓数据湖数据中台狗哥的专栏大数据数据仓库数据湖数据中台 赞6收藏5 分享 阅读8.2k更新于2021-06-18 泊浮目 4.9k声望1.3k粉丝 ? 上一篇 大数据学习笔记0:大数据基本框架 下一篇 ? 大数据学习笔记2:现代数据湖之Iceberg 引用和评论https://segmentfault.com/a/1190000039970684/
4.马蜂窝大数据架构详解:小白都能懂的数据仓库与数据中台马蜂窝数据仓库遵循标准的三层架构,对数据分层的定位主要采取维度模型设计,不会对数据进行抽象打散处理,更多注重业务过程数据整合。现有数仓主要以离线为主,整体架构如下: 如图所示,共分为 3 层:业务数据层、公共数据层与应用数据层,每层定位、目标以及建设原则各不相同。 https://www.51cto.com/article/607919.html
5.数据中台管理系统数据中台 了解更多 立即咨询 星环数据中台解决方案聚合跨域数据,对数据进行清洗、转换、整合,实现数据标准化、集成化、标签化,沉淀共性数据服务能力,以快速响应业务需求,支撑数据融通共享、分析挖掘和数据运营,创造业务价值。 数据中台管理系统更多内容 行业资讯 https://www.transwarp.cn/keyword-detail/9432-37
6.数据中台到底是什么?说来也奇怪,网上很难找到数据中台的更科学解释,能找到的大多也不够清晰,与大数据平台有千丝万缕的关系,笔者最近正好在思考这个问题,特此分享于你,当然仁者见仁,智者见智了。 所谓数据中台,即实现数据的分层与水平解耦,沉淀公共的数据能力,笔者认为可分为三层,数据模型、数据服务与数据开发,通过数据建模实现跨域数据整https://www.jianshu.com/p/f8a7c33709b3
7.百度爱番番实时CDP建设实践随着营销3.0时代的到来,以爱番番私域产品来说,主要是借助强大的CDP为企业提供线上、线下数据的打通管理的同时,企业可以使用精细化的客户分群,进行多场景的增育活动(比如自动化营销的手段,节假日促销通知,生日祝福短信,直播活动等等)。更重要的是,企业可以基于纯实时的用户行为进行更加个性、准确、及时的二次实时营销,https://www.imooc.com/article/323371
8.数仓到底要分多少层?彭文华特意放上实时数仓的架构图,就是想说明一下无论是实时数仓还是离线数仓,架构都是一样的,该分几层分几层。只不过实时数仓用的是Kafka等MQ作为实时存储介质。 搜狐5层数据仓库架构: 来源于搜狐公开PPT 这是搜狐的5层数据仓库架构。之所以放搜狐的案例,是因为这里有一个STG层。这边把ODS细分为STG和ODS。STG是数据缓https://www.niaogebiji.com/article-71735-1.html
9.企业级大数据中台架构实战3为了面向业务服务服务建模,为了整合资源,为了让数据复用,为了让数据的价值得到更好的分析挖掘,为了,我们设计了下面大数据中台分层架构。 大数据中台总体分层架构耦合性比较低,分为PAAS(platform as a service)层、 DAAS (data as a service)层、DA(data application)层共三层架构。 数据https://blog.itpub.net/69925873/viewspace-2889139/
10.收藏!数据建模最全知识体系解读在业务系统中,通常面对业务库的随机读写,目前主要是采用三范式(3NF)模型存储数据。 而在数据仓库的建模过程中,由于主要是数据的批量读取操作,但是事物并不是我们所关心的,主要是关注数据的整合以及查询处理性能,因此会采用其他的建模方法,以Kimball维度建模最为经典。 六、Kimball和Inmon架构 6.1 Inmon架构 辐射状企业https://zhuanlan.zhihu.com/p/300643260
11.超全面的数据可视化设计指南:风格篇优设网总结了商业项目中遇到的一些可视化案例以及科幻可视化风格,大体的将其分为三个大类:传统风格、HUD 风格、FUI 风格。 传统酷炫风格 传统狭义上的数据可视化, 更多是纯图形去代表数据,通过图形去展示数据,直观的展示所需要表现的指标。数据可视化也有很多分类, 不过也许你也懒得了解了。 https://www.uisdc.com/visual-design-style
12.王伟:“城市大脑”让城市更智慧新华访谈合肥的“城市大脑”三层架构比较明确,所有的基础设施由第一层政务云提供,第二层是数据共享交换、能力提供层,第三层应用层,鼓励所有委办局百花齐放,建设各种应用。“城市大脑”目前运行情况良好,支持了合肥市营商环境的改善、政务服务的改善,城市中台目前已经建设了1627个应用能力,为全市各个委办局的便民系统http://www.ah.xinhuanet.com/fangtan/sjww.htm
13.中台再「升温」,下一站是哪?2、云徙是双中台(业务中台与数据中台)模式,更偏重行业解决方案。 3、数澜偏重解决方案,近年来又与金蝶合作密切,金蝶认为企业数字化正在从ERP(企业资源系统)向以数据中台为核心的EBC(企业业务能力)转型,因此双方的合作是在向未来发出邀请。 4、奇点云发力零售等领域,其数据中台更偏重零售的行业产品。 https://36kr.com/p/1416543565485698
14.数据中台建设五步法系统都是为应用而生的,数据中台也不例外。要构建一套数据中台服务于企业内部和外部运营,需要有成熟的建设方法论作为指导。数据中台建设方法论可分为高阶规划、系统设计、开发实施、试运行和持续运营 5 个阶段。 1、高阶规划 数据中台规划阶段可细分为业务架构师主导的业务规划和数据架构师主导的数据规划。由业务规划https://www.esensoft.com/industry-news/dx-29423.html
15.数据中台演进的四个阶段奇点云 CEO 张金银是阿里巴巴第一个数据仓库的创建者,他认为数据中台的意义在于降本增效。最近,他基于阿里巴巴的数据处理过程分享了数据中台演进的四个阶段,以下为重点内容。 阿里巴巴的数据处理经历了四个阶段,分别是: 数据库阶段,主要是 OLTP(联机事务处理)的需求; https://time.geekbang.org/column/article/119907
16.5分钟看懂数据中台的典型架构数据中台架构数据转换工具也是关键组成部分之一,负责将数据从一种格式转变为另一种格式,以便后续的处理和分析。常见的数据转换工具有ApacheNifi、Talend 等。这些工具通常具备高效的处理性能和灵活的转换规则,能够应对复杂的数据转换需求。 四、数据服务层 数据服务层在数据中台当中占据重要地位,主要负责以 API、数据接口等方式将处理https://blog.csdn.net/oOBubbleX/article/details/142819951