很多企业经历了多年信息化建设,完成了业务系统的在线化和数字化,积累了大量数据。
基于数据实现更加科学全面的经营决策、更加精准的营销运营、更加高效的生产组织与供应链管理和更加智能的客户服务也逐渐成为企业内生的需求。
统一建设以数据湖仓为核心的一套数据中台,提升数据开发的效能与质量是CIO们的第一反应。
其实先不必急于选型,让我们来结合过去十年间数智化先行者们的中台经验与教训,推演下我们从0到1建设数据体系需要提前考虑的问题。
计划建设数据中台前需要提前考虑哪些问题?
》您的企业和业务伙伴做好准备了么?
数据体系最终是要为业务服务的,最简单质朴的诉求就是让业务及时用上好数据。
做到这一点,不仅仅是技术团队的问题,更重要的是我们的管理层和业务侧是否已经完成了用数需求的梳理,很清楚要看什么样的数据,达成怎样的业务价值。
数仓建模水平的高低不仅是个技术问题,更重要的是对业务的理解,这一点是资深ETL工程师与普通工程师的重要分水岭。具体来说,
传统数仓开发基于物理数据的拷贝与加工,每一层建模都涉及到数据计算与存储的成本和数据开发与任务运维的人力成本。
如果企业从战略层到业务执行层还没有养成用数的习惯,也没有清晰明确的用数场景,数仓建模缺乏需求驱动的规划性,会导致高投入与低产出。一旦模型先行,业务需求的灵活变化也会导致很多前置成本浪费,模型变更的代价并不亚于重新建设。
综上,大量失败的中台案例究其原因,可能第一步就错了。
》您的团队做好准备了么?
目前市面上有着众多的一体化中台产品,数仓建模也是一套比较成熟的方法论,容易让人误以为数据体系建设等同于一次性部署和后期常规的代码开发测试上线。这种想法过于简单了。
工作内容
工作对象
知识技能
如上表,数据开发是一项综合工程,涵盖了从数据收集、存储、处理、分析到应用的全过程,高度类似工业领域的流程制造,具有较高的复杂度,需要工程师具备多方面的知识和技能。
数据工程所面临的诸多技术挑战包括:
应对以上挑战,不仅要具备数据科学与软件工程的综合技能,还考验着数据工程师对业务的理解与对多种工具和技术的驾驭能力。这也意味着,建设与管理企业的数据体系需要一个具有一定人数的专业团队。
》您本人做好准备了么?
作为企业数据平台的一号位,您本人不仅是具备前述各种数据工程知识、技术与经验的专家,而且还要为数据体系的ROI负责。
“R”是数据体系建设的收益,即企业从数据洞察中获得的价值。无论是管理层战略决策、经营管理的数据支撑,还是未来越来越频繁与深入的营销运营用数需求,让业务及时用上好数据都是您的首要任务。及时,对应的是数据交付的效率问题;好,对应的是数据质量问题。
现代数据工程与架构以数据仓库技术与生态工具为基础,其运作的基本前提是数据的物理集成,其最核心的工程方法论是ETL。
前者意味着无论数据的位置如何分散,数据的变化如何频繁,数据最终是否被查询使用,都必须将全域数据进行同步集中,才能进行后续的加工整合和交付使用,也意味着对数据的每一层加工都伴随着数据的拷贝和加载;
后者意味着数据的流动要伴随着同步、整合、建模、交付等一系列工作流和大量代码开发、作业配置、作业运维、性能调优和链路治理的人工工作。
企业数智化的深入,对技术团队意味着数据源、数据类型、数据规模、数据需求的快速膨胀和变更的频繁发生,也就意味着数据链路和数据工程的复杂度持续增加。
数据链路不断加长,汇总层和集市层表数量不断膨胀,如果说资产数量和开发工作量是线性增长的话,任务配置、调度、变更和运维的工作量则是指数级增长,伴随而来的还有质量风险的不断扩大、存算资源成本的快速拉高、数据治理的难度和压力越来越大。
归纳来说,基于物理集中的数据开发是投资先行、持续投入,但效益不确定的模式,随着数字化的深入,效率、质量与成本必将构成一个不可能三角,三者间的平衡取舍是所有CDO共同面对的难题。
作为企业数据平台的一号位,当您要牵头启动数据体系建设项目的时候,要用长期可持续的视角来进行整体规划和设计,还要综合考虑到企业目前和未来的用数需求和团队能力。
如果传统中台思路注定会走进效率、质量与成本困局,是否存在全新的思路和全新的方案达成更好的ROI呢?
答案是肯定的。
数据虚拟化技术为数据体系建设提供新思路
近年来,在数据源高度分散、数据量爆发式增长的背景下,数据虚拟化技术得到了快速发展。
数据虚拟化(DataFabric)是一种先进的数据管理技术,它为数据使用者提供了一个统一的、抽象的和封装的视图,使用户能够查询和操作存储在异构数据存储集合中的数据。
数据虚拟化技术通过创建一个逻辑数据层,集成了分散在不同系统中的企业数据,实现了集中化的安全管理和治理。核心特征包括数据封装、抽象和按需集成。它允许用户实时或近实时地访问分散的数据,而无需物理移动或复制。
经过国内外众多企业的实践验证,数据虚拟化技术具有下述优势:
同传统中台体系相比,数据虚拟化最大的差异是无需物理集中,“以销定产”,提供更加实时的数据访问与统一的安全管理,特别适用于需要整合多源异构数据、提高数据访问效率、增强数据安全性的场景,为正在规划建设数据体系的企业提供了一种全新的思路。
基于数字虚拟化技术的AloudataNoETL解决方案
Aloudata团队在大规模数据体系建设与长期管理实践中,充分体验到传统ETL工程体系的复杂性与效能瓶颈,因此始终致力于提升ETL工程自动化水平,以“让数据随时就绪”为使命。
AloudataAIR逻辑数据编织平台基于DataFabric理念,自研国内首个数据虚拟化引擎,实现逻辑数据集成、自动化数据编排和自适应查询加速。无需关心数据存放位置、数据任务运维和查询性能优化,直接基于SQL即可对全域数据进行探索、加工与查询。
AloudataAIR具有以下特性:
对于数据体系建设0-1阶段的企业来说,逻辑数仓是比传统物理湖仓更加简单、经济和高效的方案。无需前置大量投资和大规模团队建设,即可快速实现数据探查、集成加工与交付,让数据团队从繁重的物理ETL任务中解放出来,更加专注于沟通、理解与支持业务需求。通过更高效的需求响应,数据团队可以快速实现投资收益,获取更高的ROI。
区别于目前市面主流的数据虚拟化产品,AloudataAIR通过RP技术不仅可以确保敏捷用数场景下的查询性能,还可以实现智能作业编排,自动化代持人工ETL调度与运维作业,进而通过物化快照完成需要保留历史数据的模型资产的持久化。因此,AloudataAIR兼具传统数仓与数据虚拟化技术的双重优势。
AloudataCAN自动化指标平台,可直接对接数仓公共层的明细模型,支持用户通过业务语义表达实现配置化的指标定义,系统代持数仓汇总层和应用层的ETL作业,实现自动化指标生产。
基于全部明细数据的自动化ETL能力,让业务人员实现任意指标、任意维度的灵活组合分析与归因下钻,真正获取全部明细数据的分析自由。
系统代持指标开发,轻松实现指标口径与名称校验判重,彻底解决指标口径不一致的问题。统一指标服务,一处定义,下游多场景可共同消费口径一致的指标。
通过NoETL自动化的指标平台,企业可以一举解决指标开发效率低、分析不灵活、应用层报表无序膨胀导致的数据治理和指标口径治理难等顽疾,进一步降低数仓开发压力,提升业务用数的效率和质量。
结合AloudataAIR和AloudataCAN,我们向数据体系0-1阶段的企业推荐下述最佳实践:
采用AloudataAIR作为逻辑中台,对接各个业务系统的数据,快速实现逻辑集成与数据整合;
数仓团队结合业务需求完成DWD层的逻辑建模和模型的持续优化,沉淀高质量的数据资产;
根据查询访问的情况配置RP,按需物化高频访问的数据模型,确保查询性能;
应用AloudataCAN对接AloudataAIR中的DWD层明细模型,配置化指标定义,自动化指标开发,开放化指标服务。
上述方案在证券、能源、制造、医疗等客户生产场景中获得了真实验证,对比传统方案均实现了10倍以上的数字化运营效率提升、50%以上的存储成本节约和70%以上的ETL数据管理工作量下降,为企业的数智化深入奠定了坚实的基础。
获取最新的数据新闻
注册以获取优阅达DataBlog的快讯、见解和研究
订阅成功,是否希望成为我们的会员,以便获得更多的会员服务?