数据工程和软件工程长期以来一直存在分歧,各自都有自己独特的工具和最佳实践。一个关键的区别是在构建数据产品时需要专门的编排。在本文中,我们将探讨数据协调器所扮演的角色,以及行业的最新趋势如何使这两个学科比以往任何时候都更加紧密地结合在一起。
数据编排的现状
投资数据能力的主要目标之一是统一整个企业的知识和理解。这样做的价值可能是巨大的,但它涉及集成越来越多的系统,而且复杂性往往越来越高。数据编排为构建这些系统提供了一种原则性的方法,其复杂性来自于:
·许多不同的数据源,每个都有自己的语义和限制
·创建最终产品涉及的异构工具和流程
典型数据堆栈中有多个组件可以帮助组织这些常见场景。
组件
数据工程的流行行业模式被称为提取、加载和转换,或ELT。数据(E)从上游源中提取,(L)直接加载到数据仓库中,然后(T)转换为各种特定于领域的表示形式。存在变体,例如ETL,它在加载到仓库之前执行转换。所有方法的共同点是三种高级功能:摄取、转换和服务。这三个阶段之间以及每个阶段内部都需要编排来协调。
食入
摄取是将数据从源系统(例如数据库)移动到存储系统中的过程,该存储系统允许转换阶段更轻松地访问它。此阶段的编排通常涉及安排任务在上游有新数据时运行,或者在这些系统可用时主动侦听来自这些系统的通知。
转型
服务
服务可以指非常广泛的活动。在某些情况下,最终用户可以直接与仓库交互,这可能只涉及数据管理和访问控制。更常见的是,下游应用程序需要访问数据,这反过来又需要与仓库的模型同步。加载和同步是协调器在服务阶段发挥作用的地方。
从源到数据仓库,再到最终用户应用程序的典型数据流摄取引入数据,在仓库中进行转换,并将数据提供给下游应用程序。
这三个阶段构成了用于分析系统的有用心理模型,但对业务来说重要的是它们所支持的功能。数据编排有助于协调从源系统(可能是核心业务的一部分)获取数据所需的流程,并将其转化为数据产品。这些流程通常是异构的,并且不一定是为了协同工作而构建的。这可能会给协调器带来很多责任,让其负责制作副本、转换格式和其他临时活动以将这些功能整合在一起。
工具
随着流程变得越来越复杂,明确它们之间的依赖关系变得很有价值。这就是ApacheAirflow等工作流引擎所提供的功能。Airflow和类似的系统通常也被称为“编排器”,但正如我们将看到的,它们并不是唯一的编排方法。工作流引擎使数据工程师能够指定任务之间的明确顺序。它们支持运行计划任务,并且还可以监视应触发运行的外部事件。除了使管道更加健壮之外,它们提供的依赖关系鸟瞰图还可以提高可见性并实现更多治理控制。cron
有时“任务”的概念本身可能是有限制的。任务本质上是对批量数据进行操作,但流世界依赖于连续流动的数据单元。许多现代流框架都是围绕数据流模型构建的——ApacheFlink就是一个流行的例子。这种方法放弃了独立任务的排序,有利于组合可以对任何大小的块进行操作的细粒度计算。
从编曲到作曲
这些系统之间的共同点是它们捕获依赖关系,无论是隐式的还是显式的、批处理的还是流式的。许多系统需要结合使用这些技术,因此一致的数据编排模型应该将它们全部考虑在内。这是由更广泛的组合概念提供的,该概念捕获了数据编排器今天所做的大部分工作,并扩展了未来如何构建这些系统的视野。
可组合数据系统
数据编排的未来正在转向可组合的数据系统。编排器一直承担着连接越来越多的系统的沉重负担,而这些系统从未被设计为相互交互。组织已经建立了数量惊人的“粘合剂”来将这些流程粘合在一起。通过重新思考数据系统如何组合在一起的假设,新方法可以大大简化其设计。
开放标准
数据格式的开放标准是可组合数据移动的核心。ApacheParquet已成为列式数据事实上的文件格式,而ApacheArrow是其内存中的对应项。围绕这些格式的标准化非常重要,因为它减少甚至消除了困扰许多数据管道的昂贵的复制、转换和传输步骤。与本机支持这些格式的系统集成可以实现本机“数据共享”,而无需所有粘合代码。例如,摄取过程可能会将Parquet文件写入对象存储,然后简单地共享这些文件的路径。然后,下游服务可以访问这些文件,而无需制作自己的内部副本。如果工作负载需要与本地进程或远程服务器共享数据,它可以使用ArrowIPC或ArrowFlight,开销接近于零。
解构堆栈
数据系统始终需要对文件、内存和表格式做出假设,但在大多数情况下,它们都隐藏在其实现的深处。用于与数据仓库或数据服务供应商交互的狭窄API可以实现简洁的产品设计,但它并不能最大化最终用户可用的选择。它们描述了旨在支持类似业务功能的数据系统。
在封闭系统中,数据仓库内部维护自己的表结构和查询引擎。这是一种一刀切的方法,可以轻松上手,但可能难以扩展以满足新的业务需求。锁定可能很难避免,尤其是在涉及治理和其他访问数据的服务等功能时。云提供商在其生态系统内提供无缝且高效的集成,因为它们的内部数据格式是一致的,但这可能会关闭在该环境之外采用更好产品的大门。相反,导出到外部提供商需要维护专为仓库专有API构建的连接器,并且可能导致数据跨系统蔓延。
结论
编排是现代数据系统的支柱。在许多企业中,它是负责理清复杂且相互关联的流程的核心技术,但开放标准的新趋势为如何协调这些依赖关系提供了新的视角。系统不是从头开始构建以协作共享数据,而是将更大的复杂性推入编排层。云提供商一直在增加与这些标准的兼容性,这有助于为未来的最佳解决方案铺平道路。通过采用可组合性,组织可以简化治理并从行业中发生的最伟大进步中受益。
9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。
加利福尼亚州圣克拉拉县2024年8月30日/美通社/--数字化转型技术解决方案公司Trianz今天宣布,该公司与AmazonWebServices(AWS)签订了...
伦敦2024年8月29日/美通社/--英国汽车技术公司SODA.Auto推出其旗舰产品SODAV,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。SODAV工具的开发耗时1.5...
北京2024年8月28日/美通社/--越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...
8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。
8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。
8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。
要点:有效应对环境变化,经营业绩稳中有升落实提质增效举措,毛利润率延续升势战略布局成效显著,战新业务引领增长以科技创新为引领,提升企业核心竞争力坚持高质量发展策略,塑强核心竞争优势...
北京2024年8月27日/美通社/--8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。活动现场NVI技术创新联...
北京2024年8月27日/美通社/--在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...
山海路引岚悦新程三亚2024年8月27日/美通社/--近日,海南地区六家凯悦系酒店与中国高端新能源车企岚图汽车(VOYAH)正式达成战略合作协议。这一合作标志着两大品牌在高端出行体验和环保理念上的深度融合,将...
上海2024年8月28日/美通社/--8月26日至8月28日,AHNLAN安岚与股神巴菲特的孙女妮可巴菲特共同开启了一场自然和艺术的疗愈之旅。妮可·巴菲特在疗愈之旅活动现场合影...
8月29日消息,近日,华为董事、质量流程IT总裁陶景文在中国国际大数据产业博览会开幕式上表示,中国科技企业不应怕美国对其封锁。
上海2024年8月26日/美通社/--近日,全球领先的消费者研究与零售监测公司尼尔森IQ(NielsenIQ)迎来进入中国市场四十周年的重要里程碑,正式翻开在华发展新篇章。自改革开放以来,中国市场不断展现出前所未有...
上海2024年8月26日/美通社/--今日,高端全合成润滑油品牌美孚1号携手品牌体验官周冠宇,开启全新旅程,助力广大车主通过驾驶去探索更广阔的世界。在全新发布的品牌视频中,周冠宇及不同背景的消费者表达了对驾驶的热爱...
此次发布标志着Cision首次为亚太市场量身定制全方位的媒体监测服务。芝加哥2024年8月27日/美通社/--消费者和媒体情报、互动及传播解决方案的全球领导者Cis...
上海2024年8月27日/美通社/--近来,具有强大学习、理解和多模态处理能力的大模型迅猛发展,正在给人类的生产、生活带来革命性的变化。在这一变革浪潮中,物联网成为了大模型技术发挥作用的重要阵地。作为全球领先的...
北京2024年8月27日/美通社/--高途教育科技公司(纽约证券交易所股票代码:GOTU)("高途"或"公司"),一家技术驱动的在线直播大班培训机构,今日发布截至2024年6月30日第二季度未经审计财务报告。2...
8月26日消息,华为公司最近正式启动了“华为AI百校计划”,向国内高校提供基于昇腾云服务的AI计算资源。