数据编排的现代时代:从数据碎片到协作第一部分

数据工程和软件工程长期以来一直存在分歧,各自都有自己独特的工具和最佳实践。一个关键的区别是在构建数据产品时需要专门的编排。在本文中,我们将探讨数据协调器所扮演的角色,以及行业的最新趋势如何使这两个学科比以往任何时候都更加紧密地结合在一起。

数据编排的现状

投资数据能力的主要目标之一是统一整个企业的知识和理解。这样做的价值可能是巨大的,但它涉及集成越来越多的系统,而且复杂性往往越来越高。数据编排为构建这些系统提供了一种原则性的方法,其复杂性来自于:

·许多不同的数据源,每个都有自己的语义和限制

·创建最终产品涉及的异构工具和流程

典型数据堆栈中有多个组件可以帮助组织这些常见场景。

组件

数据工程的流行行业模式被称为提取、加载和转换,或ELT。数据(E)从上游源中提取,(L)直接加载到数据仓库中,然后(T)转换为各种特定于领域的表示形式。存在变体,例如ETL,它在加载到仓库之前执行转换。所有方法的共同点是三种高级功能:摄取、转换和服务。这三个阶段之间以及每个阶段内部都需要编排来协调。

食入

摄取是将数据从源系统(例如数据库)移动到存储系统中的过程,该存储系统允许转换阶段更轻松地访问它。此阶段的编排通常涉及安排任务在上游有新数据时运行,或者在这些系统可用时主动侦听来自这些系统的通知。

转型

服务

服务可以指非常广泛的活动。在某些情况下,最终用户可以直接与仓库交互,这可能只涉及数据管理和访问控制。更常见的是,下游应用程序需要访问数据,这反过来又需要与仓库的模型同步。加载和同步是协调器在服务阶段发挥作用的地方。

从源到数据仓库,再到最终用户应用程序的典型数据流摄取引入数据,在仓库中进行转换,并将数据提供给下游应用程序。

这三个阶段构成了用于分析系统的有用心理模型,但对业务来说重要的是它们所支持的功能。数据编排有助于协调从源系统(可能是核心业务的一部分)获取数据所需的流程,并将其转化为数据产品。这些流程通常是异构的,并且不一定是为了协同工作而构建的。这可能会给协调器带来很多责任,让其负责制作副本、转换格式和其他临时活动以将这些功能整合在一起。

工具

随着流程变得越来越复杂,明确它们之间的依赖关系变得很有价值。这就是ApacheAirflow等工作流引擎所提供的功能。Airflow和类似的系统通常也被称为“编排器”,但正如我们将看到的,它们并不是唯一的编排方法。工作流引擎使数据工程师能够指定任务之间的明确顺序。它们支持运行计划任务,并且还可以监视应触发运行的外部事件。除了使管道更加健壮之外,它们提供的依赖关系鸟瞰图还可以提高可见性并实现更多治理控制。cron

有时“任务”的概念本身可能是有限制的。任务本质上是对批量数据进行操作,但流世界依赖于连续流动的数据单元。许多现代流框架都是围绕数据流模型构建的——ApacheFlink就是一个流行的例子。这种方法放弃了独立任务的排序,有利于组合可以对任何大小的块进行操作的细粒度计算。

从编曲到作曲

这些系统之间的共同点是它们捕获依赖关系,无论是隐式的还是显式的、批处理的还是流式的。许多系统需要结合使用这些技术,因此一致的数据编排模型应该将它们全部考虑在内。这是由更广泛的组合概念提供的,该概念捕获了数据编排器今天所做的大部分工作,并扩展了未来如何构建这些系统的视野。

可组合数据系统

数据编排的未来正在转向可组合的数据系统。编排器一直承担着连接越来越多的系统的沉重负担,而这些系统从未被设计为相互交互。组织已经建立了数量惊人的“粘合剂”来将这些流程粘合在一起。通过重新思考数据系统如何组合在一起的假设,新方法可以大大简化其设计。

开放标准

数据格式的开放标准是可组合数据移动的核心。ApacheParquet已成为列式数据事实上的文件格式,而ApacheArrow是其内存中的对应项。围绕这些格式的标准化非常重要,因为它减少甚至消除了困扰许多数据管道的昂贵的复制、转换和传输步骤。与本机支持这些格式的系统集成可以实现本机“数据共享”,而无需所有粘合代码。例如,摄取过程可能会将Parquet文件写入对象存储,然后简单地共享这些文件的路径。然后,下游服务可以访问这些文件,而无需制作自己的内部副本。如果工作负载需要与本地进程或远程服务器共享数据,它可以使用ArrowIPC或ArrowFlight,开销接近于零。

解构堆栈

数据系统始终需要对文件、内存和表格式做出假设,但在大多数情况下,它们都隐藏在其实现的深处。用于与数据仓库或数据服务供应商交互的狭窄API可以实现简洁的产品设计,但它并不能最大化最终用户可用的选择。它们描述了旨在支持类似业务功能的数据系统。

在封闭系统中,数据仓库内部维护自己的表结构和查询引擎。这是一种一刀切的方法,可以轻松上手,但可能难以扩展以满足新的业务需求。锁定可能很难避免,尤其是在涉及治理和其他访问数据的服务等功能时。云提供商在其生态系统内提供无缝且高效的集成,因为它们的内部数据格式是一致的,但这可能会关闭在该环境之外采用更好产品的大门。相反,导出到外部提供商需要维护专为仓库专有API构建的连接器,并且可能导致数据跨系统蔓延。

结论

编排是现代数据系统的支柱。在许多企业中,它是负责理清复杂且相互关联的流程的核心技术,但开放标准的新趋势为如何协调这些依赖关系提供了新的视角。系统不是从头开始构建以协作共享数据,而是将更大的复杂性推入编排层。云提供商一直在增加与这些标准的兼容性,这有助于为未来的最佳解决方案铺平道路。通过采用可组合性,组织可以简化治理并从行业中发生的最伟大进步中受益。

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

加利福尼亚州圣克拉拉县2024年8月30日/美通社/--数字化转型技术解决方案公司Trianz今天宣布,该公司与AmazonWebServices(AWS)签订了...

伦敦2024年8月29日/美通社/--英国汽车技术公司SODA.Auto推出其旗舰产品SODAV,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。SODAV工具的开发耗时1.5...

北京2024年8月28日/美通社/--越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

要点:有效应对环境变化,经营业绩稳中有升落实提质增效举措,毛利润率延续升势战略布局成效显著,战新业务引领增长以科技创新为引领,提升企业核心竞争力坚持高质量发展策略,塑强核心竞争优势...

北京2024年8月27日/美通社/--8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。活动现场NVI技术创新联...

北京2024年8月27日/美通社/--在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

山海路引岚悦新程三亚2024年8月27日/美通社/--近日,海南地区六家凯悦系酒店与中国高端新能源车企岚图汽车(VOYAH)正式达成战略合作协议。这一合作标志着两大品牌在高端出行体验和环保理念上的深度融合,将...

上海2024年8月28日/美通社/--8月26日至8月28日,AHNLAN安岚与股神巴菲特的孙女妮可巴菲特共同开启了一场自然和艺术的疗愈之旅。妮可·巴菲特在疗愈之旅活动现场合影...

8月29日消息,近日,华为董事、质量流程IT总裁陶景文在中国国际大数据产业博览会开幕式上表示,中国科技企业不应怕美国对其封锁。

上海2024年8月26日/美通社/--近日,全球领先的消费者研究与零售监测公司尼尔森IQ(NielsenIQ)迎来进入中国市场四十周年的重要里程碑,正式翻开在华发展新篇章。自改革开放以来,中国市场不断展现出前所未有...

上海2024年8月26日/美通社/--今日,高端全合成润滑油品牌美孚1号携手品牌体验官周冠宇,开启全新旅程,助力广大车主通过驾驶去探索更广阔的世界。在全新发布的品牌视频中,周冠宇及不同背景的消费者表达了对驾驶的热爱...

此次发布标志着Cision首次为亚太市场量身定制全方位的媒体监测服务。芝加哥2024年8月27日/美通社/--消费者和媒体情报、互动及传播解决方案的全球领导者Cis...

上海2024年8月27日/美通社/--近来,具有强大学习、理解和多模态处理能力的大模型迅猛发展,正在给人类的生产、生活带来革命性的变化。在这一变革浪潮中,物联网成为了大模型技术发挥作用的重要阵地。作为全球领先的...

北京2024年8月27日/美通社/--高途教育科技公司(纽约证券交易所股票代码:GOTU)("高途"或"公司"),一家技术驱动的在线直播大班培训机构,今日发布截至2024年6月30日第二季度未经审计财务报告。2...

8月26日消息,华为公司最近正式启动了“华为AI百校计划”,向国内高校提供基于昇腾云服务的AI计算资源。

THE END
1.数据架构设计与优化策略的深度探索天翼云开发者社区在当今信息化高速发展的时代,数据已成为企业最重要的资产之一。如何有效地管理和利用数据,成为企业提升竞争力、实现业务增长的关键。作为开发工程师,深入探索数据架构设计与优化策略,构建高效、稳定、可扩展的数据架构,对于企业的数据管理和应用至关重要。本文将围绕数https://www.ctyun.cn/developer/article/624399106633797
2.管家婆一码一肖100中奖,深度解答解释落实eh43.01.72结构化数据(Structured Data):指那些按照一定格式组织起来的数据,如数据库中的表格数据,这些数据易于存储和处理。 非结构化数据(Unstructured Data):包括文本、图像、视频等形式的数据,这类数据没有固定的结构,因此难以直接进行分析。 2. 数据分析的目的 https://jlyptech.cn/post/1857.html
3.结构化半结构化和非结构化数据腾讯云开发者社区结构化、半结构化和非结构化数据 一、结构化数据 结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。举一个例子: 代码语言:javascript 复制 id name age gender1Liu Yi20male2Chen Er35female3Zhang San28https://cloud.tencent.com/developer/article/1351609
4.结构化数据半结构化数据非结构化数据通过这样的数据格式,可以自由地表达很多有用的信息,包括自我描述信息(元数据)。所以,半结构化数据的扩展性是很好的。 非结构化数据 顾名思义,就是没有固定结构的数据。各种文档、图片、视频/音频等都属于非结构化数据。对于这类数据,我们一般直接整体进行存储,而且一般存储为二进制的数据格式。https://wenku.baidu.com/view/2b8c19a72bea81c758f5f61fb7360b4c2e3f2a2a.html
5.信息公开专栏一、?结构化数据与非结构化数据 结构化数据和非结构化数据作为大数据的两种类型,二者本身不存在真正的冲突,只是随着网络科技、信息通信等技术的不断发展,数据产生方式多,数据量大,形式不再单一,原有的计算机信息处理技术不能满足需求,于是人为地将数据分为结构化数据和非结构化数据,并针对非结构化数据处理提出了新https://www.changzhi.gov.cn/xxgkml/zfxxgkml/szfgzbm/czstjj/czsrmzf/tjxx_1188/sjfxhjd/202207/t20220704_2588893.shtml
6.结构化数据与非结构化数据结构化数据和非结构化数据结构化数据与非结构化数据 在数据科学和数据库管理中,我们经常会听到“结构化数据”和“非结构化数据”这两个术语。这篇博客将详细介绍这两者的定义、区别以及它们的应用场景,并通过具体的例子帮助大家更好地理解。 1. 结构化数据 定义:结构化数据是指按照预定义的数据模型进行组织的数据,通常存储在关系数据库中,https://blog.csdn.net/qq_44154915/article/details/140322918
7.结构化数据与非结构化数据的差异结构化数据与非结构化数据对比 结构化数据和非结构化数据都可以由人或机器生成,但它们之间有一些明显的区别。特别是,非结构化数据的不规则性和模糊行为使得使用传统程序难以理解。 随着现代技术的发展和发明,从非结构化数据中分析和获得新的见解变得越来越容易。将非结构化数据转换为结构化数据可以使其更容易、更有效https://www.modb.pro/db/407619
8.了解结构化数据与非结构化数据的差异数据用途广泛,有多种形式,并且可以通过多种方式进行组织。一种常见的分类是结构化或非结构化数据,具有不同的存储、处理和分析方法。了解这些差异有助于从任何数据集中提取有价值的见解。 结构化数据与非结构化数据:主要区别 结构化和非结构化数据在许多方面都有所不同。两者都使用不同的工具和方法来处理和分析信息https://www.360doc.cn/article/68899713_1124424478.html
9.结构化与非结构化的区别多源异构数据源半结构化数据①结构化数据:指关系模型数据,即以关系数据库表形式管理的数据,结合到典型场景中更容易理解,比如企业ERP、OA、HR里的数据。 ②非结构化数据:指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。如word、pdf、ppt及各种格式的图片、视频等。 https://www.fanruan.com/bw/doc/154297
10.什么是结构化半结构化和非结构化数据?①结构化数据:指关系模型数据,即以关系数据库表形式管理的数据,结合到典型场景中更容易理解,比如企业ERP、OA、HR里的数据。 ②非结构化数据:指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。如word、pdf、ppt及各种格式的图片、视频等。 https://it.ynnu.edu.cn/info/1054/2898.htm
11.非结构化数据管理平台研究与建设非结构化 海量存储 集中管理 版本控制 安全管控https://www.cnki.com.cn/Article/CJFDTotal-DXXH201202023.htm
12.非结构化数据分析技术非结构化数据主要包括非结构化数据是数据结构不规则或者说是不完整,没有预设的数据模型或者结构,不便使用数据库、模型及标准的数据接口表现的数据,包括所有格式的文本、图片、各类报表、图像、音频、视频数据等。 计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据的形式非常多样,标准也具有多样性(即标准不确定),同时在https://blog.51cto.com/u_16099165/6757640
13.IBMCloudObjectStorage在银行业非结构化数据存储嘲下的对象优化整体存储方案的成本结构,保护既有存储资产的前提下能够突破海量数据的存储的限制。 从存储本身考虑,在扩展性、性价比、可用可靠性上,由于对象存储技术的出现找到新的平衡点。 银行业传统的方式全部数据使用集中高端存储,没有实现优化的分层存储架构,带来的问题是非结构化数据影像整体存储性能,并且这些数据长期存放与https://redhat.talkwithtrend.com/Article/242823
14.什么是非结构化数据?我们所处理的数据分为三类,分别是规格化数据、半结构化数据以及非结构化数据,其中非结构化数据的定义为:呈现出不规则且无明显结构特征的数据。 -规格化数据:数据与字段相对应,数据以表格和数据集形式存在。 -半结构化数据:这种数据形态介于规格化数据和非结构化数据之间,方法是结合不明晰的规则来补足规格化数据的缺陷。https://www.filez.com/news/detail/faee08ab6bdc85c2d6216e4773bcc01f.html
15.非结构化数据(UnstructuredData)数据采集名词数据库和CMS 2023-10-26 11:15:48 浏览6865 次 摘要:非结构化数据是指那些没有明确定义格式或结构的数据,通常以自由文本、多媒体内容、社交媒体帖子、图像、音频和视频等形式存在。与结构化数据(如数据库表)不同,非结构化数据的组织和解释通常需要更多的上下文和语境。 https://www.houyicaiji.com/?type=post&pid=12136
16.什么是结构化数据和非结构化数据?零代码知识中心二、什么是非结构化数据? 顾名思义,其他所有不能按照行列格式整齐排列的数据都是结构化数据,如录音、视频片段、图像、社交媒体帖子、电子邮件内容、客户服务聊天记录、机器传感器数据等等。据 Gartner 估计,非结构化数据约占企业所有数据的 80%,来自其他机构的估计甚至更高。 https://www.jiandaoyun.com/fe/gdyqhj/
17.结构化数据和非结构化数据的区别阿里云为您提供结构化数据和非结构化数据的区别相关的70498条产品文档内容及常见问题解答内容,还有等云计算产品文档及常见问题解答。如果您想了解更多云计算产品,就来阿里云帮助文档查看吧,阿里云帮助文档地址https://help.aliyun.com/。https://help.aliyun.com/wordpower/447655-1.html
18.什么是非结构化数据(unstructureddata)?机器之心随着AI和5G时代的到来,我们对信息的渴望被极大的唤起,常规的结构化数据交互已经不能满足人们的需求,而伴随着数字化的快速发展,非结构化数据扮演起越来越重要的角色,图片、视频、语音蕴含的丰富信息将被广泛利用。然而真正能够使用并且管理非结构化数据是现在人工智能领域的一大问题。 https://www.jiqizhixin.com/articles/2020-05-20-10