数据编排的现代时代:从数据碎片到协作第一部分

数据工程和软件工程长期以来一直存在分歧,各自都有自己独特的工具和最佳实践。一个关键的区别是在构建数据产品时需要专门的编排。在本文中,我们将探讨数据协调器所扮演的角色,以及行业的最新趋势如何使这两个学科比以往任何时候都更加紧密地结合在一起。

数据编排的现状

投资数据能力的主要目标之一是统一整个企业的知识和理解。这样做的价值可能是巨大的,但它涉及集成越来越多的系统,而且复杂性往往越来越高。数据编排为构建这些系统提供了一种原则性的方法,其复杂性来自于:

·许多不同的数据源,每个都有自己的语义和限制

·创建最终产品涉及的异构工具和流程

典型数据堆栈中有多个组件可以帮助组织这些常见场景。

组件

数据工程的流行行业模式被称为提取、加载和转换,或ELT。数据(E)从上游源中提取,(L)直接加载到数据仓库中,然后(T)转换为各种特定于领域的表示形式。存在变体,例如ETL,它在加载到仓库之前执行转换。所有方法的共同点是三种高级功能:摄取、转换和服务。这三个阶段之间以及每个阶段内部都需要编排来协调。

食入

摄取是将数据从源系统(例如数据库)移动到存储系统中的过程,该存储系统允许转换阶段更轻松地访问它。此阶段的编排通常涉及安排任务在上游有新数据时运行,或者在这些系统可用时主动侦听来自这些系统的通知。

转型

服务

服务可以指非常广泛的活动。在某些情况下,最终用户可以直接与仓库交互,这可能只涉及数据管理和访问控制。更常见的是,下游应用程序需要访问数据,这反过来又需要与仓库的模型同步。加载和同步是协调器在服务阶段发挥作用的地方。

从源到数据仓库,再到最终用户应用程序的典型数据流摄取引入数据,在仓库中进行转换,并将数据提供给下游应用程序。

这三个阶段构成了用于分析系统的有用心理模型,但对业务来说重要的是它们所支持的功能。数据编排有助于协调从源系统(可能是核心业务的一部分)获取数据所需的流程,并将其转化为数据产品。这些流程通常是异构的,并且不一定是为了协同工作而构建的。这可能会给协调器带来很多责任,让其负责制作副本、转换格式和其他临时活动以将这些功能整合在一起。

工具

随着流程变得越来越复杂,明确它们之间的依赖关系变得很有价值。这就是ApacheAirflow等工作流引擎所提供的功能。Airflow和类似的系统通常也被称为“编排器”,但正如我们将看到的,它们并不是唯一的编排方法。工作流引擎使数据工程师能够指定任务之间的明确顺序。它们支持运行计划任务,并且还可以监视应触发运行的外部事件。除了使管道更加健壮之外,它们提供的依赖关系鸟瞰图还可以提高可见性并实现更多治理控制。cron

有时“任务”的概念本身可能是有限制的。任务本质上是对批量数据进行操作,但流世界依赖于连续流动的数据单元。许多现代流框架都是围绕数据流模型构建的——ApacheFlink就是一个流行的例子。这种方法放弃了独立任务的排序,有利于组合可以对任何大小的块进行操作的细粒度计算。

从编曲到作曲

这些系统之间的共同点是它们捕获依赖关系,无论是隐式的还是显式的、批处理的还是流式的。许多系统需要结合使用这些技术,因此一致的数据编排模型应该将它们全部考虑在内。这是由更广泛的组合概念提供的,该概念捕获了数据编排器今天所做的大部分工作,并扩展了未来如何构建这些系统的视野。

可组合数据系统

数据编排的未来正在转向可组合的数据系统。编排器一直承担着连接越来越多的系统的沉重负担,而这些系统从未被设计为相互交互。组织已经建立了数量惊人的“粘合剂”来将这些流程粘合在一起。通过重新思考数据系统如何组合在一起的假设,新方法可以大大简化其设计。

开放标准

数据格式的开放标准是可组合数据移动的核心。ApacheParquet已成为列式数据事实上的文件格式,而ApacheArrow是其内存中的对应项。围绕这些格式的标准化非常重要,因为它减少甚至消除了困扰许多数据管道的昂贵的复制、转换和传输步骤。与本机支持这些格式的系统集成可以实现本机“数据共享”,而无需所有粘合代码。例如,摄取过程可能会将Parquet文件写入对象存储,然后简单地共享这些文件的路径。然后,下游服务可以访问这些文件,而无需制作自己的内部副本。如果工作负载需要与本地进程或远程服务器共享数据,它可以使用ArrowIPC或ArrowFlight,开销接近于零。

解构堆栈

数据系统始终需要对文件、内存和表格式做出假设,但在大多数情况下,它们都隐藏在其实现的深处。用于与数据仓库或数据服务供应商交互的狭窄API可以实现简洁的产品设计,但它并不能最大化最终用户可用的选择。它们描述了旨在支持类似业务功能的数据系统。

在封闭系统中,数据仓库内部维护自己的表结构和查询引擎。这是一种一刀切的方法,可以轻松上手,但可能难以扩展以满足新的业务需求。锁定可能很难避免,尤其是在涉及治理和其他访问数据的服务等功能时。云提供商在其生态系统内提供无缝且高效的集成,因为它们的内部数据格式是一致的,但这可能会关闭在该环境之外采用更好产品的大门。相反,导出到外部提供商需要维护专为仓库专有API构建的连接器,并且可能导致数据跨系统蔓延。

结论

编排是现代数据系统的支柱。在许多企业中,它是负责理清复杂且相互关联的流程的核心技术,但开放标准的新趋势为如何协调这些依赖关系提供了新的视角。系统不是从头开始构建以协作共享数据,而是将更大的复杂性推入编排层。云提供商一直在增加与这些标准的兼容性,这有助于为未来的最佳解决方案铺平道路。通过采用可组合性,组织可以简化治理并从行业中发生的最伟大进步中受益。

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

加利福尼亚州圣克拉拉县2024年8月30日/美通社/--数字化转型技术解决方案公司Trianz今天宣布,该公司与AmazonWebServices(AWS)签订了...

伦敦2024年8月29日/美通社/--英国汽车技术公司SODA.Auto推出其旗舰产品SODAV,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。SODAV工具的开发耗时1.5...

北京2024年8月28日/美通社/--越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

要点:有效应对环境变化,经营业绩稳中有升落实提质增效举措,毛利润率延续升势战略布局成效显著,战新业务引领增长以科技创新为引领,提升企业核心竞争力坚持高质量发展策略,塑强核心竞争优势...

北京2024年8月27日/美通社/--8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。活动现场NVI技术创新联...

北京2024年8月27日/美通社/--在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

山海路引岚悦新程三亚2024年8月27日/美通社/--近日,海南地区六家凯悦系酒店与中国高端新能源车企岚图汽车(VOYAH)正式达成战略合作协议。这一合作标志着两大品牌在高端出行体验和环保理念上的深度融合,将...

上海2024年8月28日/美通社/--8月26日至8月28日,AHNLAN安岚与股神巴菲特的孙女妮可巴菲特共同开启了一场自然和艺术的疗愈之旅。妮可·巴菲特在疗愈之旅活动现场合影...

8月29日消息,近日,华为董事、质量流程IT总裁陶景文在中国国际大数据产业博览会开幕式上表示,中国科技企业不应怕美国对其封锁。

上海2024年8月26日/美通社/--近日,全球领先的消费者研究与零售监测公司尼尔森IQ(NielsenIQ)迎来进入中国市场四十周年的重要里程碑,正式翻开在华发展新篇章。自改革开放以来,中国市场不断展现出前所未有...

上海2024年8月26日/美通社/--今日,高端全合成润滑油品牌美孚1号携手品牌体验官周冠宇,开启全新旅程,助力广大车主通过驾驶去探索更广阔的世界。在全新发布的品牌视频中,周冠宇及不同背景的消费者表达了对驾驶的热爱...

此次发布标志着Cision首次为亚太市场量身定制全方位的媒体监测服务。芝加哥2024年8月27日/美通社/--消费者和媒体情报、互动及传播解决方案的全球领导者Cis...

上海2024年8月27日/美通社/--近来,具有强大学习、理解和多模态处理能力的大模型迅猛发展,正在给人类的生产、生活带来革命性的变化。在这一变革浪潮中,物联网成为了大模型技术发挥作用的重要阵地。作为全球领先的...

北京2024年8月27日/美通社/--高途教育科技公司(纽约证券交易所股票代码:GOTU)("高途"或"公司"),一家技术驱动的在线直播大班培训机构,今日发布截至2024年6月30日第二季度未经审计财务报告。2...

8月26日消息,华为公司最近正式启动了“华为AI百校计划”,向国内高校提供基于昇腾云服务的AI计算资源。

THE END
1.非结构化数据的处理技术和应用文本分析是非结构化数据处理的一种重要技术,可用于从文本数据中提取有用的信息和知识。文本分析可以分为三个步骤:文本预处理、特征提取和建模分析。文本预处理包括分词、去除停用词、文本归一化等步骤;特征提取包括词袋模型、TF-IDF等方法;建模分析包括聚类、分类、情感分析等方法。文本分析的应用场景包括社交媒体的舆情https://wenku.baidu.com/view/fea50c8f00d8ce2f0066f5335a8102d276a261e8.html
2.大数据时代的非结构化数据处理技术图像识别和视频分析技术是非结构化数据处理中不可或缺的一部分。得益于深度学习模型的快速发展,图像和视频分析技术能够从海量的视觉数据中自动提取关键特征,如物体识别、场景分类、动作分析等。 在安全监控领域,视频分析技术可以自动识别异常事件,减少人工监控的成本和误差。此外,在制造业,图像识别技术被广泛应用于产品质https://www.gokuai.com/press/a1165
3.非结构化数据提取技术在统计工作中的应用摘要结构化数据和非结构化数据是大数据的两种类型,目前非结构化数据信息已达信息总量的85%以上,且每年以55%~65%的速度增长,统计工作受到大数据的冲击,日常总会遇到一些非结构化数据提取的难题,导致工作量加大,效率低下。本文对非结构化数据及其提取技术、大数据处理语言——Python语言进行学习研究,解决实际中遇https://tjj.changzhi.gov.cn/sjfx/202207/t20220704_2588893.html
4.IBMCloudObjectStorage在银行业非结构化数据存储嘲下的对象随着银行业IT技术的快速发展和业务的不断升级变革,业务应用系统产生的非结构化数据(包括文件、图片、音视频文件等)的规模也越来越大,银行业非结构化数据呈指数式爆发式增长。目前使用非结构化数据的主要系统包括内容管理平台、后督影像系统、身份验证、柜员办业务扫描件等需要用到影像图片,以及呼叫中心系统、电话客服的https://redhat.talkwithtrend.com/Article/242823
5.人工智能技术在群聊类数据分析中的探索5.其他非结构化数据 如表情符号、红包等,也是群聊中常见的交流形式。 二、人工智能技术应用 为了有效处理群聊数据的碎片化、多样化等特性,人工智能技术发挥了重要作用,主要包括: 1.自然语言处理 通过NLP技术,我们能够对群聊中的文字数据进行多种处理,包括分词、词性标注、命名实体识别等。这些处理步骤可以帮助我们更好http://www.51testing.com/mobile/view.php?itemid=7800371
6.大数据金融第二章大数据相关技术首先是利用多种轻型数据库收集海量数据,对不同来源的数据进行预处理后,整合存储到大型数据库中,然后根据企业或个人目的和需求,运用合适的数据挖掘技术提取有益的知识,最后利用恰当的方式将结果展现给终端用户。 数据处理流程 一 数据采集 大数据的采集是指在确定用户目标的基础上,对该范围内的所有结构化、半结构化、https://www.jianshu.com/p/d68251554c66
7.Top前沿:农业和应用经济学中的机器学习,其与计量经济学的比较然后,确定了当前计量经济学和模拟模型工具箱在应用经济学方面的局限性,并探索了机器学习法提供的潜在解决方案。在预测和因果分析中,深入研究了不灵活的函数形式、非结构化数据源和大量解释性变量等情况,并强调了复杂模拟模型的挑战。最后,作者认为,当用于定量经济分析时,经济学家在解决机器学习法的缺点方面有着至关https://blog.51cto.com/u_15057855/2675591
8.互联网成数据宝库,网络数据采集技术推动人工智能发展官网互联网数据量呈指数式增长,非结构化数据的应用依赖于清洗标注 PC、互联网、消费级移动设备的兴起宣告了数据时代的来临,数据量呈指数式增长,据IDC统计,全球每年生产的数据量将从2016年的16. 1ZB猛增至2025年的163ZB,其中80%-90%是非结构化数据。过去计算机主要处理结构化数据,人工智能模型却以处理非结构化数据见长https://www.tanmer.com/blog/575
9.2022年度陕西省重点研发计划项目申报指南目录4.9 大规模非结构化网格并行剖分技术研究 4.10 大流量高温燃油调节方法及调节器设计关键技术 5.新一代通信技术 5.1 空地一体化网络立体致密多维覆盖技术 5.2 面向天地一体化大规模星座的网络化测控关键技术 5.3 新型天线形态下基于大规模 MIMO 的机载数据高速传输技术 http://www.kt180.com/html/sxs/9889.html
10.中信证券非结构化数据处理平台建设实践中信证券综合应用OCR、NLP、RPA、搜索引擎、知识图谱等AI技术,在非结构化数据识别解析、自然语言理解与结构化处理、非结构化知识存储与检索等方面,开展公司级非结构化数据处理平台建设。 作者 中信证券股份有限公司信息技术中心 岳丰 王哲 刘殊玥 余怡然 方兴 https://www.secrss.com/articles/53891
11.行政管理论文15篇工商行政管理工作想要顺应时代的潮流,跟上社会发展的步伐,就必须将现代的大数据技术应用的到工商行政管理工作中,以此来提高工作效率,更好地对企业进行监督管理,助推企业的规范化稳定快速发展。 2大数据技术概述 大数据技术是在庞大的数据信息资源中进行分析、处理和检索等过程,提取出对当前工作最有利用价值的信息资源。https://www.ruiwen.com/lunwen/6220159.html
12.科学网—[转载]武新:大数据架构及行业大数据应用所谓的“大数据应用”主要是对各类数据进行整理、交叉分析、比对,对数据进行深度挖掘,对用户提供自助的即席、迭代分析能力。还有一类就是对非结构化数据的特征提取(指纹、图像、语音自动识别、基因数据比对等),以及半结构化数据的内容检索(搜索)、理解(语义分析)等。传统数据库对这类需求和应用无论在技术上还是功能上https://blog.sciencenet.cn/blog-887780-1358813.html
13.什么是数据转换,数据转换的知识介绍图像数据转换:图像数据转换包括图像格式转换、大小调整、色彩空间转换等,广泛应用于图像处理、计算机视觉等领域。 3.数据转换分类 结构化数据与非结构化数据转换 结构化数据:指具有明确定义格式和字段的数据,如数据库表格中的数据。结构化数据转换通常涉及数据表连接、聚合、筛选等操作。 https://www.eefocus.com/baike/1694420.html
14.Python实战:非结构化数据分析非结构化数据处理在当今大数据时代,非结构化数据无处不在,包括社交媒体、电子邮件、网络日志、视频监控数据等。Python作为一种强大的编程语言,提供了丰富的库和框架,用于处理和分析非结构化数据。本文将详细介绍Python在非结构化数据分析中的关键技术,并通过具体代码示例展示如何应用这些技术。https://blog.csdn.net/oandy0/article/details/137567962
15.AnyShare内容数据湖:海量非结构化数据存储与处理的基石·海量非结构化数据难以描述,难以形成结构化的属性信息以提升识别、理解、查找、利用效率 业务系统的文档属性统一管理 ·业务系统孤岛为企业带来统一管理、搜索、整合难题,业务流程打通需要元数据管理能力支撑 海量数据的文档属性访问压力 ·非结构化数据的暴增和丰富的业务应用将带来内容元数据的增长和访问压力,元数据服务https://www.aishu.cn/cn/feature/content-lake