云原生大数据架构实践与思考DataFunTalk

当今大数据AI早已成为IT技术发展的核心引擎。回望过去,其技术演进的发展历经的几个重要阶段。从80年一体化TD数仓诞生到到2004年Hadoop出现分布式大数据架构,再到现在的大数据上云兴起。可以分为四个阶段,从ScaleUp-共享存储架构、ScaleOut-大规模并行处理、SQL-ON-Hadoop、湖仓一体的数据架构。每个阶段都有各自的技术特点,也是适应当时环境而产生的架构演进。1-第一代架构:以共享存储的架构为代表(sharestorage),支持的节点很少,扩展困难,只能支撑报表分析的场景为主。2-第二代架构:以大规模并行处理MPP架构为代表(sharenothing),节点规模能够达到百级,能够处理的数据规模得到了一定提升,但仍存在限制。3-第三代架构:以Hadoop、Spark为代表,基于分布式的存储、分布式的资源调度,获得了更大规模的集群规模及数据处理规模。4-第四代架构:湖仓一体架构,在新的网络传输速度背景下,基于统一的分布式存储、数据湖仓

其中伴随着AI深度学习蓬勃发展,云原生大数据AI一体化大行其道。阿里云在其中也扮演了重要的角色。从中我们能看到大数据统一架构趋势与新的变化。

首先是大数据进入后红海时代,从之前全面技术发展期已经进入到成熟期。其标志性特点在于大数据体系内容已经沉淀出经典技术架构方向。此图可以理解为当今大数据最典型的技术架构图例。

其从下往上分别是

如左图所示,抽象来看是所有大数据架构大多都由图中梳理出的9大领域架构组件来组成。万变不离其中。

而围绕着这9个大数据领域架构下,我们能看到真实业务场景下背后的大数据架构的持续面临的未解之痛与以及架构之上的数据之难。

[稳定性]周期性系统稳定性问题[资源成本]存储计算成本快速上涨[资源弹性]资源弹性不足,业务受阻[敏捷开发]开发迭代不敏捷,周期长,很难系统升级[混合计算]离线与实时不同场景下的计算引擎差异大[运维复杂]人工运维复杂度高,起夜率高[容灾备份]无法支持跨AZ的容灾备份数据安全得不到保障其问题一直悬而未决是因为当前架构的未解之痛很难单点孤立的来破解。不断的关联问题考验着大数据架构师的能力边界,周期性的困境让技术人员一直如鲠在喉,难以破解。于是我们在思考是不是有全新的技术架构能够更加全面的解决现在的未解之痛。

似乎云计算尝试给我们新的解决思考与实践路径,面对现有大数据架构下无解之痛与数据之难。

围绕着稳定,安全,性能,成本等四个核心维度,云计算与其云原生架构深刻改变传统数据架构的固有体系。使用云原生技术是对系统架构的一次重新编排与重构。如何持续确保分布式的稳定性与容错性,解决周期性系统异常的问题。存算分离后所带来的可弹性资源伸缩能力。服务化的自动化智能运维。敏捷交付与通过流量切分方式透明升级产品版本等等。

-多样且几乎无限的资源通过ServiceAPI的形式提供,对于资源的调度和分配可以通过代码完成,这是革命性的变革。-一切资源明码标价(提前预估),所以程序优化的方向从过去的一维的榨取最好的性能(因为硬件的成本已经事先支付),变成一个动态弹性的问题:尽量花小钱办大事,动态调整。-云上的大数据产品,首先应该是多个自治的微服务组成的网络。云统一服务应该是无状态的(无副作用),方便快速的弹性扩展。放弃对于同步语义的坚持,这个世界是异步化且不可靠的。很多时候,从我们看来,云计算不止是当作一种商业模式,它同样也是对技术体系的新构建。

很多时候我们都把云计算/大数据/AI能力并列当今技术领域三大重要方向。其实从另一维度来看到云计算所具备的核心新特性正在深刻的影响与推动数据架构向下一阶段演进与发展。

此图罗列了当前AWS/GCP/Azure三大云厂商大数据典型架构与产品组件,可以看到其在搭建在其各自的云计算平台之上的大数据产品体系都有着相同类似的云数据架构,从统一数据目录/统一分布式存储服务/离线在线实时等多种计算负载/统一元数据服务/统一数据管道/统一资源编排/统一数据服务API等等。在多个统一共享组件背后是基于云原生的Shared-Everything大数据架构,彻底的架构解耦将统一共用组件作为Serverless全局服务,成为新的技术趋势。是新定义的云原生数据架构。

在新一代云原生数据架构体系下,云计算+大数据协同所带来的核心产品能力有更多的突破与进化。当我们用更长的眼光去看的时候就会发现,我们要做的并不再是一个大数据产品软件,而是一个大数据服务,后者是包含前者的。这个认知的转变是云原生数据架构区别于经典分布式大数据架构主要差异,是最重要的一步。大数据服务形态也诞生了很多新的关键能力。以1+N+1的能力分层为主。

1是在云基础设施平台之上云原生存算分离与湖仓一体平台架构。此架构基本已经成为当前云计算数据平台的事实标准。以右图阿里云数据架构可见,在统一云基础设施平台之上,StorageLayer/StorageOptimizer/ComputeLayer三层存算分离架构,支持两个不同形态。A.在数据仓库上支持数据湖(仓边建湖一体):一般是通过在数仓中建外部表来实现,解决数据仓库如何更加灵活,以数仓为核心,支持访问数据湖。代表产品有Snowflake,MaxCompute等。B.在数据湖中支持数仓能力(湖上建仓一体):一般是以数据湖存储为基础,在数据湖之上构建数据仓库的服务层,强化数据治理和数据服务的提供。代表产品是Databricks,EMR等。

无论是仓边建湖还是湖上建仓,对于云原生的数据产品而言,如何能利用好统一对象存储都会是关键

N是云原生数据架构详细能力建设。分别是

-弹性资源伸缩+动态隔离-分布式统一资源调度/容器化-多模态计算引擎-智能化自适应能力-AI+大数据一体协同之后将具体分开讲述最后1个1是云计算数据架构的基石。以云端冗余的基础资源来扩充与提升整体系统稳定性与高可用。

容器+Kubernetes,是每个云都绕不开的必要服务。就像Linux一样,K8s是云的操作系统,统一计算资源池化的管理是云上必须要做到的。只有在云上实现统一调度与资源池化才能打破离线与实时之间的计算资源的不平衡,从而实现支持离线实时/大数据与AI不同计算资源的高效协同应用。

从客户视角来看,还是从云原生数据架构的需求来看,需要在基于云计算分布式存储之上的独立统一元数据管理体系,来支持多种计算引擎的元数据信息,来管理数据湖上结构化与非结构化的数据存储。在过去的业务实践中,有多位重要客户愿意采用类似AliyunDataLakeFormation的数据湖元数据管理产品,用来补全云原生数据架构的重要一块拼图。实现对湖上数据管理的最佳实践。其能力包括:

云原生架构所带来的Serverless能力不断迭代能够持续简化大数据产品的运维管理复杂度。智能自适应是Serverless产品的必要能力。面向优化对象往往是作业集合,会利用丰富的历史统计信息、元仓、作业运行信息、海量的各种各样的query;有利于进一步AIforSystem,利用机器学习的能力做更好的系统决策。AIforSystem类似与大数据的‘自动驾驶’,可分为5级。

大数据+AI智能化。从最早的可用的,到当前主流的好用的(高性能低成本,成本优化),再到智能的(AIforSystem利用机器学习的能力做更好的系统决策)。AI智能优化的大数据系统已经成为云原生大数据技术演进的重要方向。正如之前所提到的智能自适应与AI机器学习相结合的智能数仓。整合了标准研发的DevOps/数据开发治理的DataOps/AI机器学习开发的MLOps,以GPTOps大模型辅助智能,AIOps一体化成为大数据智能化新趋势的一部分,智能实现可观测性/资源优化/问题定位等应用。

在此我介绍一下阿里云云原生大数据AI的4+1参考架构。其中4个一体架构包括离线实时一体/湖仓一体/流批一体/大数据AI一体,通过4个一体化架构覆盖阿里云核心自研与开源大数据产品,MaxCompute/Hologres/PAI/EMR/Flink/ES等等。1个统一数据AI平台,是整合DataWorks数据开发治理的DataOps与PAI机器学习平台的MLOps来构建面向未来的AIOps一体化平台能力。

我们以阿里云汽车自动驾驶的数据工程作为用例,介绍大数据AI一体的参考架构如何实践落地。

云原生大数据的架构趋势已经成为行业共识,其发展与迭代将持续进化下去,我们拭目以待!

THE END
1.强化学习ReinforcementLearning在航空航天领域的应用与挑战强化学习,Reinforcement Learning,航空航天,应用,挑战,控制,优化,决策 1. 背景介绍 航空航天领域一直以来都是科技发展的前沿阵地,其复杂性、安全性要求极高,对智能控制和决策的需求日益迫切。传统控制方法往往依赖于预先设定的规则和模型,难以应对复杂、动态变化的环境。而强化学习(Reinforcement Learning,RL)作为一种机器https://blog.csdn.net/2301_76268839/article/details/144429525
2.自然语言强化学习:一个可处理语言反馈的强化学习框架这种困境促使研究团队开始探索一个更具突破性的方向:能否设计一个框架,让 AI 系统完全通过与环境的交互来学习,而不依赖任何人类标注数据?传统强化学习为这个问题提供了灵感,但其单一数值奖励的机制难以满足复杂场景的需求。团队意识到需要一个新范式,既要继承强化学习的数学严谨性,又要具备自然语言的表达丰富性。这个https://hub.baai.ac.cn/view/41851
3.大数据上云存算分离演进思考与实践大数据阿里技术异构计算的资源负载混部:在统一存储平台提供面向异构计算的工作资源负载下的多维度查询分析服务。在线与离线计算共用计算和存储资源。解决资源波峰波谷问题,实现资源动态削峰填谷 存储降本: 存储利用率+冷热分层。支持基于分布式存储系统上的多层存储(热存储/标准存储/冷存储等)。举例来说,存储降本优化主要依赖于归档与冷https://xie.infoq.cn/article/de0971c840628b7b467a110dc
4.Volcano:在离线作业混部管理平台,实现智能资源管理和作业调度节点可观测性增强,对在离线任务资源布局动态优化,识别在线业务是否受到干扰,对干扰进行定位和控制。 集群可观测性增强,对集群任务布局动态优化,减少集群资源使用不均衡问题。 基于Volcano混合部署解决方案如下图所示: 图3 基于Volcano混合部署架构 Volcano混部调度能力 https://developer.huawei.com/consumer/cn/forum/topic/0202841185168780412
5.云计算:ChatGPT的“中枢神经”云原生离混部技术实现离散训练,在线微调 ChatGPT基于大量优质的数据语料训练,实现对话意图识别和内容生成能力的突破,这主要由于ChatGPT具有强大的智能算法学习和记忆调用基础,通过云原生离线混部和极致弹性调用机制,离线训练千亿级别的超大规模参数,形成了ChatGPT的存储记忆资源池,通过在线补充完成人类反馈强化学习(RLHF)的微调https://m.thepaper.cn/newsDetail_forward_22342649
6.在离线混部云容器引擎最佳实践调度在离线混部的核心目标是通过将在线应用和离线应用混合部署到同一个集群中,最大程度地提高集群的资源利用率,进而降低企业的运营成本。值得注意的是,在线应用和离线应用这两种不通类型的应用对服务质量的要求是不一样,在线应用往往是延时高度敏感,对资源质量要求也更高。而离线应用则对延迟要求相对宽松,有更好的重试容错https://www.ctyun.cn/document/10083472/10172926
7.阿里决战双11核心技术揭秘——混部调度助力云化战略再次突破在大家如丝般顺滑地完成一次次秒杀、抢购和付款过程的背后,是阿里巴巴技术团队经历数年时间的系统打磨,技术架构优化所做出的努力。而底层基础设施服务质量不断提升、IT 成本增加逐年递减的演进历程,都由一个名为「云化战略」的技术梦想所贯穿起来。 特别是 2017 年双 11,阿里巴巴首次混合部署了在线服务、离线计算以及https://www.leiphone.com/category/ai/HHa8Y9tPeVgB1Kt8.html
8.Kubernetes资源拓扑感知调度优化腾讯云开发者社区基于离线虚拟机的混部方案导致的节点实际可用 CPU 核心数变化 面对运行在线业务的云主机平均利用率较低的现实,为充分利用空闲资源,可将离线虚拟机和在线虚拟机混合部署,解决公司离线计算需求,提升自研上云资源平均利用率。在保证离线不干扰在线业务的情况下,腾讯星辰算力基于自研内核调度器 VMF 的支持,可以将一台机器上https://cloud.tencent.com/developer/article/2029446
9.浪潮云海首席科学家张东:面向一云多芯的系统设计云海云操作系统(InCloud OS)、Apsara Stack、EasyStack等通过单一资源池实现异构资源的统一调度和互联互通,但当前阶段主要解决“多芯”的混部问题,距离以应用为中心的跨架构运行和低成本切换尚有较大差距。为满足多芯共存条件下业务的稳定运行、平滑切换和弹性伸缩,如下科学问题和技术难题亟待解决。 https://www.cet.com.cn/itpd/itxw/3465583.shtml
10.便宜云服务器容器服务在AI智算嘲的创新与实践容器服务也在积极推动上游开源社区,在Kubernetes体系下,定义支持各类计算框架和任务类型的云原生任务标准API和生命周期。帮助用户可以在Kubernetes集群上以统一的标准和接口,管理调度各类数据计算类工作负载。 ACK扩展了Kube-scheduler framework,与Slurm调度系统打通,即支持节点池维度的分节点调度,也支持共享节点资源的混部调度http://zhanzhang.ceden.cn/?article/1644909
11.腾讯云专有云TCS容器平台企业级云容器平台云原生容器腾讯云专有云TCS容器平台,适配丰富异构IAAS设备,满足利旧需求,广泛适配兼容信创CPU/指令集/操作系统。自研高性能负载均衡;基于eBPF的高性能网络;跨集群统一服务发现;高性能Ingress;平台高可用和部署方案,运维运营能力。 立即咨询 传统企业信息化体系存在的问题 https://www.yun88.com/product/3926.html
12.华为云UCS华为云与本地IDC协同,实现弹性上云 构筑本地集群极速弹性上云,流量高峰,业务云上秒级扩容 结合Volcano以及HCE OS 2.0能力,构建本地集群在线、离线混部能力,资源利用率提升40% 在AI训练和AI推理场景下,通过GPU虚拟化技术实现GPU隔离以及资源利用率提升 云原生应用全景观测,大幅提升运维效率 https://www.huaweicloud.com/product/ucs.html
13.阿里云异构计算类云服务器介绍(GPU云服务器FPGA云服务器等神龙AI加速引擎AIACC是基于阿里云IaaS资源推出的AI加速引擎,用于优化基于AI主流计算框架搭建的模型,能显著提升深度学习场景下的训练和推理性能。配合集群极速部署工具FastGPU快速构建AI计算任务,全面提升研发效率和GPU利用率,缩短计算时间并降低AI的推理延迟。 2、神龙AI加速引擎AIACC产品优势 https://www.jianshu.com/p/d4c370053533
14.深入硬件层内核态与用户态,一文看懂火山引擎云原生操作系统近日,在2020全球分布式云大会上,火山引擎解决方案总监于鸿磊以“多云环境下的云原生操作系统”为主题,从云原生操作系统出发,分享了火山引擎敏捷高效的基础设施与技术,为企业追求业务持续增长的提供了一种创新技术思路。 激发创造,释放潜能 字节跳动具有长期沉淀、服务于数亿用户的大数据技术、人工智能等基础技术服务能力,拥https://www.volcengine.com/docs/6316/66821
15.小红书近线服务统一调度平台建设实践对于服务,我们目前将服务划分为强隔离要求在线服务、普通在线服务、近线服务、离线服务4个QoS级别。 服务QoS 资源保障模型,本质上就是按照服务的 QoS 级别,给予不同的算力保障。 对于近线服务,调度优先级为:独占资源池机器 > 在线集群闲置算力 > 混部算力 > 公有云容器实例服务。目前公有云容器实例服务,只是作为一https://blog.itpub.net/70016482/viewspace-2927565/
16.成立3年,云服务厂商火山引擎全景扫描该服务属于实时计算方面,完全基于云原生构建:脱胎于抖音内部超大规模实践,日常峰值 QPS 达100亿,稳定性提升51%;通过Serverless,实现弹性扩缩容和在离线业务混部,资源利用率提升40%;并且能够统一调度,满足流批一体等多种计算模态。通过LAS和Serverless Flink,企业可以更加高效、经济的建设自身的数据底座。https://www.eefocus.com/article/1512934.html