2021阿里云容器服务年度盘点:企业级容器应用变化和技术趋势观察OSCHINA

在云原生浪潮的推动下,容器和Kubernetes技术和应用发展迅猛。最近,云原生计算基金会CNCF发布了与SlashData联手撰写的最新版《云原生开发现状报告》,该报告显示,“Kubernetes在过去的12个月取得了令人瞩目的增长——今天,全球共有560万开发人员在使用Kubernetes。对于那些拥有500多名员工的大型组织而言,Kubernetes和容器的采用率猛增,这意味着Kubernetes已经完全满足企业的需求。很多时候,开发人员甚至在没有意识到Kubernetes的情况下就在使用它。”

2021年9月,阿里云容器服务宣布全面升级为ACKAnywhere,并发布ACK发行版、ACK敏捷版、ACKONE分布式云容器平台;以及面向异构计算支撑、资源调度、网络、云原生AI、智能化运维、云原生制品分发等六大方向的优化升级。升级后的ACKAnywhere拥有“一致体验、弹性算力、能力下沉、简化容灾”四大核心能力,使企业在任何业务场景下使用容器服务时,都能实现统一集群管理、统一资源调度、统一数据容灾和统一应用交付。

随着企业对容器的拥抱更加积极,对容器核心技术的启动效率、资源开销、调度效率都有了更高的要求,阿里云容器团队也支持了新一代的容器架构升级,通过对容器、裸金属、操作系统等全栈优化,持续挖掘容器的潜能。

这明显区别传统的中心式的云计算模式--边缘计算。边缘计算作为云计算的延伸,将被广泛应用于混合云/分布式云、IoT等场景,它需要未来的基础设施能够去中心化、边缘设施自治、以及强大的边缘云端托管能力。云原生架构的新边界--“云边端一体“的IT基础设施开始出现在整个行业面前,而这也是企业对云原生技术、容器化应用在新场景落地的需求。

边缘计算云原生架构和技术体系需要解决以下问题:云边运维协同、弹性协同、网络协同、边缘IoT设备管理、轻量化、成本优化等。针对云边端一体的新需求,在2021年,OpenYurt(CNCFSandbox项目)也发布了0.4、0.5等版本,持续优化边缘容器的IoT设备管理、资源开销、网络协同等能力。

随着企进一步的大规模使用容器,企业内部使用容器的范围也从开始的在线业务逐渐向AI大数据演进,对GPU等异构资源的管理和AI任务和作业的管理的需求也越来越多。同时,开发人员在考虑如何通过云原生技术,以统一架构、统一技术堆栈支撑更多类型的工作负载。以避免不同负载,使用不同架构和技术,带来“烟囱”系统、重复投入和运维负担。

在阿里云,我们提出“云原生AI”的定义、技术全景图和参考架构,以期为这个全新技术领域,提供可落地的最佳实践,并推出了云原生AI套件,通过数据计算类任务的编排、管理,以及对各种异构计算资源的容器化统一调度和运维,显著提高GPU/NPU等异构计算集群的资源使用效率和AI工程交付速度。

针对AI计算类任务的特性,在Kubernetes核心SchedulerFramework的基础上进行了大量扩展和增强,提供了支持GangScheduling、CapacityScheduling、Binpack等任务调度策略,提升集群的资源利用率。并与Kubernetes社区积极合作,持续推动Kubernetes调度器框架演进,保证了Kubernetes调度器通过标准的plugin机制,可按需扩展出各种调度策略,来满足各种工作负载的调度需求。同时避免了类似其他customscheduler对集群资源分配带来数据不一致的风险。

随着企业的Kubernetes应用大规模使用和落地,如何持续提升Kubernetes集群的整体稳定性是核心挑战。然后Kubernetes集群作为一个分布式系统存在高度复杂性,在应用、基础设施、部署过程中任何一个地方的问题,都可能导致业务系统的故障。这不仅需要应用Kubernetes的企业有对云原生容器技术的高可用体系保障,还需要企业云原生运维体系理念的整体升级。

除了全局高可用能力的建设外,需要能够有SRE团队平台化能力的建设:

2021年,基于Kubernetes来屏蔽异构环境的差异,搭建分布式云架构已经成为企业和云厂商的共识。2021年5月的云峰会上,阿里云发布了一云多形态的部署方式,基于飞天架构的一朵云可以全面覆盖从核心地域到客户数据中心的各种计算场景,为客户提供低成本、低延迟、本地化的公共云产品。在一云多形态发布之前,阿里云容器服务在2019年的云栖大会上发布了云下Kubernetes的注册集群能力,支持统一纳管云上云下的不同Kubernetes集群。

今年,阿里云容器服务进一步全面升级了中心云、本地云、边缘云容器集群的统一管理。能够将成熟的云上原生可观测、安全防护能力部署到用户环境,更可以将云端先进的中间件、数据分析和AI能力下沉到本地,满足客户对于产品丰富度以及数据管控的需求,加速业务创新。并依托强大的弹性算力,通过托管弹性节点,企业可以按需从本地扩容到云端,实现秒级伸缩,从容应对周期性或突发业务流量高峰。

数据中心作为数字经济的动力引擎,其能耗增长已成为云计算发展中不可忽略的问题。据报道,2020年数据中心耗电量超过国内总用电量的2.3%。而且占比将逐年增加。阿里云在身体力行地推动绿色计算,比如利用浸没式液冷服务器来降低数据中心PUE。除此之外,我们看到数据中心的计算效率也有很大提升空间,据统计,全球数据中心的平均资源利用率不到20%,这是巨大资源和能源浪费。

持续发挥容器技术的高效调度和弹性能力,可以帮助企业有效提升整体的IT资源利用率,提供极致的能效比。结合最新的节能数据中心技术、新一代神龙架构、自研芯片、容器优化操作系统实现上下游的全栈优化,提升应用的整体性能和调度效率。以数据驱动的方式,根据应用运行时资源画像实现智能化调度和实时调整,简化了应用资源配置的复杂性,进一步提升应用的混合部署,降低资源成本,助力企业整体的FinOps管理。

Gartner预测,到2023年,70%的AI应用将基于容器和Serverless等计算模型构建。AI要成为企业生产力,就必须以工程化的技术来解决模型开发、部署、管理、预测、推理等全链路生命周期管理的问题。我们发现,AI工程化领域有三大亟待推进的事情:数据和算力的云原生化,调度和编程范式的规模化,开发和服务的标准化普惠化。这些需要持续优化GPU等异构架构的高效调度,结合分布式缓存、分布式数据集加速等技术,结合KubeflowArena的AI任务流水线和生命周期管理,全面升级AI工程化能力。

云原生已经成为势不可挡的技术趋势。Gartner预测到2025年,95%数字化运维将通过云原生平台进行支撑。实现容器集群能自治能力将成为重点发展方向之一,通过引入更多的数据化智能化手段,推动容器的智能化运维体系,降低企业对复杂容器集群和应用的管理,包括增强Kubernetesmaster、组件和节点的自愈自恢复能力,提供更加友好的异常诊断、Kubernetes配置推荐、弹性预测等能力。

本文标题:2021阿里云容器服务年度盘点:企业级容器应用变化和技术趋势观察

THE END
1.强化学习ReinforcementLearning在航空航天领域的应用与挑战强化学习,Reinforcement Learning,航空航天,应用,挑战,控制,优化,决策 1. 背景介绍 航空航天领域一直以来都是科技发展的前沿阵地,其复杂性、安全性要求极高,对智能控制和决策的需求日益迫切。传统控制方法往往依赖于预先设定的规则和模型,难以应对复杂、动态变化的环境。而强化学习(Reinforcement Learning,RL)作为一种机器https://blog.csdn.net/2301_76268839/article/details/144429525
2.自然语言强化学习:一个可处理语言反馈的强化学习框架这种困境促使研究团队开始探索一个更具突破性的方向:能否设计一个框架,让 AI 系统完全通过与环境的交互来学习,而不依赖任何人类标注数据?传统强化学习为这个问题提供了灵感,但其单一数值奖励的机制难以满足复杂场景的需求。团队意识到需要一个新范式,既要继承强化学习的数学严谨性,又要具备自然语言的表达丰富性。这个https://hub.baai.ac.cn/view/41851
3.大数据上云存算分离演进思考与实践大数据阿里技术异构计算的资源负载混部:在统一存储平台提供面向异构计算的工作资源负载下的多维度查询分析服务。在线与离线计算共用计算和存储资源。解决资源波峰波谷问题,实现资源动态削峰填谷 存储降本: 存储利用率+冷热分层。支持基于分布式存储系统上的多层存储(热存储/标准存储/冷存储等)。举例来说,存储降本优化主要依赖于归档与冷https://xie.infoq.cn/article/de0971c840628b7b467a110dc
4.Volcano:在离线作业混部管理平台,实现智能资源管理和作业调度节点可观测性增强,对在离线任务资源布局动态优化,识别在线业务是否受到干扰,对干扰进行定位和控制。 集群可观测性增强,对集群任务布局动态优化,减少集群资源使用不均衡问题。 基于Volcano混合部署解决方案如下图所示: 图3 基于Volcano混合部署架构 Volcano混部调度能力 https://developer.huawei.com/consumer/cn/forum/topic/0202841185168780412
5.云计算:ChatGPT的“中枢神经”云原生离混部技术实现离散训练,在线微调 ChatGPT基于大量优质的数据语料训练,实现对话意图识别和内容生成能力的突破,这主要由于ChatGPT具有强大的智能算法学习和记忆调用基础,通过云原生离线混部和极致弹性调用机制,离线训练千亿级别的超大规模参数,形成了ChatGPT的存储记忆资源池,通过在线补充完成人类反馈强化学习(RLHF)的微调https://m.thepaper.cn/newsDetail_forward_22342649
6.在离线混部云容器引擎最佳实践调度在离线混部的核心目标是通过将在线应用和离线应用混合部署到同一个集群中,最大程度地提高集群的资源利用率,进而降低企业的运营成本。值得注意的是,在线应用和离线应用这两种不通类型的应用对服务质量的要求是不一样,在线应用往往是延时高度敏感,对资源质量要求也更高。而离线应用则对延迟要求相对宽松,有更好的重试容错https://www.ctyun.cn/document/10083472/10172926
7.阿里决战双11核心技术揭秘——混部调度助力云化战略再次突破在大家如丝般顺滑地完成一次次秒杀、抢购和付款过程的背后,是阿里巴巴技术团队经历数年时间的系统打磨,技术架构优化所做出的努力。而底层基础设施服务质量不断提升、IT 成本增加逐年递减的演进历程,都由一个名为「云化战略」的技术梦想所贯穿起来。 特别是 2017 年双 11,阿里巴巴首次混合部署了在线服务、离线计算以及https://www.leiphone.com/category/ai/HHa8Y9tPeVgB1Kt8.html
8.Kubernetes资源拓扑感知调度优化腾讯云开发者社区基于离线虚拟机的混部方案导致的节点实际可用 CPU 核心数变化 面对运行在线业务的云主机平均利用率较低的现实,为充分利用空闲资源,可将离线虚拟机和在线虚拟机混合部署,解决公司离线计算需求,提升自研上云资源平均利用率。在保证离线不干扰在线业务的情况下,腾讯星辰算力基于自研内核调度器 VMF 的支持,可以将一台机器上https://cloud.tencent.com/developer/article/2029446
9.浪潮云海首席科学家张东:面向一云多芯的系统设计云海云操作系统(InCloud OS)、Apsara Stack、EasyStack等通过单一资源池实现异构资源的统一调度和互联互通,但当前阶段主要解决“多芯”的混部问题,距离以应用为中心的跨架构运行和低成本切换尚有较大差距。为满足多芯共存条件下业务的稳定运行、平滑切换和弹性伸缩,如下科学问题和技术难题亟待解决。 https://www.cet.com.cn/itpd/itxw/3465583.shtml
10.便宜云服务器容器服务在AI智算嘲的创新与实践容器服务也在积极推动上游开源社区,在Kubernetes体系下,定义支持各类计算框架和任务类型的云原生任务标准API和生命周期。帮助用户可以在Kubernetes集群上以统一的标准和接口,管理调度各类数据计算类工作负载。 ACK扩展了Kube-scheduler framework,与Slurm调度系统打通,即支持节点池维度的分节点调度,也支持共享节点资源的混部调度http://zhanzhang.ceden.cn/?article/1644909
11.腾讯云专有云TCS容器平台企业级云容器平台云原生容器腾讯云专有云TCS容器平台,适配丰富异构IAAS设备,满足利旧需求,广泛适配兼容信创CPU/指令集/操作系统。自研高性能负载均衡;基于eBPF的高性能网络;跨集群统一服务发现;高性能Ingress;平台高可用和部署方案,运维运营能力。 立即咨询 传统企业信息化体系存在的问题 https://www.yun88.com/product/3926.html
12.华为云UCS华为云与本地IDC协同,实现弹性上云 构筑本地集群极速弹性上云,流量高峰,业务云上秒级扩容 结合Volcano以及HCE OS 2.0能力,构建本地集群在线、离线混部能力,资源利用率提升40% 在AI训练和AI推理场景下,通过GPU虚拟化技术实现GPU隔离以及资源利用率提升 云原生应用全景观测,大幅提升运维效率 https://www.huaweicloud.com/product/ucs.html
13.阿里云异构计算类云服务器介绍(GPU云服务器FPGA云服务器等神龙AI加速引擎AIACC是基于阿里云IaaS资源推出的AI加速引擎,用于优化基于AI主流计算框架搭建的模型,能显著提升深度学习场景下的训练和推理性能。配合集群极速部署工具FastGPU快速构建AI计算任务,全面提升研发效率和GPU利用率,缩短计算时间并降低AI的推理延迟。 2、神龙AI加速引擎AIACC产品优势 https://www.jianshu.com/p/d4c370053533
14.深入硬件层内核态与用户态,一文看懂火山引擎云原生操作系统近日,在2020全球分布式云大会上,火山引擎解决方案总监于鸿磊以“多云环境下的云原生操作系统”为主题,从云原生操作系统出发,分享了火山引擎敏捷高效的基础设施与技术,为企业追求业务持续增长的提供了一种创新技术思路。 激发创造,释放潜能 字节跳动具有长期沉淀、服务于数亿用户的大数据技术、人工智能等基础技术服务能力,拥https://www.volcengine.com/docs/6316/66821
15.小红书近线服务统一调度平台建设实践对于服务,我们目前将服务划分为强隔离要求在线服务、普通在线服务、近线服务、离线服务4个QoS级别。 服务QoS 资源保障模型,本质上就是按照服务的 QoS 级别,给予不同的算力保障。 对于近线服务,调度优先级为:独占资源池机器 > 在线集群闲置算力 > 混部算力 > 公有云容器实例服务。目前公有云容器实例服务,只是作为一https://blog.itpub.net/70016482/viewspace-2927565/
16.成立3年,云服务厂商火山引擎全景扫描该服务属于实时计算方面,完全基于云原生构建:脱胎于抖音内部超大规模实践,日常峰值 QPS 达100亿,稳定性提升51%;通过Serverless,实现弹性扩缩容和在离线业务混部,资源利用率提升40%;并且能够统一调度,满足流批一体等多种计算模态。通过LAS和Serverless Flink,企业可以更加高效、经济的建设自身的数据底座。https://www.eefocus.com/article/1512934.html