阿里巴巴云化架构创新之路

叔同(丁宇),阿里巴巴资深技术专家,8次参与双11作战,阿里高可用架构、双11稳定性负责人,阿里容器、调度、集群管理、运维技术负责人。

叔同:

双11推动了阿里技术的进步,它有哪些挑战?

阿里巴巴9年双11经历下来,交易额增长了280倍、交易峰值增长800多倍、系统数呈现爆发式增长。系统在支撑双11过程中的复杂度和支撑难度以指数级形式上升。双11的峰值的本质是用有限的成本最大化的提升用户体验和集群吞吐能力,用合理的代价解决峰值。面对增长如何发挥规模效应,持续降低单笔交易成本以提升峰值吞吐能力,为用户提供丝般顺滑的浏览和购物体验,是极大的挑战。

随着分布式架构、异地多活、限流降级、全链路压测等技术的突破,扩展性和稳定性问题得到了很好的解决。系统架构伴随9年双11的发展一代一代向后演进,每一年都有很大的提高。08年开始阿里巴巴着手系统从由集中式架构变成分布可扩展架构,其中沉淀了大量互联网中间件技术。13年通过异地多活的架构演进,把阿里完整的交易单元部署到全国各个城市站点,实现了地域级水平扩展。这两种技术的叠加解决了整个双11扩展性问题。

由于分布式架构的演进,系统稳定性问题开始凸显、系统复杂度急剧上升、多个系统间协同出现问题。我们建设了限流降级、预案体系、线上管理管控体系。在2013年时做了双11备战的核心武器——全链路压测。它能对整个系统的依赖关系里跟双11有关的部分进行完整的用户级的线上大流量真实场景读写压测,使系统提前经历几次“双11”,验证整个线上生产环境处理能力,及时发现问题并修复。

云化架构的演进

上图为阿里业务六个月的峰值数据表。表中两个最大的峰值依次代表双11和双12的交易峰值,其他较小的峰值是日常交易峰值,红线代表日常准备系统服务器资源的处理能力。

统一调度体系

始于2011年建设的Sigma是服务阿里巴巴在线业务的调度系统,围绕Sigma有一整套以调度为中心的集群管理体系。

整个架构是面向终态的设计理念,请求进来后把数据存储到持久化存储,调度器识别调度需求分配资源。系统整体的协调性和最终一致性是非常好的。我们在2011年开始做调度系统,2016年用Go语言重写,2017年兼容了kubernetesAPI,希望和开源社区共同建设和发展。

阿里巴巴在2014年开始推动混部架构,目前已在阿里巴巴内部大规模部署。在线服务属于长生命周期、规则策略复杂性高、时延敏感类任务。而计算任务生命周期短、调度要求大并发高吞吐、任务有不同的优先级、对时延不敏感。基于这两种调度的本质诉求的不同,所以我们在混合部署的架构上把两种调度并行处理,即一台NC物理机上可以既有Sigma调度又有Fuxi调度。Sigma调度是通过SigmaAgent调用OCI标准的RunC、RunV、RunLXC三种标准来启动Pouch容器。Fuxi也在这台NC物理机上抢占资源,启动自己的计算任务。所有在线任务都在Pouch容器上,它负责把服务器资源进行分配切割通过调度把在线任务放进去,离线任务填入其空白区,保证物理机资源利用达到饱和,这样就完成了两种任务的混合部署。

混部的关键技术

内核资源隔离上的关键技术

在线集群管理上的关键技术

计算任务调度+ODPS上的关键技术

有弹性内存分时复用、动态内存超卖、无损降级与有损降级三个关键混部技术。动态内存超卖指内存是可以超卖的,如果有在线任务要用,就快速归还。有损降级和无损降级的策略指的是对影响在可接受范围内的波动干扰进行无损降级,不增加新任务,慢慢把它降下来,对影响大的干扰直接杀掉任务属于有损降级。利用零层管控,管理每台NC上的在线任务和离线任务之间的关系。

通过分时复用,达到进一步提升资源效率的效果。上图中的曲线是我们某个应用的流量曲线。它是非常有规律的,左边代表晚上波谷期,右边代表白天处于波峰期。正常的混部指占用图中蓝色阴影部分的资源把利用率提高到40%,弹性分时复用技术是指对应用画像找到应用流量波谷期,对应用缩容,大量释放内存和CPU,调度更多计算任务。通过这项技术,把平均CPU利用率提升到60%以上。

在双11时,如何利用计算任务集群混合部署助力双11降低成本?

Pouch容器和容器化的进展

全面容器化是提升运维能力、拉通运维差异的关键的技术。首先介绍一下阿里巴巴内部容器技术产品Pouch。它从2011年开始建设和上线,基于LXC,在2015年初开始吸收Docker镜像功能和很多标准。阿里巴巴的容器非常有特点,它结合了阿里内核,大幅度提高了它的隔离性,目前以百万级规模部署于阿里集团内部。

Pouch的结构是比较清晰的,Pouchd如何跟kubelet、swarm、Sigma交互。在存储上跟业界一起建设了CSI标准。支持分布式存储如ceph、pangu。在网络上使用lxcfs增强隔离性,支持多种标准。

目前Pouch化覆盖了阿里的大部分BU,2017年达到百万级部署,在线业务达到100%容器化,计算任务也开始容器化,它拉平了异构平台的运维成本。覆盖运行模式,多种编程语言,DevOps体系。Pouch覆盖了阿里几乎所有业务板块如蚂蚁、交易、中间件等等。

在存储计算分离上,由于有状态任务需要复制状态,会严重影响分时复用运维自动化程度和调度效率。我们在云化过程中实现了存储计算分离技术。由于计算集群和在线服务不在一个机房,计算任务的数据需要先缓存到在线业务的集群上,所以我们搭了一个缓存桥头堡,然后进行计算。随着机房结构的调整和网络的优化,我们开始对在线计算同时进行存储计算分离。目前已经实现去桥头堡方案,不受网络长传带宽的限制,减少了大集群跨网络核心对穿流量,提升了调度的灵活性。存储计算分离技术不仅可以使用阿里盘古技术,同时也兼容业界这一套容器上的存储标准,这也是阿里实现云化架构的非常关键的技术。在网络架构的升级上,我们大规模使用25G网络,在公有云上使用VPC,overlay能云上、云下和数据集群整个网络打通,这也是阿里大规模混合部署的前提。

云化架构和双11未来技术路线

双11云化架构运维体系介绍

后期我们会通过阿里云平台把内部储备的技术对外输出。这套技术是内部调度容器运维领域的优势技术,具备调度、编排、应用管理、监控、混合云的快上快下构建、弹性伸缩、混合部署的能力,同时兼容KubernetesAPI,提供企业级容器应用管理能力,提高企业IT效率,进而提高企业竞争力和创新效率。混合部署和自动化混合云构建技术经过双11规模验证,成为一个非常成熟稳定的技术体系。在云上,我们和ACS、EDAS、EMR合作,提高了产品的完整性。

THE END
1.免费试用阿里云产品新手指南云服务器 ECS 部署并使用Docker 部署LNMP环境(CentOS 7) 函数计算 FC 使用Serverless搭建高性能网盘 无影云电脑 开通并登录无影云电脑 容器 容器镜像服务 ACR 在Dockerfile中使用构建打包镜像并运行 容器服务 Serverless 版 ASK 在ASK中使用应用搭建游戏 在ASK中通过Knative实现弹幕服务 https://help.aliyun.com/document_detail/2365765.html
2.5步搞定阿里巴巴云盘注册,轻松拥有海量存储空间现在这个信息时代,云存储工具变得十分关键。对于许多人来说,如何成功开通阿里巴巴的云盘服务,成了他们关注的难题。 阿里巴巴云盘的优势 阿里云盘提供了众多便利功能。这些功能使得文件管理和分享过程变得更为快捷。众多用户在多种场合下都青睐使用它。比如,在工作环境中,它能助力团队协作;在家庭中,它适合个人资料保存。此https://www.kunmingbc.com/article/14801.html
3.杭州云服务器,数字经济的强劲引擎,杭州云服务器公司排名在数字化浪潮席卷全球的今天,云计算作为信息技术的重要组成部分,正以前所未有的速度推动各行各业的转型与升级,杭州,作为中国东部的经济重镇和科技创新中心,其在云计算领域的发展尤为引人注目,本文旨在探讨杭州云服务器的现状、优势、挑战及未来展望,以期为读者呈现一个全面而深入的视角。 https://www.asoulu.com/post/120925.html
4.如何选择阿里云服务器实例规格?热门实例性能适用嘲对比在阿里云目前的活动中,云服务器实例规格有几大类,分别是轻量应用服务器、经济型e实例、通用算力型u1实例,第七代计算型c7、通用型g7、内存型r7实例,第八代计算型c8i、通用型g8i、内存型r8i实例,倚天云服务器实例计算型c8y、通用型g8y、内存型r8y实例,不同类型的实例规格,性能和适用场景不同,本文将这些热门https://www.jianshu.com/p/238de90b8936
5.怎么购买阿里巴巴云服务器阿里巴巴云服务器是一种基于云技术的虚拟服务器,能够提供高性能和稳定的计算能力,是当前企业和个人托管网站、应用程序以及存储数据的理想选择。购买阿里巴巴云服务器可以帮助您节省时间和成本,并且提供灵活的扩展性。本文将向读者介绍如何购买阿里巴巴云服务器的详细步骤,希望对您有所帮助。 https://www.leiyu.cn/news/content/8244.html
6.阿里云最便宜云服务器价格详解及购买攻略–腾讯云优惠网随着云计算技术的不断发展和普及,越来越多的企业和个人开始选择云服务器作为自己的业务载体。阿里云作为国内知名度最高的云服务器商受到了众多用户的青睐。然而,面对阿里云众多的云服务器实例类型和价格方案,很多用户可能会感到困惑。本文将详细介绍阿里云最便宜云服务器价格及其购买攻略,帮助用户以最优惠的价格获取所需https://www.tengxunyun8.com/10348.html
7.阿里巴巴云服务器网站打不开怎么回事阿里巴巴云服务器是阿里巴巴集团旗下的云计算服务平台,提供了强大的云服务器、云数据库、云存储等服务。然而,有时我们使用阿里巴巴云服务器时会遇到无法打开网站的问题,导致我们无法正常使用云服务器的功能。 打不开阿里巴巴云服务器网站的原因有很多,下面将分析几种常见的可能原因,并给出可能的解决方法。 https://www.west.cn/docs/432360.html
8.阿里巴巴云服务器ecs全称相关云计算内容阿里巴巴云服务器 ECS全称为\”Elastic Compute Service\”,它是阿里云计算 平台提供的一种灵敏可扩展的云计算产品,为用户提供虚拟化的计算资源和牢靠的云计算环境。 阿里巴巴云服务器 ECS的概述 阿里巴巴云服务器 ECS是一种基于云计算技术构建的虚拟计算平台,用户可以经过网络访问并运用计算资源。它运用弹性计算技术,https://www.r1yun.cn/ask/22613.html
9.滕圣波阿里巴巴云上服务器无人值守与自助服务实战巧克力加糖 1049 37页 73次 2020-09-28 免费下载 GOPS全球运维大会2020·深圳站 GOPS全球运维大会2020·深圳站 滕圣波(云普)阿里巴巴-高级技术专家 阿里巴巴云上服务器无人值守与自助服务实战 mongodb 巧克力加糖 关注https://www.modb.pro/doc/6210
10.阿里巴巴云邮箱互联网头条以上设置完成后,软件自动验证邮箱账户和服务器信息,通过后即可使用。 总结:以上就是全部的阿里云邮箱怎么设置网易闪电邮相关内容了,不知道大家是否已经了解了呢。 千亦 关注 阿里云邮箱地址在申请的时候就可以设置,设置后邮箱地址是无法修改的,不过用户可以重新注册一个邮箱,然后将现在邮箱的邮件全都导到新注册的邮箱,https://m.300.cn/toutiao/t_167802.html
11.阿里的服务器在哪,阿里服务器在哪个湖未来展望:随着全球数字化转型的加速推进,阿里巴巴对服务器和数据中心的需求将持续增长。为此,阿里巴巴计划在未来几年内进一步扩大其数据中心的布局,尤其是在新兴市场和云计算需求旺盛的地区。阿里巴巴的目标不仅是巩固其在全球市场的领先地位,更是通过技术创新和基础设施建设,助力全球企业的数字化转型。 https://www.litecc.com/news/chanpingxunxi/1255.html
12.云时代阿里服务器的演进与展望资源在整个基础设施中,服务器服务器是面向最终用户提供计算和存储资源,且在数据中心的整体TCO中占比最大的至关重要的角色。服务器从诞生到现在,每一 次技术的突破和换代,都是朝着更开放、更易用、更优TCO、更易交付的方向演进。 本文选自《企业数字化基石:阿里巴巴云计算基础设施实践》《企业数字化基石:阿里巴巴云计算https://download.csdn.net/download/weixin_38630697/14884916
13.阿里巴巴怎么建服务器当前位置:首页关于阿里巴巴怎么建服务器 的文章 最新阿里巴巴怎么建服务器?大型商业网站各个服务器搭建教程!当网站平台搭建好了,内容充实起来了,我们就要考虑把网站推广出去,大型电子商务网站推广可以从两个大方面做手,一是从网站自身出发,做整站seo页面优化,二是通过形式多样的外部推广。做整站https://www.zovps.com/article/index.php/tags-184831.html
14.阿里服务器湖中部署,背后的科技原理是什么?阿里巴巴将服务器置于湖中是为了利用湖水的自然冷却效果,提高散热效率,降低能耗。这种创新的水下数据中心设计有助于减少对传统空调冷却系统的依赖,实现绿色节能的运营目标。 阿里巴巴集团在千岛湖珍珠半岛上建立数据中心,利用湖水为服务器提供冷却,这一创新举措不仅体现了对环保的重视,也展现了其在技术创新方面的前瞻性,下https://www.kdun.com/ask/931480.html
15.阿里巴巴云计算部门将在全球招聘5000名员工阿里巴巴云计算部门将在全球招聘5000名员工 格隆汇6月9日丨阿里巴巴集团周二表示,从现在起到本财年年底,其云计算部门计划在全球范围内招聘5000名员工,岗位包括网络、数据库、服务器、芯片和人工智能。https://www.gelonghui.com/live/386903
16.阿里巴巴云西部云计算中心落户成都未来科技城,辐射整个西南成都阿里云西部云计算中心及数据服务基地项目占地面积约300亩,是阿里集团面向未来数据中心建设的重要举措之一。项目将覆盖成渝两地数据业务,打造世界先进的新一代高性能绿色数据中心。 与一般园区不同,整个项目的所有服务器,都将使用“单相浸没式液冷”这项技术。与其他空调降温方式不一样,这项技术是将所有服务器都浸泡https://cd.kbgok.com/news/5728
17.专访刘毅:阿里巴巴云计算平台运维故障分析与排查阿里巴巴云平台运维故障排查 51CTO:你们平台平时出现故障频繁吗? 刘毅:平台建设的初期,因为不稳定,故障比较多,当时挺累的。随着平台稳定,自动化工具的成熟,局势已经扭转过来了。 举个最最简单的例子:过去做运维,因为底层硬件可用性、冗余度高,宕机率都是按年来计算。而现在这些廉价的PC服务器,几乎每天都会有宕机,这https://www.51cto.com/article/406033.html
18.企业阿里云服务器如何申请阿里云企业注册步骤到迄今为止,阿里巴巴云早已用持续三个一季度赢利的成绩表回应了这一疑惑。 600亿以后,便会接踵而来。 阿里巴巴云是全世界第二家公布赢利的云生产商,第一家是亚马逊卖家的AWS。 16年以前,amazon首先向初创公司对外开放自身的网络服务器,并将计算水平转换为相近电力工程的基础设施建设。amazon,阿里巴巴淘宝网等电子商务平https://www.dkewl.com/course/detail7438.html
19.阿里云服务器系统怎么选?AlibabaCloudLinux操作系统介绍江阴阿里云服务器系统怎么选?Alibaba Cloud Linux操作系统介绍 Alibaba Cloud Linux是阿里云基于龙蜥社区(OpenAnolis)的龙蜥操作系统(Anolis OS)打造的操作系统发行版,在全面兼容RHEL/CentOS生态的同时也为云上应用程序环境提供Linux社区的增强功能,并针对阿里云基础设施进行深度优化,同时为用户提供长达10年的企业级操作系统支https://www.yc00.com/web/1700120249a985126.html
20.阿里巴巴云服务器网址是什么?Worktile社区阿里巴巴云服务器是阿里云提供的云计算服务之一,其网址是https://www.aliyun.com/。在该网址上,用户可以了解阿里云服务器的各项功能、价格、产品概况等信息,并进行注册和购买等操作。 下面,我将从方法和操作流程等方面详细介绍阿里巴巴云服务器的使用过程。 https://worktile.com/kb/ask/1898343.html