云原生激活应用构建新范式云计算时代,企业应用构建面临新挑战可信安全业务智能资源弹性应用敏捷系统稳定云原生激活应用构建新范式全面容器化运维标准化,成为服务新界面高弹性可伸缩,助力降本提效全负载容器化无处不在的部署核心技术互联网化分布式可扩展,业务敏捷迭代弹性架构,从容应对流量高峰高可用高可靠保障业务连续性应用Serverless化技术组件分层解耦,实现全托管自适应弹性免运维,按用量计费研发模式再升级,聚焦业务创新容器服务
ACK
Anywhere:计算无界、承载无限在企业任何需要云的地方,提供统一的基础设施ACK
One多集群,多环境管理ACR统一应用资产管理ASM统一应用通信统一集群管理统一资源调度统一数据容灾统一应用交付微服务ApacheSpringDubboCloud有状态应用MySQLRocketMQ大数据/AI应用ApacheFlinkTensorFlow创新应用区块链IoT边缘容器ACK@Edge容器服务ACK
/Serverless
容器服务ASK专有云企业版ACKACK
发行版ACK
敏捷版飞天技术底座与基础云服务客户
全面进入智能化时代容器服务
AIOps
套件数据驱动诊断决策,助力故障防御定位得物
App智能化运维体验周→小时基于容器
套件定位问题从周缩短到小时容器服务
FinOps套件上云成本可见、可控、可优化智能化成本治理中华保险20%基于容器
FinOps
套件实现资源闲置率
30%
降低到
10%识货
App20%智能化混部调度节省
20%
资源成本智能化混部调度新一代调度系统
EDAS微消息队列MQTT版消息队列RabbitMQ版微服务引擎
MSE云服务总线
CSB链路追踪性能测试
PTS消息服务MNS事件总线EventBridge服务网格ASM分布式事务
GTSPrometheus监控服务数字化安全生产云拨测可观测应用实时监控服务ARMS高可用应用高可用服务AHAS容器服务
Anywhere公共云边缘云专有云消息队列大规模,类型丰富,打造新一代“消息服务到云原生事件流”平台应用可观测开源兼容,全栈可观测,全链路诊断应用高可用全链路压测,业务级多活容灾,打造数字安全生产体系互联网中间件:助力企业核心技术互联网化解决方案企业级高可用架构全链路压测
中间件产品家族消息队列应用
PaaS
与微服务应用
PaaS与微服务开放标准,开源增强,组件全托管,构建现代化应用服务管理插件云原生网关
Higress
重磅开源GitHub:/alibaba/higress
防护认证鉴权黑白名单自定义插件WASM
插件LUA
插件进程外插件API标准IngressGateway
API数据面控制面多
K8s
集群灰度协议转换限流降级多注册中心微服务生态SkywalkingPrometheusOpenTelemetryNacosApp1(单体应用)App2(微服务应用)App3(服务网格)Function(Serverless)K8s
生态HigressCRDOpenKruiseService
MeshAPI-Server标准化全面实现
Ingress
/
Gateway
API
标准服务治理方面提供大幅增强高集成流量网关、微服务网关、安全网关三合一支持
Nacos等主流服务发现易扩展提供最丰富的插件机制(WASM/LUA/进程外插件)提供丰富的安全、服务管理默认插件热更新证书、路由、安全规则、插件全部热更新规则变更毫秒级生效,业务无感知MSE云原生网关服务发现负载均衡服务灰度多维度监控数据库安全认证高可用防护无侵入缓存消息队列MSE
服务治理无损上下线全链路灰度服务鉴权限流降级离群摘除SQL洞察业务应用NacosZooKeeperEurekaMSE
MSE
3.0
成本管理智能运维业务连续性保障敏捷组织提效云原生可观测
5.0轻量化存算分离Serverless化可观测大规模业务消息集群,承载千万级TPS,万亿级消息洪峰累积服务10W+企业客户覆盖互联网、零售、汽车等20+行业75%
头部企业选择ApacheRocketMQ全球超过
700
Contributor80%
主流云厂商提供托管服务微服务集成:主流微服务生态集成联动Serverless驱动:FaaS事件触发器驱动通知推送:移动端、SaaS等多端投递网关调用:云服务统一网关集成CDC:低延迟、一对多订阅ETL:低代码、模板化处理连接器集成:标准协议、统一连接流查询计算:轻量化、内聚查询处理云原生架构升级RocketMQ
5.0:从消息服务到云原生事件流平台从资源到服务,阿里云核心产品全面
Serverless
化SAE应用运行时FCASK应用集成大数据数据库存储微服务应用PolarDBAnalyticDBRDSEBSSLSNASOSSHBRTablestore实时计算Fink版MaxComputeHologresElasticsearchKafkaMNSEventBridgeRocketMQ
SWF智能客服PAIWAFCDNMSEPTS人工智能ARMS半托管到全托管自适应弹性开箱即用免运维按用量计费在线应用游戏互娱微服务前端全栈在线教育/音视频Apache
Dubbo电商零售游戏中台Spring
Cloud小程序数据智能HSFServerless
Devs组件插件云效云+端一体化极速体验应用模块库经典案例库面向应用-SAE面向容器-ASK存储服务数据库服务应用监控&日志网络服务安全服务丰富的应用场景完善的开发工具消息服务Serverless
应用中心后端BaaS服务联动Serverless
计算平台Serverless
运行时升级:云上应用构建更简单面向函数-FCSAE
提供新负载、新场景、新工具Job
类型负载正式上线支持多语言微服务支持更丰富的工具链函数计算
FC
拓宽三大场景高性价比的音视频处理能力开箱即用的消息
ETL
能力ServerlessGPU
正式上线Serverless
应用中心发布海量模版,快速上手企业级特性,更规范开源工具联动,开放生态共建Serverless
引领下一代应用架构互联网分布式架构service分布式研发Serverless
架构服务化
模块化
可编排
PaaS:CNStack
2.0
重磅发布应用交付平台社区版CNStack
LocalCNStack
Online标准版ACK
Distro平台管理能力中心企业服务运维服务资源服务(集群、分布式存储、虚拟网络、备份冗灾、负载均衡、证书)工作负载(有/无状态、批处理、混部调度)应用场景容器云分布式应用云边协同DevOps资源优化AI/大数据业务中台在线集成在线验证在线交付在线演示与标准版同标准同架构同体验同发布阿里云官网免费下载社区论坛免费技术支持云服务
(多集群、虚拟化、分布式应用、边缘应用、DevOps)云组件
(消息、数据库、缓存、大数据)异构
IaaS统一算力支持一站式应用管理支持不同厂商、不同架构、CPU/GPU算力混合管理支持管理容器、虚拟机多种负载的混合调度丰富的云组件,为业务创新提供完整的技术栈支持能力中心组件经过规模化验证,运维稳定性有保障应用开发、测试、运维全生命周期的一站式管理容器服务、分布式应用、云边、DevOps全场景覆盖丰富易用的能力中心引领标准、持续突破,推动领域发展技术引领国内唯一云厂商APM
领域全球领导者FaaS
时代全面到来产业认可开源贡献构建开放、融合的云原生生态体系共同服务
20万+云原生客户转售合作产品合作服务合作云原生上云咨询与服务云原生成熟度评估应用稳定性保障分销
&SI伙伴带动云原生产品百城计划,亿元专项资金推动领航计划,产品专项攻坚SaaS&ISV
生态打造可规模化的联合解决方案,共同服务市场服务生态伙伴提供定制的云原生咨询和交付服务数字化安全生产PaaS
产品生态产品联合共建,为客户提供全面完整的云原生产品体系THANKS全球云原生技术趋势洞察栗蔚中国信息通信研究院
云计算与大数据研究所
副所长高12345趋势1:云原生正在成为应用现代化建设的先导技术,加速应用轻量、高效、开放和智能的构建趋势2:Serverless加速应用开发从集中式向组装式转变,实现应用开发的服务化、模块化和可编排。趋势5:云原生降本方案有效解决运营成本洞察和优化难题,成为企业深度用云的刚需。趋势4:云原生与安全深度融合双向赋能,催生新形态的云原生安全产品服务和交付模式。趋势3:云原生数据产品开启数据供给体系的现代化变革从资源管理到价值挖掘全球云原生技术趋势洞察6趋势6:软件架构日趋复杂,可观测性构建业务全链条保障能力。2低高高产品服务形态变化14365现代化应用的特点趋势1:云原生正在成为应用现代化建设的先导技术加速应用轻量、高效、开放和智能的构建企业数字化转型带来的传统应用改造需求持续攀升,应用亟需经历一场现代化革命,为此海外IT厂商已经布局数年,应用现代化从概念推广走向落地阶段,云原生正在成为应用现代化改造的核心技术手段。未来几年全球应用现代化市场预计持续扩张The
Insight
Partners数据显示,2018年,全球应用程序现代化工具市场价值为80.4亿美元。预计该市场将在未来几年迅速增长,到2027年将达到368.6亿美元的规模。数字化转型滋生的超级应用需求,迫使应用产业进行现代化改造,以低成本高效率管理指数级增长的应用。海外IT服务商争相推出以云原生技术为核心的应用现代化改造方案Google
2022年发布的PaaS领域投资计划调查结果显示,Serverless在企业的预期投资领域中排名第3
。革新应用构建范式,Serverless
契合快速构建、敏捷高效的发展思路服务器无感知(
everythingCloud
Native云原生架构计算存储分离容器、微服务、无服务器OLAP、HTAPMPP架构计算存储紧密耦合Share
Kubernetes
Report》调研报告显示,迁移至Kubernetes平台后,68%的受访者表示所在企业计算资源成本有所增加。资源配置经验不足企业资源配置过量和使用不当导致的资源浪费问题导致资源成本超出预期。资源潜在价值未挖掘企业资源配置等问题导致上云效果不及预期,资源潜在价值未得到发挥。低效和闲置资源难以识别企业资源治理混乱和监控保障不足导致大量低效资源难以识别。云原生降本增效方案促进成本合理分配、资源动态调度成本洞察资源跟踪准确管理、成本分配合理高效成本优化资源合理设置分配、应用多维弹性混部成本采集及资源追踪公有云成本账单记录私有云成本账单采集云资源情况持续追踪资源利用率实时监控成本分配及可视化多维度资源成本可视化有效建立浪费问责机制快速制定优化方案措施复盘回顾改进优化方案统一账单管理促进优化方案更高效资源请求合理设置用资源配额划分资源用Limit
crash
(real
user
monitor),
Synthetic等观测技术可洞悉用户体验。可观测性应用场景突破稳定性领域,保障业务服务质量。可观测性为业务对比及调优提供数据支撑,如A/B测试等多版本功能对比时,通过观测数据对比版本业务效果优劣,为产品优化、业务迭代指明方向。可观测性应用范围突破稳定性保障领域,作用于业务优化、软件质量保障洞悉云原生系统运行状况,可观测性重要性日益凸显THANKS易立阿里云容器服务负责人容器服务助力企业精益用云Lean
Computing
on
Cloud
with
Container
Service容器服务助力企业数字化创新Enable
Innovations
for
Everyone
Alibaba
ServicesACK-KubernetesServiceASK-Serverless
KubernetesACK
ONE多集群、多环境管理统一集群管理统一资源调度统一数据容灾统一应用交付边缘容器-ACK@Edge专有云企业版
–
ACKACK
DistroACK敏捷版飞天技术底座与基础云服务客户
IaaS中心云本地云公共云边缘云专有云ASM统一应用通信ACR统一应用资产管理行业认可Alibaba
Named
Platform
LeaderForrester
公共云容器平台
Q1/22全球领导者Omdia
容器管理方案
Q2/22全球领导者CSDN
2022中国开发者调查报告52%开发者选择阿里云容器云平台ACK新架构新实践新算力新平台精益用云
-
以“增效”促“降本”SavingCostthroughImprovingEfficiencywithCloudNative
TechnologiesContents目录01
新算力02
新平台新架构新实践新一代云原生算力支持Support
New
Generation
Native
PowereRDMA高性能容器网络High-PerformanceContainer
Networking性能提升:AI训练加速20%,微服务吞吐提升10%;密度提升:支持最多30容器高效复用eRDMA设备;(阿里云容器服务团队测试结果)倚天710卓越性价比Cost-efficiency高性价比:Web应用提升50%,视频编解码提升80%
云原生优化:采用物理核心,调度优化提升Web应用吞吐20%全链路加速
客户端加速
+
多链接传输协议全链路可观测
支持NAS/CPFS/OSSFS文件存储NAS文件存储CPFSCNFS
内置文件存储加速、对象存储客户端对象存储
OSS多链接并行I/O分布式数据缓存QoS标准
POSIX
文件接口AI
训练基因计算Web应用持续交付平台ACK/ASK/ACK@Edge性能监控托管加密NAS&
CPFSOSS容器网络文件系统
CNFS
2.0Container
Network
File
System
2.0100%吞吐提升18倍元数据QPS提升50%存储成本下降容器网络文件系统
2.0(文件存储场景,相较传统方案,以上数据为阿里云容器服务团队测试结果)新一代机密容器护航数据安全ConfidentialContainerforData
Privacy可信容器运行时可信数据存储可信软件供应链远程证明服务Dragonball(rundwith
cc-shim)Kata-agentattestation-agent机密沙箱容器
(Intel
TDX)用户应用image-rsGuestOS
Kernelenclave-agentattestation-agent进程级机密容器
SGX2)用户应用image-rsOcclum/
GramineInclavareContainer
(rune)ACR镜像服务EBS存储金融风控医疗健康人工智能IoT端到端可信运行环境数据隐私保护应用场景Contents目录01
新平台新架构新实践ACK
集群任务调度PodPodPod差异化SLO管理QoS
感知调度/重调度PodPodPodPodPodPodPodPodPodPodPodPod多种工作负载统一编排、调度高性能计算高性能存储高性能网络全兼容、零侵入、高性能、多负载资源效率100%混部调度应用间性能影响<
5%差异化SLO保障新一代容器任务调度器NEWNewGenerationWorkload
Scheduling(相较开源方案实现,以上数据为阿里云容器服务团队测试结果)DubboSpring
CloudSparkTensorflowFlink集群健康度巡检应用可用性巡检平台安全性巡检版本兼容性评估配置冲突检测集群事件流分析网络仿真与诊断OS内核指标分析专家系统
AI
算法公有云IDC容器服务–
故障预防与定位NEWAIOps
Cluster:
Fault
Prevention
and
Problem
Determination(以上数据为客户业务场景应用结果)GitOps
多地域部署灵活弹性策略统一安全策略每年3月-4月春招高峰期计算资源的需求倍增,借助阿里云混合云弹性调度策略“数分钟内弹出数万核ECS和ECI等计算资源”补充到IDC的在线服务集群,减少线下应急服务器租用量70%,有效应对流量洪峰。分布式云容器平台
One
升级NEWACKOne-ContainerPlatformforDistributed
Cloud(以上数据为客户业务场景应用结果)ACK@Edge
(
Powered
by
OpenYurt
1.0
)增强型网络边缘节点池NewCEN+
CCN运营车辆车载设备New轻量化接入MQTT异构资源便捷接入云边端统一观测云端协同场景云边协同场景云边协同场景海外多地域服务器与云上
VPC
有数据互通需求,基于边缘增强型网络节点池,可安全、快速接入并打造云边协同内网通路,统一云边协同管理,网络资源成本降低
30%。云端协同场景Robotaxi
运营车辆的车载设备统一通过轻量化接入ACK@Edge,资源消耗降低
50
%,接入安全性提升。基于边缘侧
Pod
的启停、OTA
功能便捷化管理车载设备,业务发布运维效率提升
60%
以上。VSAG印尼服务器VSAG新加坡服务器云边端统一管控边缘自治边缘单元化ACK@Edge
云边端一体化升级NEWACK@Edge-
Edge
IoT
Devices(以上数据为客户业务场景应用结果)Contents目录01
新平台新架构新实践ASM
企业服务网格全新升级ASM
-EnterpriseServiceMesh
Platform核心生产系统100%全部切换到ASM,应用发布效率提升70%,异常排错成本降低80%通过软硬一体优化,提升TLS握手性能
75%,提升QPS
30+%ASM支持微服务应用互联互通简化零信任策略实施基于服务指标的应用弹性内建Envoy插件市场《基于Intel
架构的网格性能优化》
白皮书(以上数据为客户业务场景应用结果)Contents目录01
新平台新架构新实践资源规划财务管理网络规划安全防护合规审计运维管理自动化ACK集群规划(地域、可用区、节点池)Foundation:必选项FoundationAdvanced
OptionsAdvanced
Options:高级选项供企业按需选择身份权限混合云方案(IDC上云)人员身份权限统一管理(IDP/AD/CloudSSO)容器场景应用程序访问云资源最佳实践容器集群网络规划(多集群)出入口管理(DMZ方案)容器成本洞察和管理集群操作的合规审计容器镜像安全(安全扫描
签名
运行时)集群威胁检测(k8s、节点池)容器可观测(日志、监测、报警)集群管理自动化(IaC)容器成本优化方案(调度和弹性)安全基线和巡检(等保、CIS
benchmark)集群管控策略(OPA)容器运行威胁检测容器网络安全(CFW/Network
Policy)容器数据安全(存储加密
元数据加密)集群生命周期管理(版本升级和组件管理)容器事件管理(Event)容器DevOps跨地域镜像复制容器诊断和分析跨地域应用交付云原生
Landing
ZoneCloudNativeLanding
Zone标杆客户迪卡侬IT成本治理周期从季度缩短到天级别;闲置资源率从30%
优化到
10%。集群的资源利用率提升10%
整体降低计算成本20%以上。成本洞察成本透视与分摊混合云迁云成本估算成本控制智能资源画像智能资源预测与预警成本优化智能化资源调度Koordinator智能弹性伸缩AHPA公有云IDC容器服务
ACK集群容器FinOps套件
数字化成本治理NEW(以上数据为客户业务场景应用结果)FinOps
Digitalized
Financial
EE策略阻断客户使用云原生
DevSecOps
能力,半年内实现万次镜像扫描,千次风险镜像拦截阻断,千次加签/验签安全交付。基于全自动化软件供应链安全流程,应用安全交付效率提升
3
倍。策略通过一键修复New节点漏洞自动修复OPAPolicyBinaryAuthZ
Policy安全可信软件供应链Secureand
TrustedSupplyChain(以上数据为客户业务场景应用结果)新算力
倚天710,eRDMA,机密容器支持新平台
智能化、云边端一体协同容器平台新架构
开放、统一、高效的服务网格架构新实践Landing
Zone
FinOpsDevSecOps精益用云,增效降本LeaningComputingwith
ContainerServiceTHANKS识货云原生降本提效实践瞿晟荣识货质量运维总监Contents目录01
背景介绍02云原生降本提效03
总结和后续演进识货App年轻人的生活社区与消费决策平台品质与性价比消费新体验正品商品导购平台新生代消费群集散地年轻用户的消费风向标和发声阵地品牌与用户的沟通中枢提供专业营销服务激发年轻消费力识货App整合全行业供给的优势,通过专业导购营销服务,致力于为广大年轻用户提供专业的网购决策指导,帮助用户便捷筛选全网正品低价商品。并带来运动、潮流、生活、时尚等网购前沿资讯,在年轻用户圈层中建立起强信赖与强引导,帮助品牌与商家挖掘电商平台之外的用户流量。年20122014201520202021识货网上线优惠信息频道上线球鞋团购频道上线识货App正式上线海淘频道上线MAU破千万双11DAU破百万拍照搜鞋功能上线,帮助用户简化消费流程为满足年轻用户需求,拓展数码、美妆、箱包、生活服务等类目联合上万商家签署「安心购」协议,严保正品淘宝联盟优秀合作伙伴-
战功赫赫影响力奖第九届娱乐营销论坛暨5S金奖颁奖盛典活动20182019正品鉴别服务上线商品库服务上线社区升级上线,为年轻人提供更专业的内容服务与更具归属感的交流阵地牵手鉴定国家队,与中检集团奢侈品鉴定中心达成战略合作起源体育社区用户对正品装备讨论度高,
消费需求旺盛识货十年,初心不变与中国年轻人共同成长2022持续成长TOP1国内电商导购细分领域前100国内App应用排名持续拓展宠物、母婴、营养保健、潮玩等类目新类目GMV
占比超30%上线AR虚拟试穿功能,科技感加速用户决策淘宝联盟优秀合
作伙伴-
2021
年公有云数据中心的机器利用率平均不到10%,意味着企业的资源成本极高。另一方面大数据技术的发展迅速,计算作业对资源的需求越来越大。什么是混部混部的目标混部需要解决的问题容器混合部署时的互相干扰(noisy
IT成本。简化对集群资源的管理,可以实现对各类应用的资源容量,分配量,使用量的清晰洞察。面向混部场景的资源优先级和服务质量模型作业类型批处理任务ACKslo-manager提供了以下机制量化超卖资源:分级可靠的策略,满足差异化的资源质量需求。及时识别干扰源,避免影响
LS应用。稳定可靠的资源超卖机制细粒度的容器资源编排和隔离机制针对多种类型工作负载的调度能力增强复杂类型工作负载的快速接入能力大数据/AI以外的服务均部署在ACK资源超卖
配置总CPU核数的1/2部署为可超卖,实际超卖1/3容器作业有部分后台服务和一次性任务,延迟容忍度容忍度较高在线作业只使用非超卖资源离线作业优先调度到超卖节点问题:公司成本压力较大,
机器整体CPU使用率偏低云原生降本提效
超卖中心管控混部解决方案部署情况混部落地效果混部实践中,
将大量的后台服务和任务类的服务应用到混部中,对CPU和MEM进行超卖,目前署571核的业务pod,占整个集群的1/4
,整体集群的资源利用率由原来7%
提升到20%(数据来自识货业务场景实践)(来自识货业务场景实践)平时业务使用固定
ECS
承载。弹性业务使用
ECI
承载,无需执行弹性部分容量规划。通过指定调度策略,自动执行,无需介入复杂调度逻辑。Serverless基础设施弹性ECI容器服务Kubernetes集群(ACK)ECSPODPODECSPODPODPODECIECIECIECI业务智能预测弹性当前应用冷启动问题资源调度拉镜像容器创建容器启动应用启动,通用弹性方案面临的问题应用实例数评估难,少了不够,多了浪费稳定性风险,HPA
弹性滞后,CronHPA
配置固化易用性差,配置繁琐,通用性差可用性差弹性现状弹性滞后客户意愿普遍目前手段及副作用固定实例数HPACronHPA利用率低健壮性差,配置复杂周期偏移适应性差,配置繁琐成本+风险+复杂资源提前预热,实时调整容量无需人工干预,自动弹性规划弹性降级保护,快速兜底容错智能弹性目标固定实例数HPACronHPA智能弹性按需弹性解决客户弹性滞后冷启动的问题,通过弹性预测,提前预热资源,做到按需弹性。智能弹性根据业务趋势,自动进行弹性策略规划,避免人工规划导致预估不准(过高导致资源浪费,过低导致业务不稳定)Metrics收集
生命周期周期检测资源需求预测配置保护安全降级实例数实时生效弹性预测工作原理预测提前对POD扩容的因素目标CPU使用率(RT/QPS)根据POD生命周期计算POD
预测的pod数量曲线和CPU趋势保持一致,达到弹性效果弹性预测业务落地效果(数据来自识货业务场景实践)总结和后续演进方向降本提效收益CPU使用率从7%上升到35%弹性计算成本节省约40%业务思考大数据容器化,spark/flink/presAI机器学习云原生化(数据来自识货业务场景实践)能效提升和服务治理落地(数据来自识货业务场景实践)有效的监控体系,保障业务稳定(数据来自识货业务场景实践)数据化运维+模版化扩容(数据来自识货业务场景实践)THANKS小红书云原生架构的演进贺晋如小红书基础架构负责人Contents目录01小红书云原生历程02云原生实践03挑战和未来超过
2
Lives
+在线服务1.4万
+实例数量30万
+小红书技术概览业务笔记电商短视频直播商业化中台搜推中台业务中台音视频中台机器学习中台数据中台infra数据库缓存中间件网关容器可观测稳定性成本(数据来自小红书业务场景实践)2020离线训练云原生离线训练,机器学习平台开始容器化部署容器化启动建设选择
K8S
作为底层容器编排引擎无状态微服务实现容器化部署20182022在离线混部,搜广推容器化搜广推在线业务容器化改造,容器调度能力增强,开启在离线混部试点小红书云原生发展历程2021微服务Serverless
化Serverless
平台完成搭建,开启近线、在线业务Serverless
改造容器化程度较高,但是云原生化程度低集群利用率低,明显低于其他互联网公司按照功能划分集群,整体没有实现一个完整的多集群管理能力K8S
版本碎片化严重,不能升级或不敢升级没有专门的容器研发团队,没有解决问题的能力过去——面临的问题我们的思考如何大幅度提升研发和运维效率如何提升资源效能,用更少的资源支撑更多的业务如何支持整个容器之上的基础设施和业务架构升级为云原生架构,充分释放云原生的能力统一的资源入口:
简化业务资源使用流程,以容器作为业务部署资源的最小单元;收敛物理机管理工作,统一由资源提供方规划物理机资源小红书的容器架构高效的服务管理:基于K8s
构建高效的服务管理与发布平台,配合开源和自研的各种高级工作负载,一键完成常见运维操作,提升业务服务管理的效率,降低业务在服务管理上的成本资源管理策略:使用在离线混部,超卖等关键技术配合多样的调度算法,提升集群利用率;通过精细化的单机管控策略在单机负载逐步提升的情况下,保证运行质量应用层微服务机器学习平台音视频转码离线任务存储基础层Deployment存储
WorkloadML
WorkloadDuplicateSet工作负载统一的接入平台全局调度单集群调度调度二次调度混部超卖资源管理策略弹性…资源层托管集群1托管集群2自建集群…容器架构核心能力——CPU精细化调度kubernetes
原生的
CPU
管理机制无法满足企业内部离线训练以及对
CPU敏感的在线服务我们设计了如图所示的
精细化调度方案。目前在我们生产环境,均已关闭了kubelet
默认的
CPU管理策略,统一使用自研的
精细化调度。APIServerScheduler
PluginsSmartAgentCriShim拓扑感知度创建或者更新NRT监测并启动Pod更新cpuset启动容器KubeletList
获取拓扑调度信息资源画像:基于历史Node
节点监控数据,预测未来一个周期的资源使用量,避免热点问题超卖控制器:
通过资源画像上报的数据,来动态调整节点可超卖的比例;Mutating
根据超卖比例来计算节点可分配资源巡检:
对服务稳定性以及资源使用情况告警自动化处理,解决一些热点问题容器架构核心技术——动态资源超卖&混部Node
1Node
2Node
3kube-apiserver超卖系统计算mutating工作负载内存Redis资源画像容器架构核心技术——混部质量保障面向负载水位的
约束BE
可用的
CPU受
LS
负载的影响LS负载
=>
BE可用的
CPUCPU
Group
Identity
干扰抑制高优先级进程内核在调度时可抢占低优先级进程的
Burst内核提供补偿机制,避免被限流Memory
QoSLS/BE
共存时,优先保障
Pod通过阿里开源社区koordinator
项目,融合
alinux内核能力,保障混部下高优在线业务的服务响应质量应用场景解决方案混部弹性伸缩成本优化智能
SLO调度引擎Scheduler/DeschedulerRecommanderSLO
Manager提供差异化
SLO
的调度能力单机执行引擎kubeletSLO
Agent提供差异化
Qos
的调度能力kubeletSLO
Agent容器架构核心技术——弹性目前小红书是一个多云多K8S
集群架构,在阿里云上部署了多套
托管集群。社区
HPA
方案主要是单集群的,所以我们自研了
fed
HPA目前支持多种探测策略,包括1)cpu
和mem2)cron
定时
3)基于业务自定义指标,比如
qps
4)预测
HPA,基本上满足在线服务弹性需求。集群-1kube-apiserverprometheusadapterMetrics-serverprometheuskubeletPodPodPodPodHPA管理器校验&记录MySQL用户配置定时扩缩根据负载扩缩根据QPS扩缩触发器策略计算定期采集Pod负载、QPS信息scarerowduplicatesets扩容缩容其他监控数据用户自定义数据集群-2kube-apiserverprometheusadapterMetrics-serverprometheuskubeletPodPodPodPod策略维度调度。实现服务QoS
资源保障模型。
按照服务的QoS
等级,给与优先级不同的算力保障集群调度:通过用户输入的调度需求、统一的全局资源视图,根据不同的调度策略产生对应的集群调度结果,满足不同应用对于跨集群调度的需求节点调度:
主要用于集群内节点调度。主要包含了Red-scheduler
--基于原生K8S
调度器的小红书统一调度器,做了基于真实负载感知调度、抢占等策略容器架构核心技术——多级调度一级调度策略调度服务QoS
资源保障模型二级调度集群调度三级调度节点调度red-schedulerdescheduler收益大幅增强服务的多区域容灾与多活、跨云弹性与迁移能力支持小红书
10w+核的近离线服务
0
计算成本运行,整体上资源管理能力达到业界高水平未来发展算力归一化大规模资源的精细化运营推动存储、微服务治理、搜推广等服务云原生架构升级THANKS云原生可观测套件ACOS构建无处不在的可观测基础设施周小帆阿里云智能资深技术专家云原生时代,落地可观测“三大难题”难以估量的价值回报落地可观测基础设施的“收益”到底如何衡量高昂且难以预估的成本微服务架构下指数级上升的可观测数据计算、存储成本数据与工具的割裂开源、商业化产品与存量资产之间的艰难选择阿里云云原生可观测套件
ACOS高效构建开放、高质量、低成本的统一可观测体系通过开放标准连接孤岛阿里云
Prom
etheus
服务、阿里云
Grafana
服务、链路追踪
O
pen
Telem
、Opera等浏览器容器
CaaS
资源监控物理机/虚拟机层监控业务指标监控应用调用链监控应用性能监控CPU、内存、网络、磁盘
、TCP、Load
…JVM
堆内存、GC、Thread,Method性能
..POD内存、CPU、健康度(Running、Pending、Failed)、集群资源监控、核心组件、运行事件…服务调用全景、RT、TPS、Exception、慢sql、MQ、Redis业务核心指标,如:订单数量、订单金额、日活、月活、投保人数及其它业务指标…自上而下设计云监控Prometheus+GrafanaARMS
+SLS应用日志业务日志、应用日志、异常日志自下而上设计X客户案例二:飞凡汽车异构分布式云统一观测使用Prometheus
聚合实例构建分布式云系统健康状况全景快速构建全栈可观测涵盖应用层、云服务、基础资源,连接数据孤岛成本相较于自建与传统方案大幅下降观测数据就近计算存储,降低公网传输费用阿里云容器服务ACK集群阿里云ECS集群自建Kubernetes集群(ACK注册集群)自建Prometheus阿里云云服务Prometheus聚合实例提供全局统一聚合查询,统一Grafana数据源