2022云栖大会

云原生激活应用构建新范式云计算时代,企业应用构建面临新挑战可信安全业务智能资源弹性应用敏捷系统稳定云原生激活应用构建新范式全面容器化运维标准化,成为服务新界面高弹性可伸缩,助力降本提效全负载容器化无处不在的部署核心技术互联网化分布式可扩展,业务敏捷迭代弹性架构,从容应对流量高峰高可用高可靠保障业务连续性应用Serverless化技术组件分层解耦,实现全托管自适应弹性免运维,按用量计费研发模式再升级,聚焦业务创新容器服务

ACK

Anywhere:计算无界、承载无限在企业任何需要云的地方,提供统一的基础设施ACK

One多集群,多环境管理ACR统一应用资产管理ASM统一应用通信统一集群管理统一资源调度统一数据容灾统一应用交付微服务ApacheSpringDubboCloud有状态应用MySQLRocketMQ大数据/AI应用ApacheFlinkTensorFlow创新应用区块链IoT边缘容器ACK@Edge容器服务ACK

/Serverless

容器服务ASK专有云企业版ACKACK

发行版ACK

敏捷版飞天技术底座与基础云服务客户

全面进入智能化时代容器服务

AIOps

套件数据驱动诊断决策,助力故障防御定位得物

App智能化运维体验周→小时基于容器

套件定位问题从周缩短到小时容器服务

FinOps套件上云成本可见、可控、可优化智能化成本治理中华保险20%基于容器

FinOps

套件实现资源闲置率

30%

降低到

10%识货

App20%智能化混部调度节省

20%

资源成本智能化混部调度新一代调度系统

EDAS微消息队列MQTT版消息队列RabbitMQ版微服务引擎

MSE云服务总线

CSB链路追踪性能测试

PTS消息服务MNS事件总线EventBridge服务网格ASM分布式事务

GTSPrometheus监控服务数字化安全生产云拨测可观测应用实时监控服务ARMS高可用应用高可用服务AHAS容器服务

Anywhere公共云边缘云专有云消息队列大规模,类型丰富,打造新一代“消息服务到云原生事件流”平台应用可观测开源兼容,全栈可观测,全链路诊断应用高可用全链路压测,业务级多活容灾,打造数字安全生产体系互联网中间件:助力企业核心技术互联网化解决方案企业级高可用架构全链路压测

中间件产品家族消息队列应用

PaaS

与微服务应用

PaaS与微服务开放标准,开源增强,组件全托管,构建现代化应用服务管理插件云原生网关

Higress

重磅开源GitHub:/alibaba/higress

防护认证鉴权黑白名单自定义插件WASM

插件LUA

插件进程外插件API标准IngressGateway

API数据面控制面多

K8s

集群灰度协议转换限流降级多注册中心微服务生态SkywalkingPrometheusOpenTelemetryNacosApp1(单体应用)App2(微服务应用)App3(服务网格)Function(Serverless)K8s

生态HigressCRDOpenKruiseService

MeshAPI-Server标准化全面实现

Ingress

/

Gateway

API

标准服务治理方面提供大幅增强高集成流量网关、微服务网关、安全网关三合一支持

Nacos等主流服务发现易扩展提供最丰富的插件机制(WASM/LUA/进程外插件)提供丰富的安全、服务管理默认插件热更新证书、路由、安全规则、插件全部热更新规则变更毫秒级生效,业务无感知MSE云原生网关服务发现负载均衡服务灰度多维度监控数据库安全认证高可用防护无侵入缓存消息队列MSE

服务治理无损上下线全链路灰度服务鉴权限流降级离群摘除SQL洞察业务应用NacosZooKeeperEurekaMSE

MSE

3.0

成本管理智能运维业务连续性保障敏捷组织提效云原生可观测

5.0轻量化存算分离Serverless化可观测大规模业务消息集群,承载千万级TPS,万亿级消息洪峰累积服务10W+企业客户覆盖互联网、零售、汽车等20+行业75%

头部企业选择ApacheRocketMQ全球超过

700

Contributor80%

主流云厂商提供托管服务微服务集成:主流微服务生态集成联动Serverless驱动:FaaS事件触发器驱动通知推送:移动端、SaaS等多端投递网关调用:云服务统一网关集成CDC:低延迟、一对多订阅ETL:低代码、模板化处理连接器集成:标准协议、统一连接流查询计算:轻量化、内聚查询处理云原生架构升级RocketMQ

5.0:从消息服务到云原生事件流平台从资源到服务,阿里云核心产品全面

Serverless

化SAE应用运行时FCASK应用集成大数据数据库存储微服务应用PolarDBAnalyticDBRDSEBSSLSNASOSSHBRTablestore实时计算Fink版MaxComputeHologresElasticsearchKafkaMNSEventBridgeRocketMQ

SWF智能客服PAIWAFCDNMSEPTS人工智能ARMS半托管到全托管自适应弹性开箱即用免运维按用量计费在线应用游戏互娱微服务前端全栈在线教育/音视频Apache

Dubbo电商零售游戏中台Spring

Cloud小程序数据智能HSFServerless

Devs组件插件云效云+端一体化极速体验应用模块库经典案例库面向应用-SAE面向容器-ASK存储服务数据库服务应用监控&日志网络服务安全服务丰富的应用场景完善的开发工具消息服务Serverless

应用中心后端BaaS服务联动Serverless

计算平台Serverless

运行时升级:云上应用构建更简单面向函数-FCSAE

提供新负载、新场景、新工具Job

类型负载正式上线支持多语言微服务支持更丰富的工具链函数计算

FC

拓宽三大场景高性价比的音视频处理能力开箱即用的消息

ETL

能力ServerlessGPU

正式上线Serverless

应用中心发布海量模版,快速上手企业级特性,更规范开源工具联动,开放生态共建Serverless

引领下一代应用架构互联网分布式架构service分布式研发Serverless

架构服务化

模块化

可编排

PaaS:CNStack

2.0

重磅发布应用交付平台社区版CNStack

LocalCNStack

Online标准版ACK

Distro平台管理能力中心企业服务运维服务资源服务(集群、分布式存储、虚拟网络、备份冗灾、负载均衡、证书)工作负载(有/无状态、批处理、混部调度)应用场景容器云分布式应用云边协同DevOps资源优化AI/大数据业务中台在线集成在线验证在线交付在线演示与标准版同标准同架构同体验同发布阿里云官网免费下载社区论坛免费技术支持云服务

(多集群、虚拟化、分布式应用、边缘应用、DevOps)云组件

(消息、数据库、缓存、大数据)异构

IaaS统一算力支持一站式应用管理支持不同厂商、不同架构、CPU/GPU算力混合管理支持管理容器、虚拟机多种负载的混合调度丰富的云组件,为业务创新提供完整的技术栈支持能力中心组件经过规模化验证,运维稳定性有保障应用开发、测试、运维全生命周期的一站式管理容器服务、分布式应用、云边、DevOps全场景覆盖丰富易用的能力中心引领标准、持续突破,推动领域发展技术引领国内唯一云厂商APM

领域全球领导者FaaS

时代全面到来产业认可开源贡献构建开放、融合的云原生生态体系共同服务

20万+云原生客户转售合作产品合作服务合作云原生上云咨询与服务云原生成熟度评估应用稳定性保障分销

&SI伙伴带动云原生产品百城计划,亿元专项资金推动领航计划,产品专项攻坚SaaS&ISV

生态打造可规模化的联合解决方案,共同服务市场服务生态伙伴提供定制的云原生咨询和交付服务数字化安全生产PaaS

产品生态产品联合共建,为客户提供全面完整的云原生产品体系THANKS全球云原生技术趋势洞察栗蔚中国信息通信研究院

云计算与大数据研究所

副所长高12345趋势1:云原生正在成为应用现代化建设的先导技术,加速应用轻量、高效、开放和智能的构建趋势2:Serverless加速应用开发从集中式向组装式转变,实现应用开发的服务化、模块化和可编排。趋势5:云原生降本方案有效解决运营成本洞察和优化难题,成为企业深度用云的刚需。趋势4:云原生与安全深度融合双向赋能,催生新形态的云原生安全产品服务和交付模式。趋势3:云原生数据产品开启数据供给体系的现代化变革从资源管理到价值挖掘全球云原生技术趋势洞察6趋势6:软件架构日趋复杂,可观测性构建业务全链条保障能力。2低高高产品服务形态变化14365现代化应用的特点趋势1:云原生正在成为应用现代化建设的先导技术加速应用轻量、高效、开放和智能的构建企业数字化转型带来的传统应用改造需求持续攀升,应用亟需经历一场现代化革命,为此海外IT厂商已经布局数年,应用现代化从概念推广走向落地阶段,云原生正在成为应用现代化改造的核心技术手段。未来几年全球应用现代化市场预计持续扩张The

Insight

Partners数据显示,2018年,全球应用程序现代化工具市场价值为80.4亿美元。预计该市场将在未来几年迅速增长,到2027年将达到368.6亿美元的规模。数字化转型滋生的超级应用需求,迫使应用产业进行现代化改造,以低成本高效率管理指数级增长的应用。海外IT服务商争相推出以云原生技术为核心的应用现代化改造方案Google

2022年发布的PaaS领域投资计划调查结果显示,Serverless在企业的预期投资领域中排名第3

。革新应用构建范式,Serverless

契合快速构建、敏捷高效的发展思路服务器无感知(

everythingCloud

Native云原生架构计算存储分离容器、微服务、无服务器OLAP、HTAPMPP架构计算存储紧密耦合Share

Kubernetes

Report》调研报告显示,迁移至Kubernetes平台后,68%的受访者表示所在企业计算资源成本有所增加。资源配置经验不足企业资源配置过量和使用不当导致的资源浪费问题导致资源成本超出预期。资源潜在价值未挖掘企业资源配置等问题导致上云效果不及预期,资源潜在价值未得到发挥。低效和闲置资源难以识别企业资源治理混乱和监控保障不足导致大量低效资源难以识别。云原生降本增效方案促进成本合理分配、资源动态调度成本洞察资源跟踪准确管理、成本分配合理高效成本优化资源合理设置分配、应用多维弹性混部成本采集及资源追踪公有云成本账单记录私有云成本账单采集云资源情况持续追踪资源利用率实时监控成本分配及可视化多维度资源成本可视化有效建立浪费问责机制快速制定优化方案措施复盘回顾改进优化方案统一账单管理促进优化方案更高效资源请求合理设置用资源配额划分资源用Limit

crash

(real

user

monitor),

Synthetic等观测技术可洞悉用户体验。可观测性应用场景突破稳定性领域,保障业务服务质量。可观测性为业务对比及调优提供数据支撑,如A/B测试等多版本功能对比时,通过观测数据对比版本业务效果优劣,为产品优化、业务迭代指明方向。可观测性应用范围突破稳定性保障领域,作用于业务优化、软件质量保障洞悉云原生系统运行状况,可观测性重要性日益凸显THANKS易立阿里云容器服务负责人容器服务助力企业精益用云Lean

Computing

on

Cloud

with

Container

Service容器服务助力企业数字化创新Enable

Innovations

for

Everyone

Alibaba

ServicesACK-KubernetesServiceASK-Serverless

KubernetesACK

ONE多集群、多环境管理统一集群管理统一资源调度统一数据容灾统一应用交付边缘容器-ACK@Edge专有云企业版

ACKACK

DistroACK敏捷版飞天技术底座与基础云服务客户

IaaS中心云本地云公共云边缘云专有云ASM统一应用通信ACR统一应用资产管理行业认可Alibaba

Named

Platform

LeaderForrester

公共云容器平台

Q1/22全球领导者Omdia

容器管理方案

Q2/22全球领导者CSDN

2022中国开发者调查报告52%开发者选择阿里云容器云平台ACK新架构新实践新算力新平台精益用云

-

以“增效”促“降本”SavingCostthroughImprovingEfficiencywithCloudNative

TechnologiesContents目录01

新算力02

新平台新架构新实践新一代云原生算力支持Support

New

Generation

Native

PowereRDMA高性能容器网络High-PerformanceContainer

Networking性能提升:AI训练加速20%,微服务吞吐提升10%;密度提升:支持最多30容器高效复用eRDMA设备;(阿里云容器服务团队测试结果)倚天710卓越性价比Cost-efficiency高性价比:Web应用提升50%,视频编解码提升80%

云原生优化:采用物理核心,调度优化提升Web应用吞吐20%全链路加速

客户端加速

+

多链接传输协议全链路可观测

支持NAS/CPFS/OSSFS文件存储NAS文件存储CPFSCNFS

内置文件存储加速、对象存储客户端对象存储

OSS多链接并行I/O分布式数据缓存QoS标准

POSIX

文件接口AI

训练基因计算Web应用持续交付平台ACK/ASK/ACK@Edge性能监控托管加密NAS&

CPFSOSS容器网络文件系统

CNFS

2.0Container

Network

File

System

2.0100%吞吐提升18倍元数据QPS提升50%存储成本下降容器网络文件系统

2.0(文件存储场景,相较传统方案,以上数据为阿里云容器服务团队测试结果)新一代机密容器护航数据安全ConfidentialContainerforData

Privacy可信容器运行时可信数据存储可信软件供应链远程证明服务Dragonball(rundwith

cc-shim)Kata-agentattestation-agent机密沙箱容器

(Intel

TDX)用户应用image-rsGuestOS

Kernelenclave-agentattestation-agent进程级机密容器

SGX2)用户应用image-rsOcclum/

GramineInclavareContainer

(rune)ACR镜像服务EBS存储金融风控医疗健康人工智能IoT端到端可信运行环境数据隐私保护应用场景Contents目录01

新平台新架构新实践ACK

集群任务调度PodPodPod差异化SLO管理QoS

感知调度/重调度PodPodPodPodPodPodPodPodPodPodPodPod多种工作负载统一编排、调度高性能计算高性能存储高性能网络全兼容、零侵入、高性能、多负载资源效率100%混部调度应用间性能影响<

5%差异化SLO保障新一代容器任务调度器NEWNewGenerationWorkload

Scheduling(相较开源方案实现,以上数据为阿里云容器服务团队测试结果)DubboSpring

CloudSparkTensorflowFlink集群健康度巡检应用可用性巡检平台安全性巡检版本兼容性评估配置冲突检测集群事件流分析网络仿真与诊断OS内核指标分析专家系统

AI

算法公有云IDC容器服务–

故障预防与定位NEWAIOps

Cluster:

Fault

Prevention

and

Problem

Determination(以上数据为客户业务场景应用结果)GitOps

多地域部署灵活弹性策略统一安全策略每年3月-4月春招高峰期计算资源的需求倍增,借助阿里云混合云弹性调度策略“数分钟内弹出数万核ECS和ECI等计算资源”补充到IDC的在线服务集群,减少线下应急服务器租用量70%,有效应对流量洪峰。分布式云容器平台

One

升级NEWACKOne-ContainerPlatformforDistributed

Cloud(以上数据为客户业务场景应用结果)ACK@Edge

(

Powered

by

OpenYurt

1.0

)增强型网络边缘节点池NewCEN+

CCN运营车辆车载设备New轻量化接入MQTT异构资源便捷接入云边端统一观测云端协同场景云边协同场景云边协同场景海外多地域服务器与云上

VPC

有数据互通需求,基于边缘增强型网络节点池,可安全、快速接入并打造云边协同内网通路,统一云边协同管理,网络资源成本降低

30%。云端协同场景Robotaxi

运营车辆的车载设备统一通过轻量化接入ACK@Edge,资源消耗降低

50

%,接入安全性提升。基于边缘侧

Pod

的启停、OTA

功能便捷化管理车载设备,业务发布运维效率提升

60%

以上。VSAG印尼服务器VSAG新加坡服务器云边端统一管控边缘自治边缘单元化ACK@Edge

云边端一体化升级NEWACK@Edge-

Edge

IoT

Devices(以上数据为客户业务场景应用结果)Contents目录01

新平台新架构新实践ASM

企业服务网格全新升级ASM

-EnterpriseServiceMesh

Platform核心生产系统100%全部切换到ASM,应用发布效率提升70%,异常排错成本降低80%通过软硬一体优化,提升TLS握手性能

75%,提升QPS

30+%ASM支持微服务应用互联互通简化零信任策略实施基于服务指标的应用弹性内建Envoy插件市场《基于Intel

架构的网格性能优化》

白皮书(以上数据为客户业务场景应用结果)Contents目录01

新平台新架构新实践资源规划财务管理网络规划安全防护合规审计运维管理自动化ACK集群规划(地域、可用区、节点池)Foundation:必选项FoundationAdvanced

OptionsAdvanced

Options:高级选项供企业按需选择身份权限混合云方案(IDC上云)人员身份权限统一管理(IDP/AD/CloudSSO)容器场景应用程序访问云资源最佳实践容器集群网络规划(多集群)出入口管理(DMZ方案)容器成本洞察和管理集群操作的合规审计容器镜像安全(安全扫描

签名

运行时)集群威胁检测(k8s、节点池)容器可观测(日志、监测、报警)集群管理自动化(IaC)容器成本优化方案(调度和弹性)安全基线和巡检(等保、CIS

benchmark)集群管控策略(OPA)容器运行威胁检测容器网络安全(CFW/Network

Policy)容器数据安全(存储加密

元数据加密)集群生命周期管理(版本升级和组件管理)容器事件管理(Event)容器DevOps跨地域镜像复制容器诊断和分析跨地域应用交付云原生

Landing

ZoneCloudNativeLanding

Zone标杆客户迪卡侬IT成本治理周期从季度缩短到天级别;闲置资源率从30%

优化到

10%。集群的资源利用率提升10%

整体降低计算成本20%以上。成本洞察成本透视与分摊混合云迁云成本估算成本控制智能资源画像智能资源预测与预警成本优化智能化资源调度Koordinator智能弹性伸缩AHPA公有云IDC容器服务

ACK集群容器FinOps套件

数字化成本治理NEW(以上数据为客户业务场景应用结果)FinOps

Digitalized

Financial

EE策略阻断客户使用云原生

DevSecOps

能力,半年内实现万次镜像扫描,千次风险镜像拦截阻断,千次加签/验签安全交付。基于全自动化软件供应链安全流程,应用安全交付效率提升

3

倍。策略通过一键修复New节点漏洞自动修复OPAPolicyBinaryAuthZ

Policy安全可信软件供应链Secureand

TrustedSupplyChain(以上数据为客户业务场景应用结果)新算力

倚天710,eRDMA,机密容器支持新平台

智能化、云边端一体协同容器平台新架构

开放、统一、高效的服务网格架构新实践Landing

Zone

FinOpsDevSecOps精益用云,增效降本LeaningComputingwith

ContainerServiceTHANKS识货云原生降本提效实践瞿晟荣识货质量运维总监Contents目录01

背景介绍02云原生降本提效03

总结和后续演进识货App年轻人的生活社区与消费决策平台品质与性价比消费新体验正品商品导购平台新生代消费群集散地年轻用户的消费风向标和发声阵地品牌与用户的沟通中枢提供专业营销服务激发年轻消费力识货App整合全行业供给的优势,通过专业导购营销服务,致力于为广大年轻用户提供专业的网购决策指导,帮助用户便捷筛选全网正品低价商品。并带来运动、潮流、生活、时尚等网购前沿资讯,在年轻用户圈层中建立起强信赖与强引导,帮助品牌与商家挖掘电商平台之外的用户流量。年20122014201520202021识货网上线优惠信息频道上线球鞋团购频道上线识货App正式上线海淘频道上线MAU破千万双11DAU破百万拍照搜鞋功能上线,帮助用户简化消费流程为满足年轻用户需求,拓展数码、美妆、箱包、生活服务等类目联合上万商家签署「安心购」协议,严保正品淘宝联盟优秀合作伙伴-

战功赫赫影响力奖第九届娱乐营销论坛暨5S金奖颁奖盛典活动20182019正品鉴别服务上线商品库服务上线社区升级上线,为年轻人提供更专业的内容服务与更具归属感的交流阵地牵手鉴定国家队,与中检集团奢侈品鉴定中心达成战略合作起源体育社区用户对正品装备讨论度高,

消费需求旺盛识货十年,初心不变与中国年轻人共同成长2022持续成长TOP1国内电商导购细分领域前100国内App应用排名持续拓展宠物、母婴、营养保健、潮玩等类目新类目GMV

占比超30%上线AR虚拟试穿功能,科技感加速用户决策淘宝联盟优秀合

作伙伴-

2021

年公有云数据中心的机器利用率平均不到10%,意味着企业的资源成本极高。另一方面大数据技术的发展迅速,计算作业对资源的需求越来越大。什么是混部混部的目标混部需要解决的问题容器混合部署时的互相干扰(noisy

IT成本。简化对集群资源的管理,可以实现对各类应用的资源容量,分配量,使用量的清晰洞察。面向混部场景的资源优先级和服务质量模型作业类型批处理任务ACKslo-manager提供了以下机制量化超卖资源:分级可靠的策略,满足差异化的资源质量需求。及时识别干扰源,避免影响

LS应用。稳定可靠的资源超卖机制细粒度的容器资源编排和隔离机制针对多种类型工作负载的调度能力增强复杂类型工作负载的快速接入能力大数据/AI以外的服务均部署在ACK资源超卖

配置总CPU核数的1/2部署为可超卖,实际超卖1/3容器作业有部分后台服务和一次性任务,延迟容忍度容忍度较高在线作业只使用非超卖资源离线作业优先调度到超卖节点问题:公司成本压力较大,

机器整体CPU使用率偏低云原生降本提效

超卖中心管控混部解决方案部署情况混部落地效果混部实践中,

将大量的后台服务和任务类的服务应用到混部中,对CPU和MEM进行超卖,目前署571核的业务pod,占整个集群的1/4

,整体集群的资源利用率由原来7%

提升到20%(数据来自识货业务场景实践)(来自识货业务场景实践)平时业务使用固定

ECS

承载。弹性业务使用

ECI

承载,无需执行弹性部分容量规划。通过指定调度策略,自动执行,无需介入复杂调度逻辑。Serverless基础设施弹性ECI容器服务Kubernetes集群(ACK)ECSPODPODECSPODPODPODECIECIECIECI业务智能预测弹性当前应用冷启动问题资源调度拉镜像容器创建容器启动应用启动,通用弹性方案面临的问题应用实例数评估难,少了不够,多了浪费稳定性风险,HPA

弹性滞后,CronHPA

配置固化易用性差,配置繁琐,通用性差可用性差弹性现状弹性滞后客户意愿普遍目前手段及副作用固定实例数HPACronHPA利用率低健壮性差,配置复杂周期偏移适应性差,配置繁琐成本+风险+复杂资源提前预热,实时调整容量无需人工干预,自动弹性规划弹性降级保护,快速兜底容错智能弹性目标固定实例数HPACronHPA智能弹性按需弹性解决客户弹性滞后冷启动的问题,通过弹性预测,提前预热资源,做到按需弹性。智能弹性根据业务趋势,自动进行弹性策略规划,避免人工规划导致预估不准(过高导致资源浪费,过低导致业务不稳定)Metrics收集

生命周期周期检测资源需求预测配置保护安全降级实例数实时生效弹性预测工作原理预测提前对POD扩容的因素目标CPU使用率(RT/QPS)根据POD生命周期计算POD

预测的pod数量曲线和CPU趋势保持一致,达到弹性效果弹性预测业务落地效果(数据来自识货业务场景实践)总结和后续演进方向降本提效收益CPU使用率从7%上升到35%弹性计算成本节省约40%业务思考大数据容器化,spark/flink/presAI机器学习云原生化(数据来自识货业务场景实践)能效提升和服务治理落地(数据来自识货业务场景实践)有效的监控体系,保障业务稳定(数据来自识货业务场景实践)数据化运维+模版化扩容(数据来自识货业务场景实践)THANKS小红书云原生架构的演进贺晋如小红书基础架构负责人Contents目录01小红书云原生历程02云原生实践03挑战和未来超过

2

Lives

+在线服务1.4万

+实例数量30万

+小红书技术概览业务笔记电商短视频直播商业化中台搜推中台业务中台音视频中台机器学习中台数据中台infra数据库缓存中间件网关容器可观测稳定性成本(数据来自小红书业务场景实践)2020离线训练云原生离线训练,机器学习平台开始容器化部署容器化启动建设选择

K8S

作为底层容器编排引擎无状态微服务实现容器化部署20182022在离线混部,搜广推容器化搜广推在线业务容器化改造,容器调度能力增强,开启在离线混部试点小红书云原生发展历程2021微服务Serverless

化Serverless

平台完成搭建,开启近线、在线业务Serverless

改造容器化程度较高,但是云原生化程度低集群利用率低,明显低于其他互联网公司按照功能划分集群,整体没有实现一个完整的多集群管理能力K8S

版本碎片化严重,不能升级或不敢升级没有专门的容器研发团队,没有解决问题的能力过去——面临的问题我们的思考如何大幅度提升研发和运维效率如何提升资源效能,用更少的资源支撑更多的业务如何支持整个容器之上的基础设施和业务架构升级为云原生架构,充分释放云原生的能力统一的资源入口:

简化业务资源使用流程,以容器作为业务部署资源的最小单元;收敛物理机管理工作,统一由资源提供方规划物理机资源小红书的容器架构高效的服务管理:基于K8s

构建高效的服务管理与发布平台,配合开源和自研的各种高级工作负载,一键完成常见运维操作,提升业务服务管理的效率,降低业务在服务管理上的成本资源管理策略:使用在离线混部,超卖等关键技术配合多样的调度算法,提升集群利用率;通过精细化的单机管控策略在单机负载逐步提升的情况下,保证运行质量应用层微服务机器学习平台音视频转码离线任务存储基础层Deployment存储

WorkloadML

WorkloadDuplicateSet工作负载统一的接入平台全局调度单集群调度调度二次调度混部超卖资源管理策略弹性…资源层托管集群1托管集群2自建集群…容器架构核心能力——CPU精细化调度kubernetes

原生的

CPU

管理机制无法满足企业内部离线训练以及对

CPU敏感的在线服务我们设计了如图所示的

精细化调度方案。目前在我们生产环境,均已关闭了kubelet

默认的

CPU管理策略,统一使用自研的

精细化调度。APIServerScheduler

PluginsSmartAgentCriShim拓扑感知度创建或者更新NRT监测并启动Pod更新cpuset启动容器KubeletList

获取拓扑调度信息资源画像:基于历史Node

节点监控数据,预测未来一个周期的资源使用量,避免热点问题超卖控制器:

通过资源画像上报的数据,来动态调整节点可超卖的比例;Mutating

根据超卖比例来计算节点可分配资源巡检:

对服务稳定性以及资源使用情况告警自动化处理,解决一些热点问题容器架构核心技术——动态资源超卖&混部Node

1Node

2Node

3kube-apiserver超卖系统计算mutating工作负载内存Redis资源画像容器架构核心技术——混部质量保障面向负载水位的

约束BE

可用的

CPU受

LS

负载的影响LS负载

=>

BE可用的

CPUCPU

Group

Identity

干扰抑制高优先级进程内核在调度时可抢占低优先级进程的

Burst内核提供补偿机制,避免被限流Memory

QoSLS/BE

共存时,优先保障

Pod通过阿里开源社区koordinator

项目,融合

alinux内核能力,保障混部下高优在线业务的服务响应质量应用场景解决方案混部弹性伸缩成本优化智能

SLO调度引擎Scheduler/DeschedulerRecommanderSLO

Manager提供差异化

SLO

的调度能力单机执行引擎kubeletSLO

Agent提供差异化

Qos

的调度能力kubeletSLO

Agent容器架构核心技术——弹性目前小红书是一个多云多K8S

集群架构,在阿里云上部署了多套

托管集群。社区

HPA

方案主要是单集群的,所以我们自研了

fed

HPA目前支持多种探测策略,包括1)cpu

和mem2)cron

定时

3)基于业务自定义指标,比如

qps

4)预测

HPA,基本上满足在线服务弹性需求。集群-1kube-apiserverprometheusadapterMetrics-serverprometheuskubeletPodPodPodPodHPA管理器校验&记录MySQL用户配置定时扩缩根据负载扩缩根据QPS扩缩触发器策略计算定期采集Pod负载、QPS信息scarerowduplicatesets扩容缩容其他监控数据用户自定义数据集群-2kube-apiserverprometheusadapterMetrics-serverprometheuskubeletPodPodPodPod策略维度调度。实现服务QoS

资源保障模型。

按照服务的QoS

等级,给与优先级不同的算力保障集群调度:通过用户输入的调度需求、统一的全局资源视图,根据不同的调度策略产生对应的集群调度结果,满足不同应用对于跨集群调度的需求节点调度:

主要用于集群内节点调度。主要包含了Red-scheduler

--基于原生K8S

调度器的小红书统一调度器,做了基于真实负载感知调度、抢占等策略容器架构核心技术——多级调度一级调度策略调度服务QoS

资源保障模型二级调度集群调度三级调度节点调度red-schedulerdescheduler收益大幅增强服务的多区域容灾与多活、跨云弹性与迁移能力支持小红书

10w+核的近离线服务

0

计算成本运行,整体上资源管理能力达到业界高水平未来发展算力归一化大规模资源的精细化运营推动存储、微服务治理、搜推广等服务云原生架构升级THANKS云原生可观测套件ACOS构建无处不在的可观测基础设施周小帆阿里云智能资深技术专家云原生时代,落地可观测“三大难题”难以估量的价值回报落地可观测基础设施的“收益”到底如何衡量高昂且难以预估的成本微服务架构下指数级上升的可观测数据计算、存储成本数据与工具的割裂开源、商业化产品与存量资产之间的艰难选择阿里云云原生可观测套件

ACOS高效构建开放、高质量、低成本的统一可观测体系通过开放标准连接孤岛阿里云

Prom

etheus

服务、阿里云

Grafana

服务、链路追踪

O

pen

Telem

、Opera等浏览器容器

CaaS

资源监控物理机/虚拟机层监控业务指标监控应用调用链监控应用性能监控CPU、内存、网络、磁盘

、TCP、Load

…JVM

堆内存、GC、Thread,Method性能

..POD内存、CPU、健康度(Running、Pending、Failed)、集群资源监控、核心组件、运行事件…服务调用全景、RT、TPS、Exception、慢sql、MQ、Redis业务核心指标,如:订单数量、订单金额、日活、月活、投保人数及其它业务指标…自上而下设计云监控Prometheus+GrafanaARMS

+SLS应用日志业务日志、应用日志、异常日志自下而上设计X客户案例二:飞凡汽车异构分布式云统一观测使用Prometheus

聚合实例构建分布式云系统健康状况全景快速构建全栈可观测涵盖应用层、云服务、基础资源,连接数据孤岛成本相较于自建与传统方案大幅下降观测数据就近计算存储,降低公网传输费用阿里云容器服务ACK集群阿里云ECS集群自建Kubernetes集群(ACK注册集群)自建Prometheus阿里云云服务Prometheus聚合实例提供全局统一聚合查询,统一Grafana数据源

THE END
1.强化学习ReinforcementLearning在航空航天领域的应用与挑战强化学习,Reinforcement Learning,航空航天,应用,挑战,控制,优化,决策 1. 背景介绍 航空航天领域一直以来都是科技发展的前沿阵地,其复杂性、安全性要求极高,对智能控制和决策的需求日益迫切。传统控制方法往往依赖于预先设定的规则和模型,难以应对复杂、动态变化的环境。而强化学习(Reinforcement Learning,RL)作为一种机器https://blog.csdn.net/2301_76268839/article/details/144429525
2.自然语言强化学习:一个可处理语言反馈的强化学习框架这种困境促使研究团队开始探索一个更具突破性的方向:能否设计一个框架,让 AI 系统完全通过与环境的交互来学习,而不依赖任何人类标注数据?传统强化学习为这个问题提供了灵感,但其单一数值奖励的机制难以满足复杂场景的需求。团队意识到需要一个新范式,既要继承强化学习的数学严谨性,又要具备自然语言的表达丰富性。这个https://hub.baai.ac.cn/view/41851
3.大数据上云存算分离演进思考与实践大数据阿里技术异构计算的资源负载混部:在统一存储平台提供面向异构计算的工作资源负载下的多维度查询分析服务。在线与离线计算共用计算和存储资源。解决资源波峰波谷问题,实现资源动态削峰填谷 存储降本: 存储利用率+冷热分层。支持基于分布式存储系统上的多层存储(热存储/标准存储/冷存储等)。举例来说,存储降本优化主要依赖于归档与冷https://xie.infoq.cn/article/de0971c840628b7b467a110dc
4.Volcano:在离线作业混部管理平台,实现智能资源管理和作业调度节点可观测性增强,对在离线任务资源布局动态优化,识别在线业务是否受到干扰,对干扰进行定位和控制。 集群可观测性增强,对集群任务布局动态优化,减少集群资源使用不均衡问题。 基于Volcano混合部署解决方案如下图所示: 图3 基于Volcano混合部署架构 Volcano混部调度能力 https://developer.huawei.com/consumer/cn/forum/topic/0202841185168780412
5.云计算:ChatGPT的“中枢神经”云原生离混部技术实现离散训练,在线微调 ChatGPT基于大量优质的数据语料训练,实现对话意图识别和内容生成能力的突破,这主要由于ChatGPT具有强大的智能算法学习和记忆调用基础,通过云原生离线混部和极致弹性调用机制,离线训练千亿级别的超大规模参数,形成了ChatGPT的存储记忆资源池,通过在线补充完成人类反馈强化学习(RLHF)的微调https://m.thepaper.cn/newsDetail_forward_22342649
6.在离线混部云容器引擎最佳实践调度在离线混部的核心目标是通过将在线应用和离线应用混合部署到同一个集群中,最大程度地提高集群的资源利用率,进而降低企业的运营成本。值得注意的是,在线应用和离线应用这两种不通类型的应用对服务质量的要求是不一样,在线应用往往是延时高度敏感,对资源质量要求也更高。而离线应用则对延迟要求相对宽松,有更好的重试容错https://www.ctyun.cn/document/10083472/10172926
7.阿里决战双11核心技术揭秘——混部调度助力云化战略再次突破在大家如丝般顺滑地完成一次次秒杀、抢购和付款过程的背后,是阿里巴巴技术团队经历数年时间的系统打磨,技术架构优化所做出的努力。而底层基础设施服务质量不断提升、IT 成本增加逐年递减的演进历程,都由一个名为「云化战略」的技术梦想所贯穿起来。 特别是 2017 年双 11,阿里巴巴首次混合部署了在线服务、离线计算以及https://www.leiphone.com/category/ai/HHa8Y9tPeVgB1Kt8.html
8.Kubernetes资源拓扑感知调度优化腾讯云开发者社区基于离线虚拟机的混部方案导致的节点实际可用 CPU 核心数变化 面对运行在线业务的云主机平均利用率较低的现实,为充分利用空闲资源,可将离线虚拟机和在线虚拟机混合部署,解决公司离线计算需求,提升自研上云资源平均利用率。在保证离线不干扰在线业务的情况下,腾讯星辰算力基于自研内核调度器 VMF 的支持,可以将一台机器上https://cloud.tencent.com/developer/article/2029446
9.浪潮云海首席科学家张东:面向一云多芯的系统设计云海云操作系统(InCloud OS)、Apsara Stack、EasyStack等通过单一资源池实现异构资源的统一调度和互联互通,但当前阶段主要解决“多芯”的混部问题,距离以应用为中心的跨架构运行和低成本切换尚有较大差距。为满足多芯共存条件下业务的稳定运行、平滑切换和弹性伸缩,如下科学问题和技术难题亟待解决。 https://www.cet.com.cn/itpd/itxw/3465583.shtml
10.便宜云服务器容器服务在AI智算嘲的创新与实践容器服务也在积极推动上游开源社区,在Kubernetes体系下,定义支持各类计算框架和任务类型的云原生任务标准API和生命周期。帮助用户可以在Kubernetes集群上以统一的标准和接口,管理调度各类数据计算类工作负载。 ACK扩展了Kube-scheduler framework,与Slurm调度系统打通,即支持节点池维度的分节点调度,也支持共享节点资源的混部调度http://zhanzhang.ceden.cn/?article/1644909
11.腾讯云专有云TCS容器平台企业级云容器平台云原生容器腾讯云专有云TCS容器平台,适配丰富异构IAAS设备,满足利旧需求,广泛适配兼容信创CPU/指令集/操作系统。自研高性能负载均衡;基于eBPF的高性能网络;跨集群统一服务发现;高性能Ingress;平台高可用和部署方案,运维运营能力。 立即咨询 传统企业信息化体系存在的问题 https://www.yun88.com/product/3926.html
12.华为云UCS华为云与本地IDC协同,实现弹性上云 构筑本地集群极速弹性上云,流量高峰,业务云上秒级扩容 结合Volcano以及HCE OS 2.0能力,构建本地集群在线、离线混部能力,资源利用率提升40% 在AI训练和AI推理场景下,通过GPU虚拟化技术实现GPU隔离以及资源利用率提升 云原生应用全景观测,大幅提升运维效率 https://www.huaweicloud.com/product/ucs.html
13.阿里云异构计算类云服务器介绍(GPU云服务器FPGA云服务器等神龙AI加速引擎AIACC是基于阿里云IaaS资源推出的AI加速引擎,用于优化基于AI主流计算框架搭建的模型,能显著提升深度学习场景下的训练和推理性能。配合集群极速部署工具FastGPU快速构建AI计算任务,全面提升研发效率和GPU利用率,缩短计算时间并降低AI的推理延迟。 2、神龙AI加速引擎AIACC产品优势 https://www.jianshu.com/p/d4c370053533
14.深入硬件层内核态与用户态,一文看懂火山引擎云原生操作系统近日,在2020全球分布式云大会上,火山引擎解决方案总监于鸿磊以“多云环境下的云原生操作系统”为主题,从云原生操作系统出发,分享了火山引擎敏捷高效的基础设施与技术,为企业追求业务持续增长的提供了一种创新技术思路。 激发创造,释放潜能 字节跳动具有长期沉淀、服务于数亿用户的大数据技术、人工智能等基础技术服务能力,拥https://www.volcengine.com/docs/6316/66821
15.小红书近线服务统一调度平台建设实践对于服务,我们目前将服务划分为强隔离要求在线服务、普通在线服务、近线服务、离线服务4个QoS级别。 服务QoS 资源保障模型,本质上就是按照服务的 QoS 级别,给予不同的算力保障。 对于近线服务,调度优先级为:独占资源池机器 > 在线集群闲置算力 > 混部算力 > 公有云容器实例服务。目前公有云容器实例服务,只是作为一https://blog.itpub.net/70016482/viewspace-2927565/
16.成立3年,云服务厂商火山引擎全景扫描该服务属于实时计算方面,完全基于云原生构建:脱胎于抖音内部超大规模实践,日常峰值 QPS 达100亿,稳定性提升51%;通过Serverless,实现弹性扩缩容和在离线业务混部,资源利用率提升40%;并且能够统一调度,满足流批一体等多种计算模态。通过LAS和Serverless Flink,企业可以更加高效、经济的建设自身的数据底座。https://www.eefocus.com/article/1512934.html