一、AI有望明显拉动算力基础设施投资
人工智能(AI)是指由机器展示的智能,即计算机基于大数据模拟人脑的各项功能,例如推理、视觉识别、语义理解、学习能力及规划与决策能力等。人工智能生成内容(AIGC)是指利用人工智能技术来生成内容,包括绘画、作曲、剪辑、写作等。AIGC的萌芽可追溯到上世纪50年代,90年代从实验性向实用性逐渐转变,但受限于算法瓶颈,无法直接生成内容,从21世纪10年代开始,随着以生成对抗网络(GAN)为代表的深度学习算法的提出和迭代,AIGC迎来了快速发展阶段。
1.2人工智能需要强大算力支撑
以ChatGPT为代表的人工智能应用在运行背后需要强大的算力支撑。OpenAI在2018年推出的GPT参数量为1.17亿,预训练数据量约5GB,而GPT-3参数量达1750亿,预训练数据量达45TB。在模型训练阶段,ChatGPT的总算力消耗约为3640PF-days,总训练成本为1200万美元,在服务访问阶段则会有更大消耗。
IDC数据显示:2021年全球人工智能IT投资额为929.5亿美元,预计2026年将增至3014.3亿美元,复合年增长率约26.5%。2026年中国市场AI投资预计将达266.9亿美元,约占全球投资8.9%,居世界第二位,复合年增长率约21.7%。未来五年,硬件将成为中国人工智能最大的细分市场,占人工智能总投资的50%以上。IDC预测,2026年,中国在人工智能硬件市场的IT投资将超过150亿美元,接近美国人工智能硬件的市场规模,五年复合年增长率16.5%。服务器作为硬件市场的主要组成部分,预计将占总投入的80%以上。人工智能的发展将对算力提出更高要求,算力网络基础设施需求有望持续提升。根据中国信通院数据,2021年全球计算设备算力总规模达到615EFlops(每秒浮点运算次数),同比增长44%,其中基础算力规模为369EFlops,智能算力规模为232EFlops,超算算力规模为14EFlops,预计2030年全球算力规模将达到56ZFlps,平均年均增长65%。我国智能算力规模持续高速增长,2021年智能算力规模已经超过通用算力。根据中国信通院数据,我国计算设备算力总规模达到202EFlops,全球占比约为33%,保持50%以上的高速增长态势,增速高于全球,其中智能算力增长迅速,增速为85%,在我国算力中的占比超过50%。
1.3AI算力产业链涉及环节较多,行业需求有望全面提升
AI算力产业链涉及环节较多,按照算力基础设施构成来看,包括AI芯片及服务器、交换机及光模块、IDC机房及上游产业链等。其中,随着训练和推理需求提升,AI芯片及服务器需求将率先放量;AI算力对数据中心内部数据流量较大,光模块速率及数量均有显著提升,交换机的端口数及端口速率也有相应的增长;IDC也有望进入需求释放阶段,预计液冷温控渗透率将快速提升,海底数据中心也可能将迎来产业化的关键节点。
1、AI芯片和服务器需求将率先放量
根据测算,2023年-2027年全球大模型训练端峰值算力需求量的年复合增长率为78.0%。2023年全球大模型训练端所需全部算力换算成的A100总量超过200万张。从云端推理所需算力角度测算,2023年-2027年,全球大模型云端推理的峰值算力需求量的年复合增长率为113%,如果考虑边缘端AI推理的应用,推理端算力规模将进一步扩大。
2、AI算力改变数据中心内部网络架构,光模块和交换机速率及需求提升
3、IDC需求有望释放,AI服务器高功率密度或将推升液冷渗透率
IDC作为算力基础设施产业链的关键环节,也有望进入需求释放阶段。在过去两年半,受多重因素影响下,云计算需求景气度下行,但IDC建设与供给未出现明显放缓,2021年和2022年分别新增机柜数量120万架和150万架,因此短期内出现供需失衡情况(核心区域供需状况相对良好),部分地区上电率情况一般。所以IDC公司2022年业绩普遍承压。随着平台经济发展恢复以及AI等拉动,IDC需求有望逐步释放,叠加2023新增供给量有望较2022年减少(例如三大运营商2022年新增IDC机柜15.6万架,2023年计划新增11.4万架)。人工智能大模型训练和推理运算所用的GPU服务器的功率密度将大幅提升,以英伟达DGXA100服务器为例,其单机最大功率约可以达到6.5kW,大幅超过单台普通CPU服务器500w左右的功率水平。在此情况下,一方面需要新建超大功率的机柜,另一方面为降低PUE,预计液冷温控渗透率将快速提升,海底数据中心也可能将迎来产业化的关键节点。
二、AI芯片需求爆发式增长
2.1AI大规模落地应用对AI芯片性能、数量提出全方位要求
从广义上讲,能运行AI算法的芯片都叫AI芯片。CPU、GPU、FPGA、NPU、ASIC都能执行AI算法,但在执行效率层面上有巨大的差异。CPU可以快速执行复杂的数学计算,但同时执行多项任务时,CPU性能开始下降,目前行业内基本确认CPU不适用于AI计算。CPU+xPU的异构方案成为大算力场景标配,GPU为应用最广泛的AI芯片。目前业内广泛认同的AI芯片类型包括GPU、FPGA、NPU等。由于CPU负责对计算机的硬件资源进行控制调配,也要负责操作系统的运行,在现代计算系统中仍是不可或缺的。GPU、FPGA等芯片都是作为CPU的加速器而存在,因此目前主流的AI计算系统均为CPU+xPU的异构并行。CPU+GPU是目前最流行的异构计算系统,在HPC、图形图像处理以及AI训练/推理等场景为主流选择。IDC数据显示,2021年中国AI芯片市场中,GPU市占率为89%。
2.1.1GPU性能、功能经历长期迭代升级,成为AI芯片中应用最广泛的选择
GPU能够进行并行计算,设计初衷是加速图形渲染。NVIDIA在1999年发布GeForce256图形处理芯片时首先提出GPU(GraphicProcessingUnit)的概念,并将其定义为“具有集成转换、照明、三角形设置/裁剪和渲染引擎的单芯片处理器,能够每秒处理至少1000万个多边形”。从计算资源占比角度看,CPU包含大量的控制单元和缓存单元,实际运算单元占比较小。GPU则使用大量的运算单元,少量的控制单元和缓存单元。GPU的架构使其能够进行规模化并行计算,尤其适合逻辑简单,运算量大的任务。GPU通过从CPU承担一些计算密集型功能(例如渲染)来提高计算机性能,加快应用程序的处理速度,这也是GPU早期的功能定位。
GPU性能提升与功能丰富逐步满足AI运算需要。2010年NVIDIA提出的Fermi架构是首个完整的GPU计算架构,其中提出的许多新概念沿用至今。Kepler架构在硬件上拥有了双精度计算单元(FP64),并提出GPUDirect技术,绕过CPU/SystemMemory,与其他GPU直接进行数据交互。Pascal架构应用了第一代NVLink。Volta架构开始应用TensorCore,对AI计算加速具有重要意义。简要回顾NVIDIAGPU硬件变革历程,工艺、计算核心数增加等基础特性的升级持续推动性能提升,同时每一代架构所包含的功能特性也在不断丰富,逐渐更好地适配AI运算的需要。
均衡分配资源的前提下,处理低精度的硬件单元数量更多,表现更高的算力性能。GPU作为加速器得到广泛应用一定程度上得益于它的通用性,为了在不同精度的数据类型上具有良好的性能,以兼顾AI、科学计算等不同场景的需要,英伟达在分配处理不同数据类型的硬件单元时大体上保持均衡。因为低精度数据类型的计算占用更少的硬件资源,同一款GPU中的处理低精度数据类型的硬件单元的数量较多,对应计算能力也较强。以V100为例,每个SM中FP32单元的数量都为FP64单元的两倍,最终V100的FP32算力(15.7TFLOPS)也近似为FP64(7.8TFLOPS)的两倍,类似的规律也可以在各代架构旗舰P100、A100和H100中看到。
TensorCore持续迭代提升其加速能力。Volta架构引入TensorCore的改动使GPU的AI算力有了明显提升,后续在每一代的架构升级中,TensorCore都有比较大的改进,支持的数据类型也逐渐增多。以A100到H100为例,TensorCore由3.0迭代至4.0,H100在FP16TensorCore的峰值吞吐量提升至A100的3倍。同时,H100TensorCore支持新的数据类型FP8,H100FP8TensorCore的吞吐量是A100FP16TensorCore的6倍。
数据访问支配着计算能力利用率。AI运算涉及到大量数据的存储与处理,根据Cadence数据,与一般工作负载相比,每台AI训练服务器需要6倍的内存容量。而在过去几十年中,处理器的运行速度随着摩尔定律高速提升,而DRAM的性能提升速度远远慢于处理器速度。目前DRAM的性能已经成为了整体计算机性能的一个重要瓶颈,即所谓阻碍性能提升的“内存墙”。除了性能之外,内存对于能效比的限制也成为一个瓶颈,Cadence数据显示,在自然语言类AI负载中,存储消耗的能量占比达到82%。
NVIDIA开发NVLink技术解决GPU集群通信。在硬件端,GPU之间稳定、高速的通信是实现集群运算所必须的条件。传统x86服务器的互连通道PCIe的互连带宽由其代际与结构决定,例如x16PCIe4.0双向带宽仅为64GB/s。除此之外,GPU之间通过PCIe交互还会与总线上的CPU操作竞争,甚至进一步占用可用带宽。NVIDIA为突破PCIe互连的带宽限制,在P100上搭载了首项高速GPU互连技术NVLink(一种总线及通讯协议),GPU之间无需再通过PCIe进行交互。
NVDIA开发基于NVLink的芯片NVSwitch,作为GPU集群数据通信的“枢纽”。NVLink1.0技术使用时,一台服务器中的8个GPU无法全部实现直接互连。同时,当GPU数量增加时,仅依靠NVLink技术,需要众多数量的总线。为解决上述问题,NVIDIA在NVLink2.0时期发布了NVSwitch,实现了NVLink的全连接。NVSwitch是一款GPU桥接芯片,可提供所需的NVLink交叉网络,在GPU之间的通信中发挥“枢纽”作用。借助于NVswitch,每颗GPU都能以相同的延迟和速度访问其它的GPU。就程序来看,16个GPU都被视为一个GPU,系统效率得到了最大化,大大降低了多GPU系统的优化难度。
通过添加更多NVSwitch来支持更多GPU,集群分布式运算得以实现。当训练大型语言模型时,NVLink网络也可以提供显著的提升。NVSwitch已成为高性能计算(HPC)和AI训练应用中不可或缺的一部分。
2.1.2NPU通过特殊架构设计对AI运算起到加速作用
NPU在人工智能算法上具有较高的运行效率。为了适应某个特定领域中的常见的应用和算法而设计,通常称之为“特定域架构(DomainSpecificArchitecture,DSA)”芯片,NPU(神经网络处理器)属于其中一种,常被设计用于神经网络运算的加速。以华为手机SoC麒麟970为例,NPU对图像识别神经网络的运算起到了显著加速效果,使其图像识别速度明显优于同代竞品的表现。
NPU已经在AI运算加速领域获得了广泛应用。在数据中心获得大规模应用的NPU案例即TPU,已被谷歌用于构建数据中心的超级计算机,执行特定神经网络的训练任务。在用户端,手机、汽车、智能安防摄像头等设备开始搭载AI计算功能,通常是利用训练好的神经网络模型执行图像处理等工作,此时NPU通用性差的劣势被缩小,高算力、高能耗比的优势被放大,因而得到了广泛的应用。在终端设备中,NPU常以模块的形式包含在SoC内部,对AI运算进行加速,例如特斯拉自动驾驶芯片FSD均包含NPU。
2.1.3训练/推理、云/边分别对AI芯片提出不同要求,未来推理端的算力需求将远超训练端
AI技术在实际应用中包括两个环节:训练(Training)和推理(Inference)。训练是指通过大数据训练出一个复杂的神经网络模型,使其能够适应特定的功能。训练需要较高的计算性能、能够处理海量数据、具有一定的通用性。推理是指利用训练好的神经网络模型进行运算,利用输入的新数据来一次性获得正确结论的过程。
带宽、互连速率的限制,使云端超大规模的模型推理选择A100、H100更优,而非T4、A10等推理卡。以GPT-3为例,OpenAI数据显示GPT-3模型1750亿参数对应超过350GB的GPU显存需求。假设参数规模与所需显存呈线性关系,且推理的中间参数量按1倍估算,则1万亿参数规模的大模型推理需要约4000GB显存,则需要50张A100(80GB)或者167张A10(24GB)。集群中的GPU数量越多意味着更复杂的互连要求,而且A10无法应用NVLink和NVSwitch技术,大量A10组成的集群仅依靠PCIe通信,互连带宽相比A100等显卡的劣势明显,进而可能导致模型推理的时效性不佳。
经测算,AI大模型在训练端和推理端都将产生巨量的算力/AI芯片需求。如果未来大模型广泛商用落地,推理端的算力/AI芯片的需求量将明显高于训练端。大模型云端训练对算力的需求测算:测算原理:从模型的(1)参数规模入手,根据(2)训练大模型所需的Token数量和(3)每Token训练成本与模型参数量的关系估算总算力需求,再考虑(4)单张GPU算力和(5)GPU集群的算力利用率推导得出GPU总需求。(1)参数规模:过去几年,大模型的参数量呈指数上升,GPT-3模型参数量已达到1750亿。GPT-4具有多模态能力,其参数量相比GPT-3会更大。我们在测算中假设2023年多模态大模型的平均参数量达到10000亿个,之后每年保持20%的增速;普通大模型的平均参数量达到2000亿个,之后每年保持20%的增速。(2)训练大模型所需的Token数量:参数规模在千亿量级的自然语言大模型GPT-3、Jurassic-1、Gopher、MT-NLG,训练所需的Token数量在千亿量级,而一些多模态大模型在训练过程中所需Token数据量也跟随参数量增长而增长,我们在测算中假设多模态大模型训练所需Token数量达到万亿级别,并且Token数量与模型参数规模保持线性增长关系。
(3)每Token训练成本与模型参数量的关系:参考OpenAI发布的论文《ScalingLawsforNeuralLanguageModels》中的分析,每个token的训练成本通常约为6N,其中N是LLM的参数数量,我们在测算中遵循这一关系。具体原理如下,神经网络的训练过程包括前向传播和反向传播两个过程,其中大致包括四个步骤:1.做一个单次的推理操作,得到输出y,例如输入猫的图片得到输出0.986。2.求到输出y与真实的目标输出Y(假定设置的目标输出Y=1)之间的差值,例如得到输出与目标真实值的差值为0.014。3.将输出差值回溯,计算差值关于每个参数的梯度关系。4.根据输出差值和梯度修正每个神经元的参数,实现神经网络的参数更新,促使输出逼近目标真实值。因而在一个参数量为N的神经网络中,一次输入带来训练过程的整体运算量大致为6N,其中2N为前向传播过程,4N为反向传播过程。
(4)单张GPU算力:因为在训练大模型时,主要依赖可实现的混合精度FP16/FP32FLOPS,即FP16TensorCore的算力,我们在测算中选取A100SXM和H100SXM对应的算力312TFLOPS和990TFLOPS作为参数。(5)GPU集群的算力利用率:参考GoogleResearch发布的论文《PaLM:ScalingLanguageModelingwithPathways》中的分析,我们在测算中假设算力利用率约为30%。
2.2英伟达龙头地位稳固,国内厂商正逐步追赶
海外龙头厂商占据垄断地位,AI加速芯片市场呈现“一超多强”态势。数据中心CPU市场上,英特尔份额有所下降但仍保持较大领先优势,AMD持续抢占份额势头正盛。AI加速芯片市场上,英伟达凭借硬件优势和软件生态一家独大,在训练、推理端均占据领先地位。根据LiftrInsights数据,2022年数据中心AI加速市场中,英伟达份额达82%,其余海外厂商如AWS和Xilinx分别占比8%、4%,AMD、Intel、Google均占比2%。国内厂商起步较晚正逐步发力,部分加速芯片领域已经涌现出一批破局企业,但目前多为初创企业规模较小,技术能力和生态建设仍不完备,在高端AI芯片领域与海外厂商仍存在较大差距。未来,随着美国持续加大对中国高端芯片的出口限制,AI芯片国产化进程有望加快。
GPU市场方面,海外龙头占据垄断地位,国产厂商加速追赶。当前英伟达、AMD、英特尔三巨头霸占全球GPU芯片市场的主导地位。集成GPU芯片一般在台式机和笔记本电脑中使用,性能和功耗较低,主要厂商包括英特尔和AMD;独立显卡常用于服务器中,性能更高、功耗更大,主要厂商包括英伟达和AMD。分应用场景来看,应用在人工智能、科学计算、视频编解码等场景的服务器GPU市场中,英伟达和AMD占据主要份额。根据JPR,2023年Q1英伟达的独立显卡(包括AIB合作伙伴显卡)的市场份额达84%,AMD和Intel则分别占比12%、4%。
GPGPU:英伟达和AMD是目前全球GPGPU的领军企业。英伟达的通用计算芯片具备优秀的硬件设计,通过CUDA架构等全栈式软件布局,实现了GPU并行计算的通用化,深度挖掘芯片硬件的性能极限,在各类下游应用领域中,均推出了高性能的软硬件组合,逐步成为全球AI芯片领域的主导者。根据stateof.AI2022报告,英伟达芯片在AI学术论文中的出现频次远超其他类型的AI芯片,是学术界最常用的人工智能加速芯片。在Oracle以及腾讯云中,也几乎全部采用英伟达的GPU作为计算加速芯片。AMD2018年发布用于数据中心的RadeonInstinctGPU加速芯片,Instinct系列基于CDNA架构,如MI250X采用CDNA2架构,在通用计算领域实现计算能力和互联能力的显著提升,此外还推出了对标英伟达CUDA生态的AMDROCm开源软件开发平台。英伟达的H100及A100、AMD的MI100、MI200系列等是当前最为主流的GPGPU产品型号。
ASIC市场方面,由于其一定的定制化属性,市场格局较为分散。在人工智能领域,ASIC也占据一席之地。其中谷歌处于相对前沿的技术地位,自2016年以来,就推出了专为机器学习定制的ASIC,即张量处理器(TensorProcessingUnit,TPU),近期,谷歌首次公布了其用于训练人工智能模型的AI芯片TPUv4的详细信息,其采用低精度计算,在几乎不影响深度学习处理效果的前提下大幅降低了功耗、加快运算速度,同时使用了脉动阵列等设计来优化矩阵乘法与卷积运算,对大规模矩阵的乘法可以最大化数据复用,减少访存次数,大幅提升Transformer模型的训练速度,同时节约训练成本。谷歌称在同等规模系统下基于TPU的谷歌超级计算机比基于英伟达A100芯片的系统最高快1.7倍,节能效率提高1.9倍。谷歌TPU属于定制化ASIC芯片,是专门为神经网络和TensorFlow学习框架等量身打造的集成芯片,需要在这类特定框架下才能发挥出最高运行效率。
英伟达领先地位稳固。英伟达凭借良好的硬件性能和完善的CUDA生态将持续处于领先地位,但起步较晚的挑战者也在奋起直追,未来有望出现一超多强的多元化竞争格局。训练市场方面,英伟达高算力GPU是当前AI训练主流选择,谷歌TPU面临着通用性的局限,AMD存在生态构建差距,但在二者的冲击及云厂商自研芯片的竞争下,AI训练市场也或将出现格局的变动。推理市场方面,GPU具有较好的生态延续性仍占主流,如英伟达针对推理市场的产品TeslaT4上的芯片包含了2560个CUDA内核,性能达到了FP640.25TFLOPS、FP328.1TFLOPS、INT8达130TOPS,可提供多精度推理性能,以及优于CPU40倍的低延时高吞吐量,可以实时满足更多的请求。但其他解决方案在成本、功耗具有优势,特定市场竞争格局相对激烈,工作负载不同对应的芯片性能需求不同,T4PCIe,有望出现各类芯片共存的局面。
国内算力芯片厂商具备较好的入局机会。国产算力芯片市场需求巨大,国内人工智能生态环境较好,在AI应用领域的步伐处于全球前列,国产GPU厂商具孵化和发展的沃土,国内厂商供应链多元化的需求带来了国内AI芯片厂商适配窗口期,尤其是当前大模型发展早期是适配的黄金窗口期。其中,寒武纪、华为等兼容CUDA和自建生态是国产厂商发展的两大趋势,具备很大的竞争力潜力。短期来看,国内厂商兼容英伟达CUDA,可以减轻开发和迁移难度,进而快速实现客户端导入。同时需要避开英伟达绝对优势领域,在芯片设计结构上形成差异化竞争;长期来看,国产GPU如果完全依赖CUDA生态,硬件更新将不得不绑定英伟达的开发进程,应借鉴AMD、Google构建自身生态体系,开展软硬件结合的平台化布局,并打造不同领域快速落地垂直解决方案的能力,铸造自己的生态圈核心壁垒。预计硬件性能高效以及能够构建符合下游需求的生态体系的国产厂商有望脱颖而出。
2.3先进封装成为高性价比替代方案,存算一体应用潜力巨大
2.3.1先进封装:后摩尔定律时代的创新方向,先进制程的高性价比替代方案
大算力芯片要求性能持续提升,后摩尔时代急需高性价比解决方案。随着大模型参数增加,AI大模型对于算力需求大幅提升,GPU等大算力芯片的性能提升遭遇两大瓶颈:一方面,进入28nm以后摩尔定律逐渐失效,先进制程的成本快速提升。根据IBS统计在达到28nm制程节点以后,如果继续缩小制程节点数,每百万门晶体管的制造成本不降反升,摩尔定律开始失效。而且应用先进制程的芯片研发费用大幅增长,5nm制程的芯片研发费用增至5.42亿美元,几乎是28nm芯片研发费用的10.6倍,高额的研发门槛进一步减少了先进制程的应用范围。另一方面,内存带宽增长缓慢,限制处理器性能。在传统PCB封装中,走线密度和信号传输速率难以提升,因而内存带宽缓慢增长,导致来自存储带宽的开发速度远远低于处理器逻辑电路的速度,带来“内存墙”的问题。
为了使异构集成的Chiplet封装实现,需要借助到2D/2.1D/2.3D/2.5D/3D等一系列先进封装工艺。先进封装的不同层次主要依据多颗芯片堆叠的物理结构和电气连接方式划分,例如2D封装中的芯片直接连接到基板,其他封装则以不同形式的中介层完成互联。其中,2.5D封装常用于计算核心与HBM的封装互连,3D封装常用于HBM显存的多层堆叠,并有望用于不同IC的异构集成。
1)CoWoS:2.5D封装重要解决方案,实现计算核心与HBM封装互连
计算核心与HBM通过2.5D封装互连,台积电开发的CoWoS封装技术为广泛使用的解决方案。台积电早在2011年推出CoWoS技术,并在2012年首先应用于Xilinx的FPGA上。此后,华为海思、英伟达、谷歌等厂商的芯片均采用了CoWoS,例如GP100(P100显卡核心),TPU2.0。如今CoWoS已成为HPC和AI计算领域广泛应用的2.5D封装技术,绝大多数使用HBM的高性能芯片,包括大部分创企的AI训练芯片都应用了CoWoS技术。
CoWoS-S基于硅中介层(Si-interposer)为先进SoC和HBM提供系统集成,在GPU等算力芯片的封装中应用广泛。CoWoS-S的特点是混合了宽带内存模块HBM(HighBandwidthMemory)和大规模SoC的高性能子系统,通过Si中介层连接HBM和SoC,实现了宽带内存访问。CoWoS-S最早于2011年开发,经历5代发展。最初,安装在中介层上的硅芯片是多个逻辑芯片,采用该技术的赛灵思高端FPGA“7V2000T”在CoWoS-S中配备了四个FPGA逻辑芯片。第3代开始支持逻辑和内存的混合加载。第5代CoWoS-S技术使用了全新的TSV解决方案,更厚的铜连接线,晶体管数量是第3代的20倍,硅中介层扩大到2500mm2,相当于3倍光罩面积,拥有8个HBM2E堆栈的空间,容量高达128GB。第6代技术有望于2023年推出,将会在基板上封装2颗运算核心,同时可以板载多达12颗HBM缓存芯片。
CoWoS帮助台积电取得英伟达、AMD等高性能计算芯片订单。根据DIGITIMES报道,微软已与台积电及其生态系统合作伙伴接洽,商讨将CoWoS封装用于其自己的AI芯片。英伟达高端GPU都采用CoWoS封装技术将GPU芯片和HBM集合在一起。TeslaP100通过加入采用HBM2的CoWoS第三代技术,将计算性能和数据紧密集成在同一个程序包内,提供的内存性能是NVIDIAMaxwell架构的三倍以上。V100、A100、等高端GPU,均采用台积电CoWoS封装,分别配备32GBHBM2、40GBHBM2E内存,全新Hopper架构的H100GPU也采用CoWoS封装,具有80GB的HBM3内存和超高的3.2TB/s内存带宽。AMD也将重新采用CoWoS封装。根据DIGITIMES报道,AMDMI200原本由日月光集团与旗下矽品提供,应用FO-EB先进封装(扇出嵌入式桥接),而新MI系列数据中心加速器芯片将重新采用台积电先进封装CoWoS。基于AldebaranGPU的MI250或采用第五代CoWoS封装技术,可实现128GBHBM2E内存等超高性能配置。
2)HBM:3D封装打造多层堆叠内存,突破容量与带宽瓶颈
HBM采用3D封装,通过TSV将多个DRAMdie垂直堆叠。在后摩尔时代,存储带宽制约了计算系统的有效带宽,导致芯片算力性能提升受到限制,HBM应运而生,与传统DRAM不同,HBM是3D结构,它使用TSV技术将数个DRAM裸片堆叠起来,形成立方体结构,即DRAM芯片上搭上数千个细微孔并通过垂直贯通的电极连接上下芯片;DRAM下面是DRAM逻辑控制单元,对DRAM进行控制。从技术角度看,HBM促使DRAM从传统2D加速走向立体3D,充分利用空间、缩小面积,契合半导体行业小型化、集成化的发展趋势。HBM和硅互联技术突破了内存容量与带宽瓶颈,被视为新一代DRAM解决方案。而相较传统封装方式,TSV技术能够缩减30%体积,并降低50%能耗。
3)3DIC:多芯片垂直堆叠增强互联带宽,未来发展潜力巨大
3DIC是指使用FAB工艺在单个芯片上堆叠多个器件层,包括多Logic芯片间的堆叠。与2.5D封装相比,3DIC封装在互连方式有所不同。2.5D封装是通过TSV转换板连接芯片,而3DIC封装是将多个芯片垂直堆叠在一起,并通过直接键合技术实现芯片间的互连。在2.5D结构中,两个或多个有源半导体芯片并排放置在硅中介层上,以实现极高的芯片到芯片互连密度。在3D结构中,有源芯片通过芯片堆叠集成,以实现最短的互连和最小的封装尺寸。另一方面,2.5D封装和3DIC封装的制造工艺也有所不同,2.5D封装需要制造硅基中介层,并且需要进行微影技术等复杂的工艺步骤;而3DIC封装需要进行直接键合技术等高难度的制造工艺步骤。当前3DIC封装主流产品包括台积电SoIC技术、英特尔Foveros技术和三星X-Cube技术。
2.3.2存算一体:解决传统冯诺依曼架构“存储墙”,能效比提升潜力巨大
PIM:用硅通孔(ThroughSiliconVia,TSV,2010年实现)技术将计算单元塞进内存上下bank之间。CIM:计算操作由位于存储芯片/区域内部的独立计算单元完成,存储和计算可以是模拟的也可以是数字的。这种路线一般用于算法固定的场景算法计算。目前主要路线是基于NORflash,多数情况下存储容量较小,这使得NORflash单片算力达到1TOPS以上器件代价较大,通常业内大算力一般是20-100TOPS以上。而其他存储器,包括SRAM、RRAM等,可以用来做到大算力的存算一体。
三、AI服务器渗透率快速提升
3.1AI服务器是算力基础设施最主要的硬件,训练型主要成本来自于GPU芯片
3.1.1AI服务器采用异构架构,主流结构为CPU+多颗GPU
与普通服务器的绝大多数空间分配给CPU相比,AI服务器是采用异构形式的服务器,在异构方式上可以根据应用的范围采用不同的组合方式,一般采取CPU+多颗GPU的架构,也有CPU+TPU、CPU+其他的加速卡等组合。相较普通服务器,AI服务器更擅长并行运算,具有高带宽、性能优越、能耗低等优点。在大模型的预训练中,一方面侧重对文本上下文的理解,另一方面算法上存在大量的向量、矩阵计算,这让并行计算的AI服务器更擅长处理大模型的预训练任务。人工智能与通用大模型作为数字经济中的新兴行业,带动了大量的算力需求,也成为国内算力基础设施建设中最主要的硬件之一。
以GPU为核心的异构服务器未来将成为主流。对比CPU和GPU的内部架构,CPU采用整块的ALU(运算单元),且大量空间用于控制单元和缓存,串行计算能力强;而GPU采用分立的大量ALU,很少空间分配给控制单元和缓存,并行计算能力强。而由于图像识别、视觉效果处理、虚拟现实、大模型训练等任务都包含大量的简单重复计算、矩阵计算等,更适合用搭载GPU更多的异构型AI服务器进行处理,而随着企业的智能化变革和通用大模型的兴起,以GPU为核心的异构型AI服务器将在算力基础设施建设中占据愈发重要的地位。
3.1.2AI服务器产业链上下游&成本结构拆解
通用服务器成本主要由CPU、存储、内存及其他部分构成,而AI服务器由于采用了多颗GPU芯片组成异构架构,其成本构成也会发生变化。具体来看,训练型AI服务器由于需要处理大量数据,具备更强的计算能力,训练芯片价格显著高于推理芯片。训练型AI服务器成本中,约7成以上由GPU构成,其余CPU、存储、内存等占比相对较小。对于推理型服务器,其GPU成本约为2-3成,整体成本构成与高性能型相近。
3.2AI服务器市场规模有望保持高速增长,当前订单饱满
3.2.1全球AI服务器近三年将保持高速增长
根据IDC数据,2022年全球AI服务器市场规模202亿美元,同比增长29.8%,占服务器市场规模的比例为16.4%,同比提升1.2pct。我们认为随着数据量的持续提升,大模型参与玩家和单个模型参数量提升,以及数字化转型推进等多因素影响,AI服务器市场规模将继续保持较快增长。结合2.1.3节图表45我们对于大语言模型带来AI芯片的增量需求测算,我们认为2023-2025年全球AI服务器有望实现高速增长。以目前企业对于AI服务器的实际需求来看,虽然推理端需求更为旺盛,但从采购角度更倾向于搭载A100/A800GPU的训练/推理一体服务器。因此我们结合3.1.2节对于训练型、推理型AI服务器的成本拆解测算,预估2023-2025年增量的GPU需求约占AI服务器成本比重为70%。此外,随着包括H100/H800等新一代芯片的推出、算法迭代升级均有望带来整体效率提升,AI服务器增量市场空间可能略低于大模型需求预期。结合上述假设,我们认为全球AI服务器市场规模未来3年内将保持高速增长,市场规模分别为395/890/1601亿美元,对应增速96%/125%/80%。由于互联网厂商等主要下游客户倾向于为未来潜在需求提前备货,因此2023年市场增速可能高于预测值,同时2024、2025年市场增速可能略低于预测值。
3.2.2中国AI服务器近三年将保持高速增长
根据IDC数据,2022年中国AI服务器市场规模67亿美元,同比增长24%。其中GPU服务器占据主导地位,市场份额为89%至60亿美元。同时,NPU、ASIC和FPGA等非GPU加速服务器以同比12%的增速占有了11%的市场份额,达到7亿美元。在大模型浪潮到来前,由数字经济和“东数西算”等政策影响下,中国AI算力在2021年实现了68.2%的同比高速增长。据浪潮信息、国际数据公司(IDC)和清华大学联合推出的《2021-2022全球计算力指数评估报告》显示,中国AI算力发展领跑全球,AI服务器支出规模位列全球第一。我们认为,在大模型浪潮下,叠加数字经济、东数西算带动的数据中心、智算中心建设,AI服务器市场中我国的份额在当前约全球1/3比例上有望进一步提升。我们预计,2023-2025年,结合对于全球AI服务器市场规模的预判,以及对于我国份额占比持续提升的假设,我国AI服务器市场规模有望达到134/307/561亿美元,同比增长101%/128%/83%。由于互联网厂商等主要下游客户倾向于为未来潜在需求提前备货,因此2023年市场增速可能高于预测值,同时2024、2025年市场增速可能略低于预测值。
3.2.3当前AI服务器厂商在手订单充分,AI服务器市场高增长确定性较强
3.3AI服务器市场集中度有望提升,国内厂商呈现一超多强格局
3.3.1全球AI服务器竞争格局
据IDC数据,2022年上半年全球AI服务器市场中,浪潮信息、戴尔、惠普、联想、新华三分别以15.1%、14.1%、7.7%、5.6%、4.7%的市场份额位居前五位。市场格局相对分散,龙头厂商份额较为接近。此外,由于以北美云厂商为主的需求方偏向于采用ODM模式,因此非品牌商份额占比较高,接近50%。
3.3.2中国AI服务器竞争格局
据IDC数据,2022年我国AI服务器市场按销售额统计市场份额中,浪潮信息、新华三、宁畅位居前三位,市场份额分别为47%、11%、9%。市场格局呈现一超多强局面,除浪潮外其与厂商份额相对接近。由于国内头部厂商采用类ODM模式服务互联网客户,因此ODM厂商份额占比偏低。
3.3.3AI服务器竞争格局未来演进趋势
3.4全球服务器市场规模预计保持平稳
3.4.1通用服务器仍处库存去化阶段,全球市场规模预计将出现下滑
根据研究机构TrendForce5月17日发布的报告,2023年服务器市场需求展望不佳,再次下调今年全球服务器整机出货量预测至1383.5万台,同比减少2.85%。TrendForce称,美国谷歌、微软、Meta、亚马逊四大互联网公司陆续下调服务器采购量;同时戴尔、HPE等OEM厂商也在2~4月间下调全年出货量预估,同比分别减少15%、12%;此外,受国际形势以及经济因素等多种因素导致全年服务器需求展望不佳。2023年Q1受淡季效应以及终端库存修正的影响,全球服务器出货量环比减少了15.9%。TrendForce对于二季度产业回暖信心偏低,产业旺季并未如期发生,环比增长预估仅为9.23%。此外,ESG方面的讨论使得美国四大互联网公司延长服务器的使用年限,进而降低采购量,控制资本支出,这也是影响服务器市场的因素之一。预计库存去化完成将在今年下半年或明年上半年到来,若库存去化进度不及预期,全年服务器市场规模预测可能会进一步下调。
3.4.2AI服务器出货量占比进一步提升,对全球服务器市场整体出货量贡献有限
四、AI正在推动高速率光模块需求放量
在传统的数据中心中,网络侧主要包括传统树形三层架构和叶脊架构。早期的数据中心一般采用传统的三层结构,包括接入层、汇聚层和核心层,其中接入层用于连接计算节点与机柜交换机,汇聚层用于接入层的互联,核心层用于汇聚层的互联且实现与外部网络连接。随着数据中心内部东西向流量的快速提升,三层网络架构的核心层和汇聚层任务加重,性能提升需求高,设备成本将大幅提升。因此,适用于东西向流量的扁平化的叶脊网络架构应运而生,叶交换机直接与计算节点相连,脊交换机相当于核心交换机,通过ECMP动态选择多条路径。叶脊网络架构具备带宽利用率高、扩展性好、网络延迟可预测和安全性高等优势,在数据中心中实现广泛的应用。
AI数据中心中,由于内部数据流量较大,因此无阻塞的胖树网络架构成了重要需求之一。英伟达的AI数据中心中,采用了胖树(fat-tree)的网络架构来实现无阻塞的功能。胖树的网络架构基本理念为:使用大量低性能的交换机,构建出大规模的无阻塞网络,对于任意的通信模式,总有路径让他们的通信带宽达到网卡带宽,架构中用到的所有交换机都是相同的。胖树网络架构一般用于网络要求较高的数据中心中,如超算中心和AI数据中心等。
英伟达的A100GPU主要对应200G光模块,H100GPU可以对应400G或800G光模块。每个A100GPU配一张MellanoxHDR200Gb/sInfiniband网卡,每个H100GPU配一张MellanoxNDR400Gb/sInfiniband网卡。英伟达在H100SuperPOD的设计中,采用了800G的光模块,在光口采用1个800G光模块可以替代2个400G光模块,在电口也可以将8个SerDes通道进行整合,与光口的8个100G通道一一对应。因此这种设计下,交换机的通道密度提高,物理尺寸显著降低。
NVLink带宽远大于网卡侧的PCIe带宽,因此若将NVLink从服务器内部GPU互连拓宽至不同服务器之间的GPU的互连,将显著提升系统的带宽。若要实现不同服务器之间按照NVLink协议的GPU互连,除了需要采用NVSwitch芯片的物理交换机,还需要物理器件来实现交换机和服务器之间的连接,那么光模块也成为了重要的组成部分,从而也会大幅增长800G光模块的需求。近日,英伟达创始人兼CEO黄仁勋在NVIDIAComputex2023演讲中宣布,生成式AI引擎NVIDIADGXGH200现已投入量产。GH200通过NVLink4的900GB/s超大网络带宽能力来提升算力,服务器内部可能采用铜线方案,但服务器之间我们认为可能会用光纤连接。对于单个256GH200芯片的集群,计算侧1个GH200对应9个800G光模块;对于多个256的GH200集群,计算侧1个GH200对应12个800G光模块。
硅光子技术是以硅或硅基材料(Si,SiO2,SiGe)作为衬底材料,利用与集成电路兼容的CMOS工艺制造对应的光子器件和光电器件,以实现对光的激发,调制,响应等,广泛应用于光通信,光传感,高性能计算等。数通领域的硅光模块同样实现了大规模商用,未来份额有望不断提升。随着数据中心的快速发展,对于光模块的需求爆发式增长,多家厂商开始大力研发用于数据中心的硅光模块。初期是40G硅光数通光模块小规模应用,Intel和Luxtera的100G硅光模块大规模应用,目前400G的硅光模块已经实现量产,800G亦在验证中。目前国内的硅光模块厂商具备较强的竞争力,包括中际旭创、新易盛、华工科技等公司有自研的硅光芯片,博创科技等公司与海外硅光芯片巨头厂商深度合作,有望在800G光模块市场取得突破。
我们认为,本轮光模块板块行情可以参考2016-2018H1与2019H2-2020H1。数通光模块行业在2016-2018H1处于景气周期,中际旭创期间股价表现较好,2018H2-2019H1全球云计算及互联网巨头资本开支迎来调整,期间股价也下行。北美FAAM(Facebook、Amazon、Alphabet、Microsoft)2016-2018Capex增速为29.65%、27.94%、62.74%,虽然2018年全年增速强劲,但2018Q3起增速显著放缓。经过近3年(2016-2018H1)的景气周期,云厂商基础设施如服务器、光网络等利用率不够饱满,相当于计算、存储、网络能力有一定的“库存”,叠加宏观经济及中美摩擦导致的不确定性,企业信息化投入收缩,企业上云放缓,互联网巨头面临增长压力,因此资本开支增速明显放缓,直至2019Q1资本开支负增长。
五、AI将会拉动交换机市场需求
AI带来数据中心的网络架构变化,光模块速率及数量均有显著提升,因此交换机的端口数及端口速率也有相应的增长。以ChatGPT为代表的AIGC技术,依靠强大的AI模型和海量数据,能够在多个应用场景下产生优质的内容,有望推动人工智能更广泛的应用。算力作为AIGC技术的重要支撑之一,是影响AI发展与应用的核心因素。算力基础设施成了目前行业亟需布局的资源,除了CPU/GPU等算力硬件需求强劲,网络端也催生了更大带宽需求,以匹配日益增长的流量。与传统数据中心的网络架构相比,AI数据网络架构会带来更多的交换机端口的需求。
训练侧大概率会采用Infiniband或者类IB的低时延网络协议,推理侧预计会采用以太网协议的交换机。InfiniBand是一种开放标准的高带宽,低时延,高可靠的网络互联技术,随着人工智能的兴起,也是GPU服务器首选的网络互联技术。相比较以太网协议的网络,Infiniband网络在带宽、时延、网络可靠性、和组网方式上都有一定的优势。当然,以太网的兼容性更好,成本更低,可以应用在各种应用场景中,适配各种不同的设备终端。AI训练端对时延要求较高,因此训练侧大概率会采用Infiniband网络,也可以采用ROCE网络,即基于以太网的RDMA技术,也能够达到较低的时延。而英伟达NVLink技术,其带宽大幅提升,NVLink4的双向带宽可以达到900GB/s,在训练侧也将具备较强的优势。在推理侧,我们认为网络协议可以沿用云计算数据中心的以太网。
交换机中SerDes的功耗大幅提升。随着单个SerDes带宽提升带来功耗的提升,同时结合SerDes数量的提升,未来SerDes的总功耗在交换机中的功耗占比将大幅提升。网络部分的功耗在数据中心中的功耗大幅提升:根据Facebook的测算,随着数据中心内部流量的大幅提升,网络部分的功耗占比增加明显,到下一代网络部分的功耗占比将从现在的2%左右提升到20%左右。传输距离越近,SerDes功耗越低。缩短交换机和光模块之间电信号需要传输的距离,可以简化Serdes芯片的功能,同时降低电信号的发射功率,从而降低SerDes的功耗。
六、AI提升大功率IDC机柜需求,液冷渗透率随之提升
6.1“东数西算”统筹全国算力网络建设,云计算需求可能将回暖
2021年5月,发改委、网信办、工信部、能源局联合印发《全国一体化大数据中心协同创新体系算力枢纽实施方案》,明确提出布局全国算力网络国家枢纽节点,启动实施“东数西算”工程,构建国家算力网络体系。《全国一体化大数据中心协同创新体系算力枢纽实施方案》围绕国家重大区域发展战略,根据能源结构、产业布局、市场发展、气候环境等,在京津冀、长三角、粤港澳大湾区、成渝以及贵州、内蒙古、甘肃、宁夏等地布局建设全国一体化算力网络国家枢纽节点,引导数据中心集约化、规模化、绿色化发展,构建数据中心集群。国家枢纽节点间将进一步打通网络传输通道,加快实施“东数西算”工程,提升跨区域算力调度水平。
根据《全国一体化大数据中心协同创新体系算力枢纽实施方案》要求,京津冀、长三角、粤港澳大湾区、成渝等节点,用户规模较大、应用需求强烈,要重点统筹好城市内部和周边区域的数据中心布局,优化数据中心供给结构,扩展算力增长空间,满足重大区域发展战略实施需要,城市内部加快对现有数据中心的改造升级,优先满足对实时性要求高的业务需求。贵州、内蒙古、甘肃、宁夏等节点,可再生能源丰富、气候适宜、数据中心绿色发展潜力较大,要重点提升算力服务品质和利用效率,充分发挥资源优势,夯实网络基础保障,积极承接全国范围需后台加工、离线分析、存储备份等非实时算力需求,打造面向全国的非实时性算力保障基地。
6.2AI大算力服务器需要高功率机柜,液冷或成必选项
人工智能大模型训练和推理运算所用的GPU服务器的功率密度将大幅提升,以英伟达DGXA100服务器为例,其单机最大功率约可以达到6.5kW,大幅超过单台普通CPU服务器500w左右的功率水平。在此情况下,一方面需要新建超大功率的机柜,另一方面为降低PUE,预计液冷温控渗透率将快速提升。PUE值是衡量IDC能效的重要指标。PUE的计算方法为数据中心的总耗电量比上IT设备的耗电量,数值越接近1,表明IDC的能效越高。根据赛迪顾问的统计数据,2019年中国数据中心的能耗中约有43%是用于IT设备的散热,基本与45%的IT设备自身的能耗持平。因此,设备散热能耗成为降低PUE的关键影响因素。
液冷数据中心适合提供高密算力,提升单柜部署密度,提高数据中心单位面积利用率。根据《冷板式液冷服务器可靠性白皮书》数据显示,液体相对空气能够传热更快(相差20-25倍),能够带走更多热量(相差2000-3000倍),给高密部署提供了较好方案。通常液冷数据中心单机柜可以支持30kW以上的散热能力,并能较好演进到100kW以上。自然风冷的数据中心单柜密度一般只支持8kW-10kW,冷热风道隔离的微模块加水冷空调水平制冷在15kW以上性价比将大幅降低,相比较而言液冷的散热能力和经济性均有明显优势。由于AIGC的发展,大功率AI服务器出货量有望快速增长,进而要求单机柜功率要明显提升,业界已经开始规模建设20kW、30kW功率的机柜。同时,数据中心降PUE也是刚需。在此背景下,由于风冷技术在高功率机柜制冷方面的短板比较明显,因此液冷有望成为AI大算力数据中心的主要制冷方案。
无论是冷板式液冷还是浸没式液冷,都需要数据中心温控和ICT设备厂商彼此配合,此前市场对于产业链的协作问题存在疑虑。目前在AI算力需求的推动下,服务器厂商已经开始大力布局液冷服务器产品,液冷的产业化进度有望加速。2022年,浪潮信息将“Allin液冷”纳入公司发展战略,全栈布局液冷,实现通用服务器、高密度服务器、整机柜服务器、AI服务器四大系列全线产品均支持冷板式液冷,建成年产能10万台的亚洲最大液冷数据中心研发生产基地,实现了业界首次冷板式液冷整机柜的大批量交付。2022年,中兴通讯发布了《中兴通讯液冷技术白皮书》,公司建设的全液冷数据中心项目获得了2022年CDCC数据中心科技成果奖,近期公司G5系列服务器在泰国进行海外市场首发,支持液冷散热技术,采用冷板式液冷散热。
6.3人工智能算力需求有望推动海底数据中心规模化发展
我们认为,海底数据中心可能将迎来产业化的关键节点。一是中国通信工业协会已于2022年12月14日批准发布标准T/CA303—2022《水下数据中心设计规范》。二是中国及全球近两年海上风力发电取得大发展,海底数据中心可就近消纳海上风电。三是东部沿海城市算力及IDC需求旺盛,海底数据中心可就近满足需求。四是AIGC需要单机柜功耗可能达几十kW,海底数据中心单机柜功率可达35kW左右,利用海水冷却,无压缩机运行,单舱PUE可以低于1.10,且无需冷却塔,可节约大量的水资源。五是全球在海底数据中心布局领先的是微软,2015年开始启动测试,两次测试都成功,2022年美国subseacloudus计划推出商用海底数据中心。
国内第一个水下数据中心标准已发布并已开始实施。中国通信工业协会已于2022年12月14日批准发布标准T/CA303—2022《水下数据中心设计规范》,该标准于2023年1月1日起开始实施。该标准遵循开放、公平、透明、协商一致和促进贸易和交流的原则,按照全国团体标准信息平台公布的标准制定程序文件制定,由深圳海兰云数据中心科技有限公司、中国通信工业协会数据中心委员会、中国长江三峡集团有限公司、海洋石油工程股份有限公司、维谛技术有限公司、清华大学等单位共同起草。该标准适用于指导和规范新建、改建和扩建部署于海洋的水下数据中心设计工作。《水下数据中心设计规范》基于海底数据中心水下密封、无氧无尘、空间受限、无人值守等特点,规定了水下数据中心的分级与性能要求、选址与系统组成、水下舱体系统设计要求、电气系统设计要求、空调系统设计要求、监控系统设计要求、网络与布线系统设计要求、动力与通讯缆线系统设计要求、消防与安全系统设计要求。部署于湖泊、江水等水下数据中心亦可参照执行。
6.3.2海上风电已经实现规模化发展,有望与海底数据中心结合产生新商业模式
经历了2020-2021年海风抢装潮,国内海上风电产业链加速成熟。我国海上风电探索起源于2007年。是年11月8日,首座安装有1台金风科技1.5MW风电机组的海上风电项目在渤海绥中油田建成发电,经历了十余年的发展,2020年末,我国海上风电装机量达到了9.89GW。2019年5月24日,国家发改委发布《关于完善风电上网电价政策的通知》,提出将海上风电标杆上网电价改为指导价,新核准海上风电项目全部通过竞争方式确定上网电价;对2018年底前已核准的海上风电项目,如在2021年底前全部机组完成并网的,执行核准时的上网电价(约0.85元/千瓦时,补贴力度超0.4元/千瓦时),极具诱惑力的补贴价格,带来了海上风电的抢装潮,仅2021年中国海上风电新增装机量超过16.9GW,抢装也加速了我国海风产业链的成熟,2010年我国海上风电的单GW造价水平大约在240亿左右,目前已经降至120-130亿元。截至2022年末,中国海上风电装机量达30.51GW。
6.3.3海底数据中心节能优势突出,可较好满足沿海地区的旺盛算力需求
6.3.4全球海底数据中心建设案例——微软Natick项目
微软Natick项目未来的第三阶段被描述为“试点”。具体来说,微软将为Natick项目的第3阶段建立一个“更大规模”的水下数据中心,该数据中心“可能是多艘船”,并且“可能是与第二阶段不同的部署技术”。微软Natick项目的第3阶段将被放置在大于117英尺(36米)的深度。微软通过Natick项目探索了海底数据中心发展的潜力。Natick项目第二阶段测试结果显示,海底数据中心的PUE为1.07,故障率是地面数据中心故障率的八分之一。同时,微软通过Natick项目发现,水下数据中心可实现快速部署,并可密封在类似潜艇的管道内,在海床上运行多年,而无需人工进行任何现场维护。初步分析表明,服务器在水下具有卓越性能的主要原因是避免了湿气和氧气的腐蚀。但需要注意的是,目前海底数据中心也存在发展瓶颈。一是海底数据中心需要高额的建设成本,包括购买数据舱、服务器、布线、配电系统、通信系统等。二是海底数据中心的技术难度大,需要具备海洋环境下的建设、抗潮汛、抗海浪、抗噪声等技术。三是海底数据中心的运维工作复杂,由于海底环境条件复杂多变,需要特殊的技术和设备才能完成运维工作。