超万卡集群的新型智算技术

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2024.06.09上海

随着大模型从千亿参数的自然语言模型向万亿参数的多模态模型升级演进,超万卡集群亟需全面提升底层计算能力。具体而言,包括增强单芯片能力、提升超节点计算能力、基于DPU(DataProcessingUnit)实现多计算能力融合以及追求极致算力能效比。这些系统性的提升将共同支持更大规模的模型训练和推理任务,满足迅速增长的业务需求。

1、单芯片能力

超万卡集群中,单芯片能力包括单个GPU的计算性能和GPU显存的访问性能。在单个GPU计算性能方面,首先需要设计先进的GPU处理器,在功耗允许条件下,研发单GPU更多并行处理核心,努力提高运行频率。其次,通过优化高速缓存设计,减少GPU访问内存延迟,进一步提升单GPU芯片运行效率。第三,优化浮点数表示格式,探索从FP16到FP8浮点数的表示格式,通过在芯片中引入新的存储方式和精度,在保持一定精度条件下,大幅提升计算性能。最后,针对特定计算任务,可在GPU芯片上集成定制化的硬件加速逻辑单元,这种基于DSA(DomainSpecificArchitecture)的并行计算设计,可提升某些特定业务领域的计算速度。

在GPU显存访问性能方面,为了将万亿模型的数据布放在数万张GPU显存上,要求显存支持高带宽、大容量的能力,确保计算单元能够高效完成访存任务,维持系统的低能耗运行。为便捷访问显存数据,建议GPU显存采用基于2.5D/3D堆叠的HBM技术[6],减少数据传输距离,降低访存延迟,提升GPU计算单元与显存之间的互联效率。

通过这些技术的实施,超万卡集群不仅能够为智算中心提供强大的单卡算力处理能力,还能为未来更大规模的模型训练和推理任务奠定坚实的硬件基础。

2、超节点计算能力

针对万亿模型的训练与推理任务,特别是在超长序列输入和MoE架构的应用背景下,应重点优化巨量参数和庞大数据样本的计算效率,满足由此引发的All2All通信模式下的GPU卡间通信需求。为此,建议超万卡集群的改进策略集中在以下几个关键领域:

●加速推进超越单机8卡的超节点形态服务器

为满足万亿或更大参数量模型的部署需求,建议产业界致力于研制突破单机8卡限制的超节点形态服务器,通过利用提高GPU南向的Scaleup互联能力,提升张量并行或MoE并行对大模型训练任务的收益,实现性能跃升,缩短训练总时长,实现大模型训练整体性能的优化。

●加快引入面向Scaleup的Switch芯片

建议在节点内集成支持Scaleup能力的Switch芯片,以优化GPU南向的互联效率和规模,增强张量并行或MoE并行的数据传输能力。如图2所示,通过引入节点内的Switch芯片,以增强GPU卡间的点对点(PointtoPoint,P2P)带宽,有效提升节点内的网络传输效率,满足大模型日益增长的GPU互联和带宽需求为大规模并行计算任务提供强有力的硬件支持。

●优化GPU卡间互联协议

以实现通信效率跃升建议对GPU卡间互联协议进行系统性优化和重构,以提升All2All模式下的通信效率。通过重新设计卡间通信过程中的数据报文格式、引入CPO/NPO、提高和优化SerDes传输速率、优化拥塞控制和重传机制以及多异构芯片C2C(Chip-to-Chip)封装等多种途径,提高超万卡集群的GPU卡间互联的网络利用率,减少通信时延,实现带宽能力跃升,从而支持所需的更高频次、更大带宽和更低延迟通信特性。

3、多计算能力融合

面向超万卡集群,考虑到智算中心内部成倍增长的数据交换需求,通过堆叠CPU资源来处理网络数据的做法无疑是低效且昂贵的,对此,智算中心的计算架构需要转变方向,将原本运行在CPU、GPU中的数据处理任务卸载至具有层级化可编程、低时延网络、统一管控等特性的DPU上执行,在大幅扩展节点间算力连接能力的同时,释放CPU、GPU的算力,降低节点间的CPU、GPU协作成本,支撑集群发挥更大的效能。

具体地,可以对智算中心进行软硬一体重构,打造计算、存储、网络、安全、管控五大引擎,定义标准化的DPU片上驱动内核:

●计算引擎卸载加速I/O设备的数据路径与控制路径,面向节点提供标准化的virtio-net(Virtuall/ONetwork)、virtio-blk(Virtiuall/Oblock)后端接口,屏蔽厂商专用驱动。

●存储引擎在DPU上实现存储后端接口,可基于传统TCP/IP网络协议栈或RDMA(RemoteDirectMemoryAccess)网络功能连接块存储集群、对象存储集群、文件存储集群及文件存储集群,将节点的全类型存储任务卸载至DPU中完成。

●网络引擎将虚拟交换机卸载至DPU上,采用标准的流表和卸载接口实现网络流量的卸载,全线速释放硬件性能;同时集成RDMA网络功能,降低多机多卡间端到端通信时延,提升多机间端到端通信带宽至400G级别,构建节点间数据交换的“高速通道”。

●安全引擎通过信任根机制以及标准的IPsec等加密通讯协议对系统和多租户网络进行安全防护,并基于DPU提供有效的卸载方案。

●管控引擎屏蔽裸金属、虚拟机和容器等算力单元的形态差异,实现DPU资源统一管理和全链路管控运维。

●以上述五大引擎为蓝图,中国移动于2020开始打造具有自主知识产权的磐石DPU,并于2021年正式推出磐石DPU版本。经过移动云现网的打磨,中国移动持续升级磐石DPU产品能力,并于2024年将磐石DPU的FPGA架构全面升级为ASIC架构,旨在围绕磐石DPU软硬融合重构算力基础设施,重新定义算力时代云计算技术新标准,构建算力时代新技术曲线。

将以磐石DPU为代表的DPU芯片融入现有智算中心技术体系,将算力集群由CPU+GPU双平台支撑扩展至由CPU+GPU+DPU三平台支撑,可以有效联合集群节点间因数据I/O瓶颈而产生的算力孤岛,突破现有技术架构下的集群规模极限,使超万卡集群成为可能。

4、极致算力能效比

在制程工艺相对固定的条件下,芯片的高性能无疑会增加芯片的功耗,从而影响整机的散热。面对高性能计算芯片功率密度急剧上升的现状,需要通过制冷系统和GPU芯片两方面进行优化。

在制冷系统方面,当前单机8卡GPU服务器功耗已经数倍于通用服务器,由于GPU的散热量大幅增加,为了增加计算密度,节省空间,超万卡集群建议采用当前较成熟的高密度冷板式液冷机柜,一个液冷机柜可容纳多台液冷GPU训练服务器,相比传统风冷机柜大幅提升空间利用率。

在GPU芯片方面,为了提升GPU单芯片的能效比,应采取多领域的优化策略,实现高性能与低能耗之间的平衡。在芯片工艺领域,建议采用更加先进的半导体制造工艺,如7nm或更小的特征尺寸,以此降低晶体管的功耗,同时提升单芯片集成度。此外,应加强超万卡集群内GPU架构的创新设计,包括优化片上总线设计、改进流水线结构、优化电压和频率策略以及精确的时钟门控技术,从而在不同工作状态下实现最优的能耗效率。在软件层面,超万卡集群应采用更加精细的监控和分析,实时跟踪GPU的运行数据,并不断优化算法和工作负载分配,以实现更加均衡和高效的算力利用。通过上述设计和优化,不仅能提高用户的计算体验,降低成本,也为智算中心可持续发展和绿色环保提出了可行方案。

5、高性能融合存储技术

为了实现存储空间高效利用、数据高效流动,并支持智算集群大规模扩展,超万卡集群应采用多协议融合和自动分级存储技术,提升智算数据处理效率,助力超万卡集群支撑千亿乃至万亿大模型训练。

6、多协议融合

超万卡集群融合存储底座承载Al全流程业务数据处理,兼容Al全流程工具链所需的NFS(NetworkFileSystem)、S3(SampleStorageService)和并行客户端POSIX(PortableOperatingSystemInterface)等协议,支持各协议语义无损,达到与原生协议一样的生态兼容性要求,在不同阶段实现数据零拷贝和格式零转换,确保前一阶段的输出可以作为后一阶段的输入,实现Al各阶段协同业务的无缝对接,达到“零等待”效果,显著提升大模型训练效率。

7、集群高吞吐性能

为满足超万卡集群大模型对于存储高吞吐性能需求,基于全局文件系统技术,可支持超3000节点扩展规模,为大模型训练提供百PB级全闪存储大集群能力,从闪存密度、数据面网络、并行客户端和对等通信机制等多个维度全面提升存储系统性能,实现存储集群10TB/s级聚合吞吐带宽、亿级IOPS,智能算力利用率提升20%以上,大模型checkpoint恢复时长从分钟级提升至秒级,同时对高价值智算存储数据提供强一致性访问和99.9999%可靠性能力。

8、大规模机间高可靠网络技术

超万卡集群网络包括参数面网络、数据面网络、业务面网络、管理面网络。业务面网络、管理面网络一般采用传统的TCP方式部署,参数面网络用于计算节点之间参数交换,要求具备高带宽无损能力。数据面网络用于计算节点访问存储节点,也有高带宽无损网络的诉求。超万卡集群对参数面网络要求最高,主要体现在四个方面:大规模,零丢包,高吞吐,高可靠。

目前业界成熟的参数面主要包括IB(InfiniBand)和RoCE两种技术。面向未来Al大模型演进对网络提出的大规模组网和高性能节点通信需求,业界也在探索基于以太网新一代智算中心网络技术,包括由中国移动主导的全调度以太网(GlobalScheduledEthernet,GSE)方案[6]和LinuxFoundation成立的超以太网联盟(UltraEthernetConsortium,UEC),两者通过革新以太网现有通信栈,突破传统以太网性能瓶颈,为后续人工智能和高性能计算提供高性能网络。中国移动也将加速推动GSE技术方案和产业成熟,提升Al网络性能,充分释放GPU算力,助力Al产业发展。

9、大规模组网

根据不同的Al服务器规模,参数面网络推荐采用Spine-Leaf两层组网或胖树(Fat-Tree)组网。

Spine-Leaf两层组网如图3所示。每8台Leaf交换机和下挂的Al服务器做为一个group,以group为单位进行扩展。在group内部,推荐采用多轨方案将Al服务器连接至Leaf交换机,即所有Al服务器的1号网口都上连至Leafl,所有2号网口上连至Leaf2,依此类推,所有8号网口上连至Leaf8。Spine交换机和Leaf交换机之间采用Fullmesh全连接。Leaf交换机上下行收敛比为1:1。

胖树(Fat-Tree)组网由Leaf交换机、Spine交换机和Core交换机组成,如图4所示。每8台Leaf交换机和下挂的Al服务器做为一个group,8台Leaf交换机又和上面N台Spine交换机组成一个pod,胖树组网以pod为单位进行扩展。在胖树组网中,Spine交换机和Leaf交换机之间采用Fullmesh全连接,所有Spinel都Full-Mesh连接至第一组Core,所有Spine2都Full-Mesh连接至第二组Core,依次类推。Spine交换机和Leaf交换机上下行收敛比都为1:1。

10、高容错高效能平台技术

智算平台是智算中心承载模型训练、推理和部署的综合性平台系统,在智算中心技术体系架构中承担着重要的角色,对算力基础设施进行统一纳管、调度、分配和全生命周期管理,主要包含对计算、存储、网络等laaS资源的云化管控,在此基础上通过云原生的容器底座能力,实现智算资源纳管分配、Al任务作业调度、拓扑感知调度、训练全链路监控等满足智算业务的核心需求。

11、断点续训高容错能力

大模型训练面临的困难在于确保训练任务能够持续进行而不中断。在训练过程中,可能会遇到硬件故障、软件故障、网络故障以及其他故障。这种频繁中断导致的训练进度的损失对于耗时又耗资源的大模型训练来说是难以承受的,需要具备自动故障检测和训练重启。当前业界大模型训练主要容错方案依赖于训练过程中周期性保存checkpoint,故障发生后从上一个周期性checkpoint重新启动训练。

基于平台的运维监控能力,可以实现对超万卡集群的软硬件故障检测和预警,但是当故障发生且导致模型训练中断或停止时,通常需要人工介入排查故障信息,隔离故障并重新触发容器pod资源调度,重新完成并行训练中集合通信的初始化,重新加载基于中断前最近一次保存的checkpoint信息,最后经历算子库的重新编译,完成训练任务的继续。

THE END
1.架构13持久化存储(2)存储相关概念 Mount 和 Volume **Mount:**将外部存储挂载到系统中。 **Volume:**物理存储的逻辑抽象,提供有弹性的分割方式。 Docker 的挂载类型 **Bind:**将宿主机目录挂载到容器中。 **Volume:**Docker 管理的存储资源。 **tmpfs:**内存中的临时存储,不适用于持久化存储。 https://blog.csdn.net/liyou123456789/article/details/144385743
2.configmap数据持久化mob6454cc77b8eb的技术博客Hibernate通过持久化对象Persistent Objects(PO)对数据库进行操作,底层数据库操作 对于应用程序来说是透明的,应用程序无需关心JDBC操作,底层数据库连接、数据库访问实现、事务控制,而是直接以面向对象方式进行持久层的操作。 Hibernate详细的框架体系如下: SessionFactory:是依赖于ConnectionProvider的会话和客户端工厂。 它拥https://blog.51cto.com/u_16099322/12777408
3.GBase数据库在分布式存储中的优化实践GBase 数据库是中国自主研发的关系型数据库,涵盖事务型数据库 GBase8a、分析型数据库 GBase8s 和云原生数据库 GBase8c。 GBase8a 侧重于 OLTP(联机事务处理),适用于高并发小事务场景。 GBase8s 专为OLAP(联机分析处理)设计,支持复杂查询和海量数据分析。 GBase8c 云原生架构,支持容器化和微服务,适用于云计算https://zhuanlan.zhihu.com/p/11969718242
4.LSMTree在存储系统中的优化策略与实践天翼云开发者社区2. 磁盘上的优化 磁盘上的持久存储区(SSTable)是LSM-Tree设计的精髓之一。SSTable的数据结构可以保持有序,同时又能利用磁盘追加写的高性能。在SSTable中,数据按照Key有序地组织,使得查询操作可以通过索引或布隆过滤器来优化查找速度。 磁盘上的SSTable会定期进行合并(Compaction)操作,以优化读性能。合并操作分为Minor https://www.ctyun.cn/developer/article/621618565951557
5.达梦数据申请一种基于ApacheCommonsPool2的SSH连接池专利,降低金融界 2024 年 12 月 13 日消息,国家知识产权局信息显示,达梦数据技术(江苏)有限公司申请一项名为“一种基于 Apache Commons Pool2 的 SSH 连接池装置、方法、设备及存储介质”的专利,公开号 CN 119109965 A,申请日期为 2024 年 9 月。 专利摘要显示,本发明公开了一种基于 Apache Commons Pool2 的 SSH 连https://www.163.com/dy/article/JJ9KPFPE0519QIKK.html
6.sparkcore入门到实战之(6)spark优化从入门到实战大码王(2)尽可能地避免采用含有指针的嵌套数据结构来保存小对象。 (3)考虑采用数字 ID 或者枚举类型以便替代 String 类型的主键。 (4)如果内存少于 32GB,设置 JVM 参数-XX:+UseCom-pressedOops以便将 8 字节指针修改成 4 字节。与此同时,在 Java 7 或者更高版本,设置 JVM 参数-XX:+UseComhttps://www.cnblogs.com/huanghanyu/p/12995617.html
7.学校图书馆管理信息系统开发的可行性研究报告(通用10篇)学校图书馆管理信息系统开发的可行性研究报告 一、项目概述: 该次系统开发的对象是银杏酒店管理学院,开发该系统的目的主要是对有关读者,书籍,借书,还书,存书等方面的信息进行统一管理,本系统结构分为读者信息管理模块、书籍信息管理模块、借阅信息管理模块和管理者信息管理模块。图书馆信息化是对信息管理系统化、科学化https://www.360wenmi.com/f/fileiv3v59e5.html
8.README.md·初九/GPT智能图书管理系统后台Vue2智能GPT图书管理系统(SpringBoot2+Vue2),全局异常拦截器,登录校验拦截器,Echarts展示借阅量,可添加爬虫功能获取图书数据。API认证采用JWT。后端CORS跨域支持。HTTP Status Code表示状态。数据返回格式JSON。接入GPT接口,支持AI智能图书馆。https://gitee.com/Serenity-Lin/vue_-book-manage-system_backend/blob/master/README.md
9.成都中医药大学图书馆2023年电子资源采购项目1二次政府采购合同受业主委托,中国采招网于2024年01月23日发布成都中医药大学图书馆2023年电子资源采购项目1(二次)政府采购合同公告;项目简介: 一、合同编号:N5100012023003343-1 二、合同名称:图书馆2023年电子资源采购项目1(二次) 三、项目编号:N5100012023003343 四、https://m.bidcenter.com.cn/news-4-269642373.html
10.可持续发展与社会责任12篇(全文)企业履行道德层次的社会责任,所需要的资金来自企业利润的一部分。企业利润分配的制度化,以及动用企业利润用于社会公益事业的程序化、规范化,是企业履行道德层次社会责任持久化的保证。上述的制度化、程序化和规范化,既能协调投资者、管理层和职工之间的关系,又能协调企业的近期发展和长期发展之间的关系。 https://www.99xueshu.com/w/ikeymdlj6g0n.html
11.云图书馆平台网站建设方案/蚁坊软件舆情监测系统云图书馆平台网站建设方案,蚁坊软件舆情监测系统,做教育集团的网站,上海嘉定网站建设Solidity 合约类似于面向对象语言中的类。合约中有用于数据持久化的状态变量,和可以修改状态变量的函数。 调用另一个合约实例的函数时,会执行一个 EVM 函数调用,这个操作会切换执行时的上下文,这样,前一个合约的状态变… http://www.mhkc.cn/news/445231.html
12.www.rjlqq.com/mokaka85964.html据报道,这次部署测定装置大约要花经费2400万日元(约合人民币154万元)。据日本防卫省2013年的年度预算,将按原定方针依次分时期在这三个村进行选址、安装等,并会对在官网上公布的结果加以探讨。 7月三元材料排产转好,磷酸铁锂排产持稳,碳酸锂产量过了释放高峰,或因原料倒挂、夏季检修,7月碳酸锂产量预计持平或https://www.rjlqq.com/mokaka85964.html
13.信息管理系统实习报告(精选12篇)3.1.2掌握项目开发相关的技术 在整个过程中,学习到了公司项目开发流程,SpringMVC三层架构的构建,Maven项目管理工具的使用以及Maven项目的搭建,Svn版本控制的使用方式,丰富了java基础知识,hibernate框架、Spring框架的使用,数据库MySQL的巩固和加强,学会使用左联接,右联接等的复杂查询应用。数据持久化操作hibernate的相关技术https://www.ruiwen.com/shixibaogao/4489931.html
14.图书管理系统api接口(图书管理系统功能简介)2.图书远程编目 图书馆管理系统提供Z39.50的客户端,并与编目系统完整的结合,不仅实现本地书目总库的查重,本地共享编目库的套录,也实现与INTERNET上其他编目中心数据库的连接,达到免费套录异地数据库中的编目数据,大大提高了图书编目速度,又节约了成本。 https://www.eolink.com/news/post/61446.html
15.Chapter2.实体Beans(II)Chapter 2. 实体 Beans 2 2.2.5.4. 机联持久化 | Transitive persistence with cascading 你可能已经注意到cascadeattribute有一个CascadeType的数组值.EJB3中的cascade 观念和Hibernate 持久化cascade 观念很相似的,但是也有一些语义上和cascadeing types 的不同 : http://www.360doc.com/content/07/0725/14/12931_632089.shtml
16.书栈网·BookStackQuestDB (2) QuestDB是面向关系列的数据库,旨在对时间序列和事件数据进行实时分析 Redis (24) 一个开源基于内存可持久化的、Key-Value数据库 RocksDB (3) 来自Facebook 的可嵌入的支持持久化的 key-value 存储系统 SequoiaDB (7) 巨杉数据库,一款开源的金融级分布式关系型数据库,主要面对高并发联机交易型场景提https://www.bookstack.cn/
17.关于创新意识的心得体会28篇学校应加大投资,为大学生营造良好的学习环境和学习氛围,大力宣传创新的重要性,努力提高高校大学生的学习兴趣和自主创新意识[5]。实验室、图书馆和多媒体教室等学习资源要全面放开,真正做到一切为了学生,一切为了教育,办让人民满意的教育,为学生们的自主创新活动与实践搭建平台,提供便利的条件。 https://wenku.puchedu.cn/63693.html
18.基于vue的图书馆管理系统的设计与实现.docx摘要 图书管理系统是一个实现了自动化、规范化、高效化的系统,它是一个仓库物流作业的核心,是为提高书店、图书馆或相关机构提高管理的效率而设计。通过自动化改变了一直以来人工参与的仓库管理方式,极大减少了因为管理人员的疏忽而造成的数据丢失、错乱、重复等问题,能有效降低图书在仓库管理中的成本且大大提高了管理https://max.book118.com/html/2022/1026/6011125013005010.shtm
19.有关班主任的工作总结(合集15篇)开学的第二个星期,我们就开始实行早自修制度,早晨7:30分,每班学习最困难的5名学生到图书馆集合,由任课老师进行细致的一对一的辅导,至8:15分结束,整整一节课的时间。许多任课教师经常匆匆赶到学校,连早饭都来不及吃,就直奔图书馆。有的还立刻之后上第一节课。问到其感受时,老师们的回答惊人的一致:“这不https://www.oh100.com/a/202302/6204355.html
20.图书管理系统(纯HTML).rar一个前端的图书管理系统页面,纯HTML,黄色调,可以直接嵌套在项目使用,兼容,如果是vue等项目,直接改改也是可以用的https://www.iteye.com/resource/qq_41098163-12183791
21.学校卫生先进个人主要事迹集锦15篇学校举办健康教育宣传专栏,每月更换一次内容,让教职工经常收看中央电视台《健康之路》节目,针对不同季节购置疾病预防科普读本充实图书馆,每季度对教职工进行卫生与健康知识考试,培养教职工良好的生活习惯,如戒烟限酒,增强运动等等,每学年对学生进行体检,建立健康档案,通过各种形式,鼓励教职工多做身体检查,对各种疾病早https://www.unjs.com/fanwenwang/shijicailiao/20221208100805_6077276.html