唯有开源开放,才能定义智算时代算力服务器计算机人工智能模型

在计算架构发展的进程中,开放与封闭的竞争从未停歇。但历史的长卷告诉我们,开放的力量总是能够打破封闭的束缚,引领行业走向更大的繁荣。

在信息化早期,大型机凭借强大的计算力和稳定性,坐上计算架构的王座。但因其封闭性,被RISC系统以简洁的指令集和开放的架构,一举打破了大型机的垄断,为计算机技术的进一步发展开辟了新的道路。

同样在服务器操作系统领域,起初都是Windows等商业操作系统作为市场的主导,但Linux出现之后,以其开源、开放和可定制的特性,迅速激发了创新活力,随着越来越多的企业和开发者加入Linux社区,Linux也逐渐建立了自己的统治地位。

当我们走进智算时代,大模型的发展要匹配异构算力架构,而异构就代表了复杂多元的生态,唯有开放才是发挥智算效率的最佳路径。这也是浪潮信息在发布元脑服务器第八代算力平台时,始终强调开放路线的主要原因。

1

异构算力的体系构建

“开放”是最核心的话题

对社会文明来说,人工智能已经不仅仅是一项简单的技术革命,它是一个新时代的更迭。就如同工业时代之于农业时代一样,会带来天翻地覆的变革,影响人类社会未来百年的进程。

浪潮信息高级副总裁刘军说,“如果把AI产业看做一座浮在海面的冰山,当前的技术创新只是1/10的水上部分,产业应用是9/10的水下部分还没有完全显现。中国则是AI应用发展的天然沃土,会为AI提供最丰富的应用场景和最广大的应用空间。”

确如此言,我们已经看到,在街头巷口,智能交通系统以精准的算法控制着车辆的流动,减少拥堵;在田间地头,实时监测农田的土壤湿度、温度等数据,让农民不再靠天吃饭;在校园课堂,人工智能技术正为学生提供个性化的学习方案,帮助老师更有效的传递知识……

在千行百业,无数个场景都在探索智能化应用的背景下,AI的应用领域逐渐增多,市场规模的不断扩大,当然也同时带来了对AI算力的巨大需求。

可惜的是,当前传统企业的算力部署存在明显的错位现象,大模型所需要的算力是异构算力架构,是融合了通用算力、高性能算力和AI算力的混合算力架构,这与企业传统ICT架构严重不符。传统ICT架构尽管成熟,但体系生态封闭,并不利于算力效能的发挥。

而根据IDC数据预测,2027年中国智能算力规模将达到117EFlops,是2024年2.3倍,增速将达通用算力2倍及以上,AI算力的需求缺口仍将持续扩大。这意味着在大模型时代,要发挥算力的最大价值,迈向多元异构计算体系是必由之路。

因此,刘军指出,异构算力的体系构建,“开放”是一个最核心的话题。“异构算力体系的核心优势就在于能够充分发挥各种计算设备的优势,提高智算效率。如果体系不够开放,企业会面对更多的兼容性和集成性问题,不仅会增加开发的成本和难度,还会导致不同计算硬件的性能无法充分发挥,从而降低了应用的性能和效率。同时在安全性上,不够开放也意味着信息交互的复杂性和不确定性增加,增加系统安全和稳定性的风险。”

唯有“开放”,才能发挥异构算力最大的效能!

2

钱学森的《系统论》认为:系统是由一些相互关联、相互作用、相互影响的组织部分构成并具有某些功能的整体。从系统的角度来看,如果把系统分解为部分,单独研究一个部分,就算把每个部分都研究清楚了,也回答不了系统整体性问题。

显然,《系统论》的理念很好的表达了计算机架构的运行逻辑:整个计算机生态是一个完整的系统,它的每一个组成部分都应该协同发展,单独某一项技术如芯片技术的飞跃,并不能带来整个计算机系统的提升。

而算力效率则代表了系统能力的一部分,“浪潮信息在持续升级融合架构技术,打破以芯片为核心的单机系统设计思路,构建大规模可扩展的AI算力系统为出发点、可全面实现资源池化弹性调度的全新架构,各类异构资源按需在线扩展。”

落实到在产品策略上,发挥算力效率的关键,就在于拥抱硬件开放和软件开源。在此基础上,浪潮信息则以“平台化+模块化”的产品设计,持续完善一机多芯产品架构,全面支持OAM/OCM算力的开放标准,让不同算力共享统一平台,降低算力产业创新试错成本和适配成本,也让多元化的应用场景都能方便快捷的适配到贴合的方案。

对开放生态最早的探索,源自2019年OAM生态的建立,浪潮信息通过开放的设计理念推动OAM的生态繁荣。截至2024年,AI加速算力单元中90%高端加速卡都采用OAM形态,OAM显然已经成为了事实上标准。

这时候赵帅发现,“如同OAM构建了统一的加速芯片底座,促进了加速算力生态的完善,我们同样需要构建CPU的统一的算力底座,以解决CPU计算的平台效率问题。因此我们在今年也提出了OCM(OpenComputeModel)开放算力模组的概念”。

而元脑服务器第八代产品,让浪潮信息首次将这个构想变成了现实。

最新一代元脑服务器NF3290G8,就是全球首个基于开放CPU架构设计的服务器,是浪潮信息对于CPU开放算力模组的最佳实践,以CPU、内存为核心构建最小算力单元,通过标准化它向前的高速/低速互联接口,实现处理器算力模组部件化。

关键的是,它可以同时支持Intel、AMD处理器,全场景算力适配,实现统一算力架构和一机多芯。

浪潮信息服务器产品线规划经理罗剑说,“OCM的核心理念是,原来服务器系统都是以CPU为核心,有了处理器才有系统,但智算时代的场景非常多,不同的业务场景选择的芯片类型也不尽相同,对芯片算力的要求也不一样,这就要一个解耦的架构,把CPU当做一个部件,而算力则以整个系统为核心,根据用户不同的应用场景来自由组合这些关键部件来满足业务要求。”

不难发现,OCM架构的颠覆之处,就在于它不再以CPU为核心来设计产品,而是由场景需求为核心来设计产品,这个系统性的变革首次让需求真正站在了产品之前,是“需求至上”的最大胜利。

3

开放多元的产品理念

为客户创造最大价值

真金不怕火炼,好产品始终是赢得客户的“金刚钻”。

而秉承着开源开放,多元发展的理念,元脑服务器第八代新品实现了全栈的开源开放,从部件、节点、整机柜到固件,实现了各样产品的快速落地。并在各种算力场景下,给予用户最佳的体验。

如前文提到的基于OCM架构的NF3290G8,整机全面解耦,以CPU、内存为核心构建最小算力单元,标准化高速/低速互联接口,实现处理器算力模组部件化,灵活支持多类型CPU,让不同算力共享统一平台,以用户的场景需求为牵引,提供高效的算力输出。

而在AI算力方面,NF5898G8具有强大的兼容性和卓越的性能,不仅支持IntelGraniteRapids(SP和AP)与Turin的双CPU平台,还可以兼容符合OCP开放加速规范的多款OAM2.0模组,通过全模块化的设计及极致的系统能效满足算力快速迭代需求,进一步加速算力融合创新,为人工智能领域的发展注入新的动力。

特别要提旗舰机型NF5280G8,它作为一款双路全能高端旗舰机架式服务器可全面兼容Intel和AMD最新的计算平台,以及各种加速卡,在不同业务场景下可以提供最合适的配置平台。同时,还可以采用风冷、液冷两种散热方式,真正做到一款机器,上百种配置搭配,覆盖从通用计算到异构计算,从存储型到IO型,从风冷到液冷等全场景需求。

客观的说,智算时代不仅需要强大的算力,更需要多元的算力以满足复杂、多样的计算场景。以芯片为切入点的传统产品设计思路,势必会被以系统为核心的产品理念所取代。

因而,唯有开源、开放,才能发挥算力最大的价值,唯有开源和开放,才能定义智算时代。

在此意义上,“浪潮信息会一直坚持以应用为导向、以系统为核心的整体战略,解决在AI的算力、算法、数据、生态等各方面遇到的挑战。”赵帅说。

THE END
1.数算岛开源智算平台(SSDPAI)数算岛 开源 智算平台 (SSD-PAI) 数算岛 智算平台 (SSD-PAI) 产品概述 智能时代一体化算力服务平台解决方案 · 提供统一、灵活、易用、全面的算力资源管理与调度策略,解决传统算力使用场景中算力资源碎片化、用户需求多样化、运维管理工作量大等问题。https://blog.csdn.net/Roinli/article/details/141109565
2.SiliconCloud公测上线,每人免费送3亿Token生成式AI加速发展,开发者渴求更快、更便宜的推理算力,SiliconCloud将帮助开发者更低成本地使用大模型,降低大模型应用开发的门槛。 未来,我们将全方位支持大模型应用生态发展,推进主流开源大模型的可及性:一方面,免费送巨量token助力个人开发者打造创新应用,另一方面,助力大模型公司、AI应用公司实现推理的降本增效,进而促https://hub.baai.ac.cn/view/37566
3.异构算力开源社区HAMi举办首届沙龙,将发布新版本,效能全面提升近日,AI异构算力开源社区 HAMi 首届线下沙龙成功举办,并宣布将于25年1月正式发布 HAMi 2.5.0版本。新版本将支持mig、mps等多种算力切分模式,并优化WebUI管理能力及易用性。HAMi 是基于第四范式 vGPU 等异构算力技术打造,并与睿思智联、道客联合发起的一款异构算力管理开源工具,实现对硬件集群平台化管理、算力资源共https://tech.china.com/article/20241206/122024_1612934.html
4.国家数据局系统布局培育壮大数据产业贵州总算力规模40Eflops从上海市经信委和市通信管理局获悉,2024 年长三角生态绿色一体化发展示范区联合招商活动近日在江苏省苏州市吴江区举行,会上启动了长三角(上海)算力互联互通平台建设工作暨长三角枢纽算力平台互联互通。 长三角算力枢纽是中国 " 东数西算 " 工程规划的八大算力枢纽之一,规划设立了长三角一体化示范区和芜湖两大数据中心集群http://www.myzaker.com/article/66cef3a98e9f090aab70fec0
5.汽车行业车载智能计算平台深度研究:架构趋势格局2.2.2 趋势:集成化、高算力、先进制程、开放化 自动驾驶芯片是硬件部分核心,也是自动驾驶方案竞争的制高点,目前技术快速迭代背景下存在三点趋势: 第一点,集成化,MCU 加速走向 SoC。伴随整车电子 E/E 架构集中度提升(分布式→域集中式→中央集 中式),起决策作用的单元由 ECU→DCU→中央计算平台,ECU 数量大幅精简https://www.dongchedi.com/article/7131900552548139560
6.免费人工智能算力OpenI启智开源社区旗下的一站式AI开发协作平台,汇聚人工智能开源项目;提供代码托管、数据共享、模型训练等AI开发流水线功能;用户可在线使用鹏城实验室搭建的鹏城云脑、中国算力网的普惠算力,包含GPU、NPU等多样化加速资源。 启智AI协作平台,简称 启智社区 ,是一个开源在线Web应用,旨在为人工智能算法、模型开发提供在线协http://gitlab.c8hr.com/site/8845
7.行业翘楚论道未来想象2023开放原子全球开源峰会云原生分论坛圆满杨奕在题为《Sermant开源社区加速云原生微服务治理技术朝无代理架构的演进》的演讲中介绍了微服务架构演进历程,微服务架构从SOA到SDK再到Service Mesh的演进历程,以及各阶段所遇到的问题。 腾讯星辰算力平台技术专家陈显鹭 陈显鹭发表了题为《腾讯大规模云原生计算平台构建》的演讲,介绍了腾讯星辰算力平台发展历程。他表示:星https://www.openatom.cn/journalism/detail/ADwB2xUm22dc
8.打造最具活力的操作系统开源社区,全产业链共享多样性算力创新价值开源社区“共建、共享、共治”,打造协作创新平台 在以数字科技创新为引擎的经济发展新阶段,打造协同共生的计算产业生态尤为重要。为了加快多样性算力生态建设,华为计算确定“硬件开放、软件开源、使能合作伙伴”的生态战略。开源社区是社会高效协作打造软件生态的重要模式,华为把多年实践积累的软件能力开源开放出来,例如,将https://m.cls.cn/detail/648232
9.“息壤”引领首个算力互联互通验证平台建设,天翼云开启算力互联网6月21日,“2023算力互联互通大会”在北京召开。天翼云基于自主研发的云操作系统、紫金DPU、算力分发网络平台“息壤”等能力,作为算力互联互通验证平台的设计方、核心建设者、资源提供者与标准制定者,充分展现了跨服务商、跨架构、跨地域的算力互联互通能力,作为开源社区首批成员与核心贡献者推进国产开源社区体系构建,致力https://www.jiemian.com/article/9627289.html
10.“鹏城?脑海”通用AI大模型发布:2000亿参数,国产算力平台本次发布的是以中文为核心的“鹏城?脑海”基础版,将在 OpenI 启智社区向全社会开源。 ▲ 图源鹏城实验室公众号,下同 高文主任强调,鹏城实验室正同步研制“中国算力网”(China Computing Network,C2Net)全国一体化算力协同计算调度平台,以深圳为总调度中心,已汇聚全国协同算力达 3E 规模。“鹏城?脑海”大模https://www.ithome.com/0/720/661.htm
11.上海人工智能实验室华东师范大学上海智能教育研究院全球联合国际一流的开源、数据、算力平台 依托上海人工智能实验室与华东师范大学,并协同相关科研机构,建立国际一流的科研平台,为科研任务提供资源支持。 联合招聘研究领域 人工智能基础理论与方法:包括深度学习、可解释学习、因果学习、优化与决策、知识计算、情感计算、鲁棒与可信计算等方向。 https://maimai.cn/article/detail?fid=1696704512&efid=FWAZWMiNNQBgC9H0MotDFA
12.复旦大学与上海人工智能实验室全球联合招聘国际一流的开源、数据、算力平台 建立国际一流的科研平台,为科研任务提供资源支持,联合一流高校及研究机构搭建全球化团队。支持招募优秀研究和工程人员,给予一流高校博士生及博士后招收名额。 科研人员双聘和职称互认机制 上海人工智能实验室与复旦大学签订了战略合作框架协议,建立科研人员双聘和职称互认机制。 https://web.shobserver.com/sgh/detail?id=614846
13.算力调度平台人工智能大模型平台灵雀云AML赋能企业级人工智能落地,提供全栈开箱即用的GPU算力调度、AI任务管理、模型管理以及智能体开发能力,为企业提供端到端的智算中心平台。https://www.alauda.cn/solutions/ai
14.一场双向奔赴的招聘!上海人工智能实验室招聘管理支撑类岗国际一流的开源、数据、算力平台 建立国际一流的科研平台,为科研任务提供资源支持。 科技发展部负责人 岗位职责: 1.负责科研制度的制定与完善、科技发展规划、相关领域科研项目的全过程管理; 2.负责研发平台、科研装备平台的管理; 3.负责实验室重大科技项目、科技成果、创新平台等工作的策划、组织与协调; https://www.jfdaily.com/sgh/detail?id=659195
15.中共中央政治局:要坚持把科技创新作为主动力,积极开辟发展新领域华为云推出业界首个大模型混合云,华为云Stack 8.3在业界率先实现大模型能力基于混合云部署,提供算力平台、云服务、开发套件和专业服务等完整AI生产链,一站式建立专属大模型能力。基于原生混合云能力,用户可以将大模型从本地延伸到边缘和公有云;通过软硬协同实现算子融合与混合精度的优化,模型训练性能提升45%。 https://www.tmtpost.com/6819084.html