交大“交我算”计算集群:共建openEuler开源技术新生态

数字经济乘风起,百舸扬帆正当时。大数据、区块链、云计算、人工智能、工业互联网加速演进,信息化浪潮日新月异,新一轮科技革命和产业变革深入发展,数字经济产业集群纷纷涌现。

《数字中国建设整体布局规划》明确“建设数字中国是数字时代推进中国式现代化重要引擎”。铺好数字经济发展的基石,打通数字基础设施,为数字经济全面高质量启航营造良好生态尤为重要。

以操作系统为代表的基础软件,既是连接底层算力资源和计算生态应用层的产业核心,也是统筹各类数字资源、激发数字要素活力、构建数字经济整体布局的关键。培育好连接底层算力资源和上层应用的操作系统基础软件,推动信息技术应用覆盖社会生产生活的方方面面,构建互联互通的新型数字化产业,才能够真正实现释放数字潜能,广泛赋能实体经济。

从星火到燎原,欧拉成为中国第一服务器操作系统

此前,我国基础软件产品大多依赖国外技术,操作系统作为软件领域基础研究中的重要环节,在基础软件中处于核心地位,也长期为国外所主导,国产化操作系统以及与之相应的共创共享的开源模式呼之欲出。

近年来,随着我国计算生态和算力设施建设的日臻提升,中国操作系统迎来了高速发展,其中openEuler(欧拉)操作系统凝聚华为十余年的沉淀,历经四年开源生态建设,成为国产操作系统的一骑绝尘。根据IDC报告预测,2023年中国服务器操作系统领域,openEuler(欧拉)系市场份额第一,达到36.8%。

起源于华为自研服务器操作系统的openEuler(欧拉)操作系统,面向数字基础设施,支持服务器、云计算、边缘计算、嵌入式等应用场景,自2019年正式开源以来,连接全球开源基金会、开源组织、开发者,共建全球开源新生态。四年来,从星星之火到燎原之势,openEuler已经成长为符合国际标准的开放治理、合规运作、具备安全供应链的全球化社区,在中国汇聚全球开源力量,为世界开源贡献中国智慧。

开放原子开源基金会孙文龙理事长认为,openEuler的快速发展证明,充分利用开源、参与开源、支持开源、回馈开源,是实现操作系统技术创新和产业繁荣的路径。

欧拉的繁荣同样也是产业各界集智荟力的结果,在欧拉操作系统广泛应用,推动数字化转型走深走实的过程中,出现了一批具有示范性商业实践的应用落地。其中,上海交通大学“交我算”平台openEuler集群作为教育行业的成功实践,获得由OpenAtomopenEuler社区联合国家工业信息安全发展研究中心,携手业界专家最终评选的“2023年度openEuler领先商业实践”殊荣。

“交我算”openEuler集群为教研计算平台提供示范推广价值

随着信息通信技术的迅速发展,尤其是互联网、大数据、人工智能等技术的广泛应用,新的学习渠道和教学方式正在形成,教育要素也在发生深刻变革,教育行业正面临着转型课题与巨大的发展机遇,教育数字化转型成为全球教育变革的重要战略。党的二十大将“推进教育数字化”首次写进党代会报告,提出“推进教育数字化,建设全民终身学习的学习型社会、学习型大国”。面向新一轮科技革命和产业变革,积极推进教育数字化转型,适应新时代人才培养的需求,是推动教育强国的必然要求。

获得“2023年度openEuler领先商业实践”荣誉的上海交通大学“交我算”平台openEuler集群从属于校级高性能计算服务平台“交我算”。校级计算平台“交我算”由网络信息中心负责建设及管理,全面支撑学校的教学、科研和管理的计算需求,重点支持校内高水平用户科研,提供HPC+AI算力资源,覆盖各学科门类,支撑海洋学、生物医学、航空航天、机械制造、天体物理等领域的科学研究及工程应用。

“交我算”寓意师生的计算需求可以放心交给“我”来算,平台从2013年开始建设,目前已发展成为国内高校顶尖的计算平台,根据计算需求提供“思源一号”高性能计算平台、π2.0超算平台、AI平台、ARM平台四种计算支持。“交我算”openEuler计算集群是国内高校首个基于ARM处理器的HPC集群,集群建设初期采用CentOS7.6系统,2023年交大网络信息中心开展了国产操作系统迁移专项工作,将ARM集群操作系统全面替换为openEuler22.03。

此前,在服务器操作系统居领先地位的CentOS操作系统于2020年开始停止维护,对高性能计算来说继续使用CentOS将面临重大安全隐患,同时我国信息技术的发展也对操作系统安全性能的要求进一步提高,这使得计算领域对安全稳定、自主可控、可替代CentOS的国产操作系统的需求更为迫切。

openEuler搭载了鲲鹏,相较CentOS拥有更好的性能与兼容性,然而在高性能计算领域还未有大规模应用。在openEuler系统的迁移准备过程中,交大网络中心围绕openEuler的兼容性、使用openEuler对于超算应用性能的影响,开展了一系列的测试与分析,具体包括:在搭载了鲲鹏的ARM架构超级计算机上成功部署了32个openEuler计算节点,为其部署了超算软件栈,随后安装并成功运行了共计22个基准测试与超算应用;进行了操作系统层面的微基准测试、单节点的核函数测试,以及千核规模的超算应用测试,将评测结果与使用CentOS时的结果进行了对比与详细的分析;过程中优化集合通信性能,使用MPI和OpenMP混合编程、调整OpenMPI的集合通信算法、更换编译器与通信库等方法,提高了使用openEuler时的集合通信性能。

“交我算”ARM架构超算平台是国内首台基于ARM处理器的校级超级计算机。交大网络中心依托“交我算”平台对openEuler开展的评测与分析工作,验证了openEuler对于ARM架构超级计算机与多个典型科学计算应用具有良好的兼容性,并且发现openEuler相较于CentOS具有更低的操作系统噪声和更优的内存管理能力。

交大网络中心通过openEuler的迁移,定制了适用于“交我算”平台的openEuler批量部署和集群配置管理方案,实现了国内高校首个基于ARM处理器的HPC集群在硬件和系统层面上均采用了全国产化解决方案,积极呼应了国家提升自主创新能力、推动国产化替代的政策大方向;同时在高性能计算领域集群评测、分析以及性能优化的工作,不仅判断了ARM架构超级计算机上openEuler代替CentOS的可行性,也为国产操作系统在高性能计算领域的大规模应用和完善提供了应用先例和推广经验。

“交我算”openEuler集群建设为开源社区贡献生态发展力量

2023年7月,“交我算”平台正式上线了迁移完成后的openEuler计算集群。集群上线后面向上千个课题组共数千个用户,提供了持续可靠的计算服务。到目前为止集群已稳定运行5个月,月平均资源利用率稳步上升,用户对openEuler系统的易用性和稳定性受到了普遍认可。另一方面,“交我算”平台openEuler计算集群的实践也充分验证了openEuler在HPC领域替代CentOS的可行性。

在“操作系统大会2023”上,openEuler的开源生态和中国开源走向国际成为与会专家和产业界代表们热议的话题。据openEuler平台最新数据,目前开源社区已吸引213万开源用户,汇聚17000多名开源贡献者,1400多家头部企业、研究机构和高校加入,成立104个特别兴趣小组(SIG),这表示国产操作系统已经取得了里程碑式的重要进展。

openEuler委员会主席江大勇在“操作系统大会2023”上表示,欧拉开源四年,历经了1445天成为中国服务器操作系统新增第一份额,实现了跨越式的发展。在技术创新、行业应用、产业生态建立了完善的发展体系,形成了正循环。欧拉通过开源协作的社区模式,汇聚了从服务器、SV、ISV和万千开发者的力量,以开放的产业生态赋能千行万业的生产,支撑了智能化的升级。欧拉操作系统支持全球98%的开源软件,致力于打造国际化的开源协作平台,汇聚全球开源力量,为世界开源贡献智慧。

江大勇在谈到openEuler作为数据基础设施的开源操作系统,解决以往操作系统在实际应用中面临“一种操作系统对应一个应用、用户需要进行一次适配”问题时说:“openEuler创造性地提出一套代码、一套架构支持多样性算力、支持全场景,openEuler的通用支持也包括对智能芯片的支持。openEuler不仅仅是替代者,更符合接下来共用共享、生态互通操作系统的技术趋势。”

与openEuler生态的不断发展同步而行的是,openEuler系统已经在通信、金融、能源、交通、政务、信息化等领域开展规模化商用,承载产业链各端力量,广泛赋能实体经济并创造了显著的社会效益。

上海交通大学“交我算”openEuler集群在平台建设和推广过程中所集成的经验给openEuler开源社区贡献了生态发展力量。在系统迁移的前期测试中,交大网络中心“交我算”团队发现HPC领域广泛使用的开源并行文件系统Lustre在openEuler系统上存在部分兼容性问题,如内核模块编译失败。“交我算”团队与openEuler社区、Linaro协作,共同推进了lustre并行文件系统在openEuler上的适配工作。目前经过适配的系统组件包和预编译的lustre2.12.5版本client端软件包已被纳入openEuler22.03SP2发行版本。由Linaro主导的server端适配工作也在继续进行,计划纳入22.03SP3发行版本。此项适配工作填补了openEuler在并行存储领域支撑能力的一块空白,增强了openEuler系统在高性能计算行业的竞争力。

上海交通大学网络信息中心“交我算”平台开发工程师张天阳回想起在openEuler集群应用推广中OpenFOAM的应用案例移植给他留下了深刻的印象:“OpenFOAM是一个广泛应用于工程领域的自由、开源的计算流体力学软件,在交我算平台上使用该软件的用户群体数量非常多。这本来是个较为复杂的程序,但openEuler系统提供了友好的开发环境和丰富的应用生态,使得我们能够沿用CentOS环境的部署经验,大大降低了移植难度。用户使用角度来说,也能够直接在openEuler集群上复用他们的工程项目,有助于迅速提升openEuler集群的利用率。”

openEuler开源生态立足数字技术关键期,服务国家现代化建设

自openEuler推广社区开源生态至今,秉承“共建、共享、共治”的原则,四年生态发展历程也是中国开源界在当前数字经济技术自主创新的关键时期鼎立革新、奋力推进中国式现代化进程的缩影。openEuler计算生态和开源社区的崛起,表明国内操作系统扭转了过往信息技术领域软件生态建设不足的历史,全面支持大数据、云计算、人工智能、算力基础设施、工业互联网等数字要素云边端协同的发展体系,开启了国产操作系统研发与推广的新局面。

正如倪光南院士所述:在上万名开发者的参与和贡献下,openEuler已经从一粒种子成长为参天大树,承担起构建我国信息领域技术和数字经济底座的重任。

与时俱进,守正创新。上海交通大学“交我算”平台建于2013年,彼时已是当时国内高校最大超算系统,经过十年交大人的持续建设,目前发展成国内高校顶尖的算力中心,同时“交我算”团队是目前国内最大的校级计算团队。在校级计算平台的探索与实践上,“交我算”平台openEuler集群既为交大全校科研创新的支撑升级计算服务模式,在国内高校计算平台建设领域推出了与国产开源生态合作的先例,以积极响应新时期教育数字化转型、高校教学科研对计算平台和软件生态支持升级以及国产化操作系统应用的需求,又推动了openEuler开源社区丰富应用生态、完善优化与适配、提升高性能计算性能的生态建设。

产教融合、产学实践,持续推动国产操作系统与开源生态进步与创新。上海交通大学网络中心“交我算”平台开发工程师张天阳期望“交我算”openEuler集群的实践经验对于其他高校起到借鉴意义,同时期望openEuler能够进一步完善系统的应用生态,吸引到更多用户和机构,进一步扩大在国际上的知名度和影响力。

THE END
1.数算岛开源智算平台(SSDPAI)数算岛 开源 智算平台 (SSD-PAI) 数算岛 智算平台 (SSD-PAI) 产品概述 智能时代一体化算力服务平台解决方案 · 提供统一、灵活、易用、全面的算力资源管理与调度策略,解决传统算力使用场景中算力资源碎片化、用户需求多样化、运维管理工作量大等问题。https://blog.csdn.net/Roinli/article/details/141109565
2.SiliconCloud公测上线,每人免费送3亿Token生成式AI加速发展,开发者渴求更快、更便宜的推理算力,SiliconCloud将帮助开发者更低成本地使用大模型,降低大模型应用开发的门槛。 未来,我们将全方位支持大模型应用生态发展,推进主流开源大模型的可及性:一方面,免费送巨量token助力个人开发者打造创新应用,另一方面,助力大模型公司、AI应用公司实现推理的降本增效,进而促https://hub.baai.ac.cn/view/37566
3.异构算力开源社区HAMi举办首届沙龙,将发布新版本,效能全面提升近日,AI异构算力开源社区 HAMi 首届线下沙龙成功举办,并宣布将于25年1月正式发布 HAMi 2.5.0版本。新版本将支持mig、mps等多种算力切分模式,并优化WebUI管理能力及易用性。HAMi 是基于第四范式 vGPU 等异构算力技术打造,并与睿思智联、道客联合发起的一款异构算力管理开源工具,实现对硬件集群平台化管理、算力资源共https://tech.china.com/article/20241206/122024_1612934.html
4.国家数据局系统布局培育壮大数据产业贵州总算力规模40Eflops从上海市经信委和市通信管理局获悉,2024 年长三角生态绿色一体化发展示范区联合招商活动近日在江苏省苏州市吴江区举行,会上启动了长三角(上海)算力互联互通平台建设工作暨长三角枢纽算力平台互联互通。 长三角算力枢纽是中国 " 东数西算 " 工程规划的八大算力枢纽之一,规划设立了长三角一体化示范区和芜湖两大数据中心集群http://www.myzaker.com/article/66cef3a98e9f090aab70fec0
5.汽车行业车载智能计算平台深度研究:架构趋势格局2.2.2 趋势:集成化、高算力、先进制程、开放化 自动驾驶芯片是硬件部分核心,也是自动驾驶方案竞争的制高点,目前技术快速迭代背景下存在三点趋势: 第一点,集成化,MCU 加速走向 SoC。伴随整车电子 E/E 架构集中度提升(分布式→域集中式→中央集 中式),起决策作用的单元由 ECU→DCU→中央计算平台,ECU 数量大幅精简https://www.dongchedi.com/article/7131900552548139560
6.免费人工智能算力OpenI启智开源社区旗下的一站式AI开发协作平台,汇聚人工智能开源项目;提供代码托管、数据共享、模型训练等AI开发流水线功能;用户可在线使用鹏城实验室搭建的鹏城云脑、中国算力网的普惠算力,包含GPU、NPU等多样化加速资源。 启智AI协作平台,简称 启智社区 ,是一个开源在线Web应用,旨在为人工智能算法、模型开发提供在线协http://gitlab.c8hr.com/site/8845
7.行业翘楚论道未来想象2023开放原子全球开源峰会云原生分论坛圆满杨奕在题为《Sermant开源社区加速云原生微服务治理技术朝无代理架构的演进》的演讲中介绍了微服务架构演进历程,微服务架构从SOA到SDK再到Service Mesh的演进历程,以及各阶段所遇到的问题。 腾讯星辰算力平台技术专家陈显鹭 陈显鹭发表了题为《腾讯大规模云原生计算平台构建》的演讲,介绍了腾讯星辰算力平台发展历程。他表示:星https://www.openatom.cn/journalism/detail/ADwB2xUm22dc
8.打造最具活力的操作系统开源社区,全产业链共享多样性算力创新价值开源社区“共建、共享、共治”,打造协作创新平台 在以数字科技创新为引擎的经济发展新阶段,打造协同共生的计算产业生态尤为重要。为了加快多样性算力生态建设,华为计算确定“硬件开放、软件开源、使能合作伙伴”的生态战略。开源社区是社会高效协作打造软件生态的重要模式,华为把多年实践积累的软件能力开源开放出来,例如,将https://m.cls.cn/detail/648232
9.“息壤”引领首个算力互联互通验证平台建设,天翼云开启算力互联网6月21日,“2023算力互联互通大会”在北京召开。天翼云基于自主研发的云操作系统、紫金DPU、算力分发网络平台“息壤”等能力,作为算力互联互通验证平台的设计方、核心建设者、资源提供者与标准制定者,充分展现了跨服务商、跨架构、跨地域的算力互联互通能力,作为开源社区首批成员与核心贡献者推进国产开源社区体系构建,致力https://www.jiemian.com/article/9627289.html
10.“鹏城?脑海”通用AI大模型发布:2000亿参数,国产算力平台本次发布的是以中文为核心的“鹏城?脑海”基础版,将在 OpenI 启智社区向全社会开源。 ▲ 图源鹏城实验室公众号,下同 高文主任强调,鹏城实验室正同步研制“中国算力网”(China Computing Network,C2Net)全国一体化算力协同计算调度平台,以深圳为总调度中心,已汇聚全国协同算力达 3E 规模。“鹏城?脑海”大模https://www.ithome.com/0/720/661.htm
11.上海人工智能实验室华东师范大学上海智能教育研究院全球联合国际一流的开源、数据、算力平台 依托上海人工智能实验室与华东师范大学,并协同相关科研机构,建立国际一流的科研平台,为科研任务提供资源支持。 联合招聘研究领域 人工智能基础理论与方法:包括深度学习、可解释学习、因果学习、优化与决策、知识计算、情感计算、鲁棒与可信计算等方向。 https://maimai.cn/article/detail?fid=1696704512&efid=FWAZWMiNNQBgC9H0MotDFA
12.复旦大学与上海人工智能实验室全球联合招聘国际一流的开源、数据、算力平台 建立国际一流的科研平台,为科研任务提供资源支持,联合一流高校及研究机构搭建全球化团队。支持招募优秀研究和工程人员,给予一流高校博士生及博士后招收名额。 科研人员双聘和职称互认机制 上海人工智能实验室与复旦大学签订了战略合作框架协议,建立科研人员双聘和职称互认机制。 https://web.shobserver.com/sgh/detail?id=614846
13.算力调度平台人工智能大模型平台灵雀云AML赋能企业级人工智能落地,提供全栈开箱即用的GPU算力调度、AI任务管理、模型管理以及智能体开发能力,为企业提供端到端的智算中心平台。https://www.alauda.cn/solutions/ai
14.一场双向奔赴的招聘!上海人工智能实验室招聘管理支撑类岗国际一流的开源、数据、算力平台 建立国际一流的科研平台,为科研任务提供资源支持。 科技发展部负责人 岗位职责: 1.负责科研制度的制定与完善、科技发展规划、相关领域科研项目的全过程管理; 2.负责研发平台、科研装备平台的管理; 3.负责实验室重大科技项目、科技成果、创新平台等工作的策划、组织与协调; https://www.jfdaily.com/sgh/detail?id=659195
15.中共中央政治局:要坚持把科技创新作为主动力,积极开辟发展新领域华为云推出业界首个大模型混合云,华为云Stack 8.3在业界率先实现大模型能力基于混合云部署,提供算力平台、云服务、开发套件和专业服务等完整AI生产链,一站式建立专属大模型能力。基于原生混合云能力,用户可以将大模型从本地延伸到边缘和公有云;通过软硬协同实现算子融合与混合精度的优化,模型训练性能提升45%。 https://www.tmtpost.com/6819084.html