HAIPlatform:开源的AI训练平台

当下AI大模型如火如荼的发展,许多厂商开始构建起基于GPU的大规模深度学习训练集群。随着算力需求的扩大,一个能对GPU资源进行统一高效利用的AI平台,越来越成为各AI团队降本提效的重要武器。

构建一个能管理大规模GPU集群资源的AI平台,主要会遇到如下几个痛点问题:

针对上述问题,幻方AI在自建的萤火集群上进行多年的研发与测试,积累了一套高效管理GPU集群资源的AI训练平台方案,名叫HAIPlatform。其以任务级分时调度共享AI算力的理念将集群零散资源进行整合再分配,成功支持在1500+计算节点上稳定运行深度学习训练和其他多类型任务,日常算力占用率95%以上,日常GPU使用率75%以上,计算和存储节点间的数据吞吐7TB/s以上,服务了上百个AI团队。

现在,幻方AI将正式开源HAIPlatform,将这套久经考验的AI训练平台服务于更广阔的AI社区。HAIPlatform可以被部署在私有集群或公有云的GPU资源中,帮助您高效利用GPU集群资源,提升团队整体研发效率。我们希望让更多“想象力”和“创造力”生长,期待与各方科学家及开发者们一同共建AI时代。

安装与设置使用HAIPlatform,首先需要如下基础设施:

任务调度任务是HAIPlatform使用的基本单位,而非用户。所有用户提交的任务都由HAIPlatform统一管理和调度。

幻方AI提出分时调度理念对集群资源进行管理。用户提交任务,如运行python/bash代码,启动开发容器等,由平台根据当前资源需求、集群忙闲程度等进行任务的中断和加载。任务代码需要遵循平台编码规则以确保可以断点续跑,具体流程如下:

注意!部署HAIPlatform的集群不会将GPU资源池化,而是以计算节点为基本单位,根据资源类型、网络区域等条件进行分类标记。HAIPlatform鼓励用户一次性用满多张GPU,进行并行训练。用户提交任务时需选定节点数量n,则该任务可获得n的整数倍个GPU,比如在8卡计算节点上提交使用4个节点的任务,则该任务会获得32张GPU进行并行训练。

用户管理HAIPlatform提供以配额的方式记录集群的各类资源,通过优先级管理用户的使用权限。例如:某用户在NORMAL优先级上拥有10个计算节点的配额,其在HAIPlatform上提交若干个任务,则最多同时以NORMAL优先级调度10个计算节点运行。算力资源优先满足高优先级用户的训练需求,同优先级内则交替使用集群算力资源。

同时,每个用户都可以归属于某一个用户组。计算资源和优先级配额是按用户为单位进行分配的,而同组的用户可以共享自定义环境、私有数据存储。

此外,HAIPlatform还提供了管理员用户身份,其有权限执行用户创建、停用、归档等操作,调整各类资源和优先级配额,管理后台开发容器等。

环境管理部署HAIPlatform的集群会包含基础环境和用户自定义环境两种环境管理模式:

importhaienvhaienv.set_env('env_name')两种环境都可以通过haienv工具进行管理,适用于各种任务场景。通过基础环境的构建,我们希望尽可能降低AI研发前期的环境构建成本。

另外,HAIPlatformStudio子应用/monitor集成了一定的监控和管理能力,包括:

数据管理部署HAIPlatform的集群会将训练数据存储在文件系统中。训练中的任务会实时从文件系统中读取数据,流转到计算节点。这里,优良的文件系统将是提高GPU利用率,进而提升集群整体效率的决定性因素之一。

THE END
1.AI开发平台ModelArtsAI智能开放平台人工智能平台ModelArts是面向开发者的一站式AI开发平台,可快速创建和部署模型,管理全周期AI工作流。为机器学习与深度学习提供海量数据预处理及半自动化标注、大规模分布式Training、自动化模型生成。https://www.huaweicloud.com/product/modelarts.html
2.极栈AI中台AI算法训推一体平台AI开发训练平台极栈EXTREME FLOW 是一个面向大中型政企、高校与科研院所的 AI 训推一体化平台,提供从数据处理、算法开发、算法测试到算法推理的 AI 全生命周期管理服务,助力迅速构建AI算法开发与应用能力,降低AI算法开发成本,快速实现数字化转型及AI全业务赋能。 通过极栈平台,可将AI算法开发全流程中可复用、共享的能力完全抽象出https://www.extremevision.com.cn/extreme-flow/
3.TIONE训练平台AI模型训练AI开发平台TI-ONE 训练平台(TI-ONE)是为 AI 工程师打造的一站式机器学习平台,为用户提供从数据接入、模型训练、模型管理到模型服务的全流程开发支持。TI-ONE 支持多种训练方式和算法框架,满足不同 AI 应用场景的需求。https://cloud.tencent.com/product/tio
4.2024年学习人工智能的最佳平台ai训练平台人工智能(AI)正在变革各行各业,并重塑就业市场,使得AI技能成为当今经济中最受追捧的技能之一。无论你是渴望进入该领域的新手,还是希望提升技能的资深专业人士,各种平台都在提供顶级的AI教育。2024年,这些平台提供全面的课程、专家指导和实践应用,帮助学习者在这个快速发展的领域中保持领先地位。以下是学习AI的顶级平台https://blog.csdn.net/2401_86775323/article/details/141566699
5.人工智能实训平台AI Training实训平台是针对中高职、应用型本科院校对人工智能通识教育教学与实训需求,提供积木可视化编程学习、python语言基础学习、python在线编辑器、AI算法模型积木可视化调用、提供Python语言的可视化编程、多类型数据标注、AI算法模型训练及调用、在线人工智能教学、http://gtapreai.gtafe.com/
6.人工智能训练平台V1.6版本 支持用户自定义算法并一键发布,无缝集成AI工作室图形化项目。支持算法公开及克隆,方便、高效、灵活。 V2.0版本 人工智能训练平台V2.0版本,为您提供更丰富的算子控件、模型管理和算法管理服务,支持私有化部署。https://ei.casicloud.com/
7.AI训练平台VisionBankAIAI训练平台是一款面向工业视觉领域,集项目管理、数据集管理、数据标注、模型训练为一体的全流程AI开发平台 项目管理 数据标注 模型训练 以项目为单位 平台以项目为单位进行数据、模型和项目成员的管理,支持为项目成员分配权限,包括管理数据集、管理模型以及模型训练的权限。 http://www.visionbankai.com/zngypt/aixunlianpingtai/
8.人工智能AI系列AI可视化训练平台AI训练平台提供分类模型训练能力。并以REST API形式为上层应用提供接口。 当前版包含功能如下: -分类模型训练 (imagenet数据集预训练的resnet50模型) -模型训练可视化 -图片分类推理 -图片特征提取(512维特征) -图片 1:1 比对 前端部署 nginx部署运行: https://www.jianshu.com/p/8af7dec81d17
9.AI统一训练平台致宇信息技术AI统一训练平台 申请试用 基于致宇丰富场景的最佳实践,围绕AI开发过程提供标注任务分配,各类型图片及文本数据管理,数据标注,以及模型训练,测试,发布等环节为企业提供一站式AI开发体验 一站式模型定制 数据管理与标注 大数据批量上传并快速清洗与解析,支持标注文件中标签搜索,可快速定位目标数据。http://www.hexrpa.com/AItyxl
10.ai游戏模型训练平台模型训练AI游戏模型训练平台专注于提供高效、便捷的模型训练服务。通过先进的技术和算法,帮助开发者快速构建和优化游戏AI模型,提升游戏体验。 AI游戏模型训练平台是一种用于开发和训练人工智能(AI)游戏模型的工具,它提供了一系列的功能和工具,帮助开发人员创建、训练和优化游戏模型,以实现更智能、更具挑战性和更有趣的游戏体验https://www.shiwaiyun.com/article/post/287749.html
11.大华巨灵AI开放平台,企业自己的算法训练平台大华巨灵AI开放平台,帮助企业实现低门槛、免代码的场景化AI的定制,形成企业业务与智能化算法的闭环https://ai.dahuatech.com/
12.平台系列2:集成式机器学习平台对比分析51CTO博客随着AI应用的大规模落地,人工智能系统的运维管理(MLOps)将是该类平台未来发展的方向,通过标准化的模型开发、部署与运维流程、持续集成和持续部署,进一步加速企业模型开发与部署的同时,有效保障模型质量。 【参考资料】 1. 华为云产品与解决方案,《华为云ModelArts做到性能极致!128块GPU,ImageNet训练时间10分钟》https://blog.51cto.com/u_15525866/5712921
13.海康威视AI训练平台下载海康威视AI训练平台v20200704.新增数据中心产品支持:模型训练支持数据中心P4/KT智能分析服务器(物体检测、图像分类、检测+分类) 5.物体检测预置算法升级:提升物体检测类模型性能 上文就是小编为您带来的海康威视AI训练平台了,更多精彩软件请多多关注非凡软件站。https://www.crsky.com/soft/218137.html
14.AI开放平台CS客户端下载海康威视AI训练平台(AI开放平台CS客户端)v20海康威视AI训练平台是一款相当不错的AI训练软件,一站式算法定制服务平台,从设想的AI到专属的AI,一站式数据挖掘平台。基于认知智能的物联网大数据场景,提供一站式、多样化算法挖掘服务。感兴趣的朋友快来下载使用吧。 软件特色 AI训练平台 一站式算法定制服务平台,从设想的AI到专属的AI https://www.jb51.net/softs/745602.html
15.ScaleAIScale AI是一个基于云端的机器学习标注训练平台,为企业提供高效的数据标注、注释和分类服务,以帮助加速人工智能应用开发。 Scale AI的平台拥有一支专业的标注团队,能够提供高质量的数据标注服务。同时还支持自动化标注和集成API接口等功能,为客户提供一站式的数据处理解决方案。它使用机器学习技术实现数据分类与图像标注,https://www.aizhinan.cn/tools/2337.html
16.人工智能标注训练平台标注训练平台,实现算法开发生产的全流程管理,为智慧城市场景下视觉算法提供持续迭代训练服务。让算法生产更高效,加快AI行业落地与规模化应用,助力智慧城市建设。http://www.minivision.cn/TrainingPlatform.html
17.英荔AI训练平台TeachableMachineTrain a computer to recognize your own images, sounds, & poses. A fast, easy way to create machine learning models for your sites, apps, and more – no expertise or coding required.https://train.aimaker.space/
18.模型训练平台自训练平台ai数据自训练平台机器学习操作企业级模型训练平台,一站式服务简化大模型训、推、评全流程。通过模型量化技术,优化GPU资源使用,服务更多AI应用场景,实现资源的高效利用。Triton引擎推理加速,将模型参数转换并编译为GPU指令相关的二级制文件,提高运行时计算效率。https://www.zkj.com/training