腾讯自研机器学习平台“太极”八年进化之路算法云原生工作流人工智能技术

腾讯自研搭建了业界一流的太极机器学习平台,致力于让用户更加聚焦业务AI问题解决和应用,一站式的解决算法工程师在AI应用过程中特征处理,模型训练,模型服务等工程问题。结合对用户的习惯理解和功能沉淀,太极在产品层提供数据/特征工程,模型训练,模型服务三块。闭环了用户离线训练到在线服务的应用,包含了不同场景下的数据访问诉求,不同训练模型的诉求,在线服务可靠性的诉求。算法框架&组件层提供了机器学习、深度学习核心组件。可支持10TB级模型训练、TB级模型推理和分钟级模型发布上线,扩展集群规模则可支持更大的模型训练和推理,为实际业务提供大模型的情况下,同时具有很高的性能,达到行业领先水平。

太极机器学习平台采用了分布式参数服务器架构,这是业界第一梯队企业们公认的最佳选择。这种架构的特点是,存储模型参数和执行模型计算,这两种任务在分别的服务器上运行,增加更多服务器就可以支持更大、计算需求更高的模型。太极机器学习平台中的参数服务器系统AngelPS也是腾讯自研的成果,现在不仅可以承载10TB级模型的训练,对多维特征融合、复杂模型结构等更高级、更前瞻性的功能也有优秀支持。同时太极机器学习平台还具备超大模型在线推理服务的能力。推理计算方面,不仅支持常规的CPU计算,还支持复杂模型的GPU计算加速;存储上,根据在线推理模型大小,自适应选择小模型本地内存加载和大模型AngelPS远程查询的部署策略;在线服务运营上,平台具备多级容灾能力,脏模型秒级回滚能力,以及完备的系统和业务运行实时指标监控和报警系统。

“太极”八年进化之路:

●2015年,太极机器学习平台1.0诞生,是腾讯首个涵盖“数据导入-特征工程-模型训练—在线服务“全流程的一站式机器学习平台。

●2018年,太极平台深度学习训练加速上线,提供简洁的任务化体验,聚焦训练及训练加速。

●2019年,太极平台联合腾讯云,打造了三环境(内网/公有云/私有云)统一的“TI-ONE机器学习平台”,将机器学习平台能力输出给公网和私有云用户,太极平台服务腾讯内部业务。

2015年Google的一篇论文"HiddenTechnicalDebtinMachineLearningSystems"中,首次提出机器学习生产化带来的挑战,机器学习模型在经过持续的训练交付,会逐渐积累技术债,使得模型迭代越来越慢,最终大量的人力物力消耗在系统建设而非模型本身。为解决这个问题,业内各公司开始谈及工业生产中机器学习生命周期集成化管理的必要性,之后各大公司都开始尝试建立MLOps系统,商业化、开源产品也丰富起来。

●统一平台服务:25个系统统一到太极,60+步骤降低到7步内;

●大模型上线提效:千亿参数大模型在召回/粗排/精排全面上线;

●特征模型血缘透视:支持各类预估模型,从特征入样本到模型训练、评估、上线的全链路资源消耗、训练速度大盘透视。

●模型的全生命周期管理,管理特征数据、模型代码、模型训练环境,需要建立安全保障流程来开发、打包和部署模型。

●降低模型开发门槛,面向不同的模型预估类型和业务场景,提供全功能的AI在线编码平台,降低模型开发门槛;

●模型评估与实验,支持面向在线训练和离线训练的各项标准化评估指标,打通线上流量的A/B实验系统;

●AIpipeline各阶段可观测性,平台对特征入库、模型训练、线上推理提供性能、效果监控报告,确保信息数据透明。

●资源管理与模型治理,系统化管理训练、存储资源,对模型的上下线等请求提供完整监控记录和回溯能力,保障模型质量。

平台初期的挑战

●链路复杂成本高:特征从评估到实验,涉及系统和流程多,效率低,涉及多个子系统串联,切换成本过高;

●特征评估需经历入库,注册后才能评估,周期长、效率低;

●各阶段任务信息黑盒:缺失任务透视看板,任务运行情况,资源quota分配缺少规范;

●审批多周期长:完成一次特征入模型实验需要经过18次审批,自动化审批程度还不够,审批效率不能满足现有实验要求;

●监控不完整:缺失数据监控缺位,不利于快速定位数据、模型的问题原因。

●平台能力范围清晰明确,支持特征入样本,模型训练,模型服务上线三个主要环节;

●上下游合作系统边界透明,上游对接特征数据生产,下游打通A/B实验系统;

●核心产品能力

○特征开发、模型训练、推理全流程产品化

○模型全生命周期高效管理

○算力高优资源调度优化

○全链路血缘大盘透视

●跨团队协调:各自为政的团队妨碍工作流的协调和协作;

●标准的可重复过程:如果没有自动且可重复的过程,那么算法同学每次训练并部署新模型时,都必须“重造轮子”,白费力气;

我们构建了平台的四大核心模块来承载模型全链路研发:

●搭建在线训练模型仓库,自动化模型准出一致性验证,模型服务实时秒级更新,在线模型推理安全保障的“模型推理”模块;

●通过“工作空间”来提供跨团队协同共建的定制产品能力

●为离线、实时特征自动调度例行化特征入库任务,版本化管理特征和在线serving数据更新;

●特征从注册开始,平台全链路监控,保证特征数据在离线一致性

●打通下游模型训练,为每个入模型的特征例行化评估特征重要性,量化每个特征为大盘带来的GMV提升。

特征的安全生产和质量管控是平台必须保障的,我们的模型算法同学在日常工作中,当遇到特征断流、特征停止更新,特征加工方式变更等问题时,平台需要及时地介入处理,比如特征生产方能及时提醒与周知下游消费方,特征的生命周期管理可以规范起来。

●特征全生命周期追溯,确保特征上线后不会被误下线;

●特征在维护阶段中可以查看下游模型训练推理阶段的消费详情,确保特征复用率

●特征在断流、覆盖率或特征值发生变更的场景下,可通知特征生产方及时维护更新,通知下游模型消费方特征断流状态变更,以便及时做出调整

●特征断流恢复正常后提醒生产方和消费方,负责人可关联新的升级版特征组并周知消费方。

模型训练需要为用户提供深度学习模型的开发、模型网络结构的调试、在线训练任务的配置、提交管理能力。为此,我们配合支持千亿参数的大模型训练框架,设计了一套可视化的DAG产品页面,来编排大模型训练任务,将大规模PS的在线训练任务抽象成三个可视化组件编排,以极简的产品形态调度和管理模型训练任务,方便用户快速搭建和监控自己的大模型训练。

我们为用户提供云原生的在线编码IDE,提供原生TFAPI,打通生产实时样本数据流,可以本地开发模型,采样样本数据调试模型,并将开发好的模型一键提交到在线训练集群,通过大规模实时训练数据训练更新模型,为高阶的算法开发者提供灵活的模型开发能力。

首先,我们对每个训练任务的模型做好版本化的管理和模型服务部署的模型校验准出服务。每一个模型,除了训练时的评估指标符合预期,还会在部署上线前,平台自动化发起特征抽取算子一致性校验和沙箱单机服务性能、效果验证的模型准出校验,在平台检测指标通过后,自动部署服务进入A/B实验流程,保障模型服务的线上变更安全性。

为了提升模型A/B实验的效率,太极平台结合各类模型预估类型的差异,设计了一套实验申请,放量的标准化流程,面向所有模型实验的同学,在太极上搭建实验放量、信息透视等全链路产品能力:

●通过产品化A/B实验流程,提升实验放量效率和规范性,将实验从申请启动实验-实验审核-合并特性-实验放量-效果查看-整体主链路产品化。

●将实验过程的所有信息标准化、透明化,支持好溯源、宏观监控分析等应用。通过将实验放量模板化和标准化,清晰记录和呈现每一个实验,清晰溯源的同时,也可以结构化查询到每个特性实验的实验逻辑。

跨团队协作,大模型开放共建

为解决跨团队协作,支持大模型开放共建,我们在平台设计了“工作空间”的概念,通过工作空间来区分业务属性,针对不同的业务,提供差异化的产品能力,比如粗排、精排不同的线上主力样本流、主力模型流配置模板,CPU/GPU推理服务部署工具等:

●空间内发起任务配置,均默认匹配当前空间流量位和模型预估类型

我们从平台的角度,实现了一套搭建在K8S、YANR之上的二级AI工作流调度引擎:

●区分任务属性,自动为探索的离线任务分配低成本的混部资源,为高优实验、生产在线学习任务分配稳定的在线资源;

●构建全局任务画像,实现HBO优化器,动态推荐和调整用户提交的训练任务规格,提高单任务的资源利用率;

●从框架和调度层面保障因为机器故障、网络抖动的任务failover能力;

●提供了全局的自动任务削峰填谷的潮汐调度能力,业务无感知的享受到训练任务的动态腾挪带来的成本节约。

随着太极标准化特征入模型的全流程,一次新增特征的探索实验,会经过几个关键卡点,包括特征导入在线KV的存储资源、模型训练资源和线上推理资源的申请和等待,以及模型训练的评估指标是否符合预期、是否可以进一步增量训练或者上线实验。

●从各环节资源申请、分配方面,我们将核心的资源申请、审理环节剥离出来,建立先使用后审计的自动化免审机制,确保我们的用户可以随时提交自己的特征、训练任务,并在平台层面自动审计资源使用的合理性,从资源利用率和业务ROI的角度减少资源的浪费。

在太极一站式的三类用户群中,针对数据科学分析用户群的看清看透需求,是一站式元数据产品化的核心目标。过去因为缺乏统一的完整的特征到模型映射关系,导致无用特征下线、特征一致性校验时需要很高人力成本,且易出错,因此我们需要一套完整的、自动化的元信息管理,提高准确性和系统效率。

●数据积累:统一各阶段(特征注册、模块训练、模型上线)的入口,积累基础信息数据

●血缘构建:特征、模型、服务、实验等各个关键要素之间的映射关系数据的沉淀,API开放,并提供查询分析的产品。

未来展望:向智能化演进

接下来,我们将进一步深化关键节点的提效,引入更多的智能化技术,帮助我们的算法同学减少人工重复劳动,解放生产力将聪明智慧用到刀刃上。

提升特征探索效率

管好特征:建设特征库,实现特征精细化分析挖掘能力

用好特征:建设自动特征工程能力,实现自动特征评估,自动特征集合选择和自动特征交叉能力,提高特征入模型效率。

管好模型:建设模型库,降低模型开放共建门槛,实现模型共享复用

用好模型:建设AutoML模型自动优化能力,提高模型开发效率

THE END
1.大模型训练实战经验总结:从入门到精通,全方位解析模型训练中的关键步在当今AI技术飞速发展的背景下,定制化大模型的自主训练已成为满足特定行业需求、保障数据安全、提升模型应用效能的关键途径。本文将深度剖析这一过程的核心价值与实践智慧,从数据隐私保护、模型透明度增强,到数据预处理的精细操作,特别是数据配比在维持模型通用性与垂类能力平衡中的核心作用,为读者勾勒出一幅清晰的大模型https://blog.csdn.net/2401_85325726/article/details/144368261
2.AI模型gym强化学习仿真平台配置与使用腾讯云开发者社区【AI模型】gym强化学习仿真平台配置与使用 1. 项目介绍 项目Github地址:https://github.com/openai/gym Doc:https://gymnasium.farama.org/ OpenAI Gym 是一个用于开发和比较强化学习算法的开源工具包。它提供了一系列标准化的环境场景和API接口,使得研究人员和开发者能够轻松地创建、测试和评估各种强化学习算法https://cloud.tencent.com/developer/article/2438769
3.度小满自动机器学习平台实践今天会和大家分享下度小满在搭建自动机器学习平台 ATLAS 的实践经验。 随着AI 技术的发展,不同业务涉及的 AI 技术越来越多样,同时 AI 模型参数量逐年爆发式增长,如何克服 AI 算法落地面临的开发成本高、对人工依赖强、算法不稳定及落地周期长等问题,成为困扰人工智能从业者的难题。而“自动机器学习平台”是解决 AIhttps://www.51cto.com/article/746831.html
4.超好用的开源模型平台,ModelScope阿里达摩院今天主要想要分享Modelscope(魔搭社区)的使用,ModelScope是阿里达摩院于近一年刚上线的一款开源模型平台,里面提供了很多的热门模型供使用体验,而且与阿里云服务进行联动,不需要额外部署机器进行模型的运行调试,即可自动在阿里云进行实例创建。 一行代码实现模型推理,十几行代码实现对预训练模型的调优训练。兼容主流深度学习框https://developer.aliyun.com/article/1462430
5.北京发布“人工智能+”行动计划,上学将用上大模型—中国教育在线建设数据训练基地,为大模型训练提供算力、数据、开发工具和开源社区等资源。推动数据分类分级管控和“监管沙盒”机制。支持基础大模型在各行业领域推广应用,鼓励以自主可控的基础大模型为底座加速训练细分行业垂类大模型,完善大模型应用工具链。鼓励开源高参数自主可控基础大模型,支持搭建模型和数据集托管云服务平台,促进https://www.eol.cn/info/dongtai/202407/t20240730_2626996.shtml
6.本地搭建ai训练平台如何搭建自己的本地服务器_ECS服务器 搭建NFT平台_搭建数字藏品平台_数字资产平台_区块链-华为云 ModelArts模型训练_模型训练简介_如何训练模型 AI训练加速存储_高性能数据存储_AI数据存储内存不足怎么办 私有云平台的搭建 您找到想要的内容了吗? 是的 没有 产品专区 L实例 2核4G5M 秒杀 165元/年 性能https://www.huaweicloud.com/zhishi/edits-17561324.html
7.国产千卡千亿模型训练平台落地:70B到130B大模型训练,线性加速比达91%该方案可实现开箱即用,大大降低传统算力建设、应用开发和运维运营平台搭建的时间成本,实现快速投放市场开展商业化运营。 基础设施:包含KUAE计算集群、RDMA网络与分布式存储。此次发布的摩尔线程KUAE千卡模型训练平台,建设周期只需30天,支持千亿参数模型的预训练、微调和推理,可实现高达91%的千卡集群性能扩展系数。基于MTThttps://www.thepaper.cn/newsDetail_forward_25728333
8.手把手教你搭建人工智能AI写诗平台,从模型搭建到前后端开发到诗三百·人工智能在线诗歌写作平台开发教程 一步步教你搭建人工智能写诗平台,支持AI作诗,藏头诗生成,AI填词,自动对联,目录如下: 数据集预处理 写诗模型搭建 BeamSearch奖惩机制 Flask后端发布 Vue前端开发 高并发架构优化 敏感词过滤 运营推广SEO优化 数据集预处理 https://github.com/wangjiezju1988/aichpoem
9.科学网—[转载]基于容器云技术的典型遥感智能解译算法集成在设置了参数和配置文件后,平台自动创建了一个包含3个节点的集群,包含一个主节点和两个计算节点,在运行过程中,各节点算法正常训练。 在模型开发环节,采用公开仓库拉取环境镜像的方式搭建深度学习环境,因此只需在将镜像拉取到本地后,启动容器,即可进行模型开发。图11列出了启动容器的时间,每次启动可能会略有波动,启https://blog.sciencenet.cn/blog-3472670-1339282.html
10.大模型知识库大模型训练开箱即用的企业大模型应用平台智能体53AI企业大模型应用平台是大中型企业广泛采用大模型落地应用平台,系统实现对全部主流大模型的统一纳管,包括OpenAI、Azure OpenAI、文心一言、讯飞星火、零一、LlaMa等。53AI是国内顶尖的大模型落地应用供应商,是基于大模型的AI系统的先行者,产品的三大场景:全员+AI,业https://www.53ai.com/
11.Dify与FastGPT全面对比分析某大型电商企业使用Dify平台搭建了智能客服系统。通过Dify的大模型接入和Chat功能,该企业实现了24小时在线的客户服务,大幅提升了客户满意度。同时,Dify的Workflow功能帮助企业自动化处理客户咨询和投诉,减少了人工成本。 案例二:办公自动化 一家跨国公司采用FastGPT平台进行办公自动化。FastGPT的Chat功能帮助员工快速获取https://www.clzg.cn/article/638306.html
12.官网竹间智能大语言模型大模型训练调优平台AI对话竹间智能推出1+4大模型产品体系,旨在开启企业数智化转型的新篇章。其中,1代表大模型训练调优平台EmotiBrain,4则包括KKBot、Bot Factory+、Emoti Coach、Magic Writer和Knowledge Factory等四大类核心产品,涵盖了AI对话、对练培训、写作助手和知识管理四个方面的产品平台https://www.emotibot.cn/
13.AI中台——智能聊天机器人平台的架构与应用AI&大模型王东算法工程师(AI 中台、AI 团队),他们可以使用 AI 中台提供的平台层能力来进行在线训练、复用算法库、复用平台计算资源、进行各种实验等。 高级研发人员、数据分析人员,他们可以使用 AI 中台的自助训练能力,进行自助训练,例如:根据自己已经标注好的数据,自助训练分类模型。 https://www.infoq.cn/article/5_2QekZHvBj88q859P2U
14.Keras搭建Efficientdet目标检测平台的实现思路其它综合以上就是Keras搭建Efficientdet目标检测平台的详细内容,更多关于Efficientdet目标检测的资料请关注脚本之家其它相关文章! 您可能感兴趣的文章: python神经网络Keras搭建RFBnet目标检测平台 Keras目标检测mtcnn facenet搭建人脸识别平台 Keras神经网络efficientnet模型搭建yolov3目标检测平台 Keras搭建M2Det目标检测平台示例微信https://www.jb51.net/article/214752.htm
15.大模型运营平台SophonLLMOps星环大模型运营平台(Sophon LLMOps)是星环科技推出的企业级大模型全生命周期运营管理平台,旨在赋能企业用户能敏捷、高效、有闭环地将大模型落地到生产和业务中去。Sophon LLMOps打通并优化了语料接入和开发、提示工程、大模型训练、知识抽取和融合、模型管理、应用和智能体构建、应用部署、运维和监控,以及业务效果对齐提升https://www.transwarp.cn/subproduct/sophon-llmops