一个全能大模型工程师的基本素养|百度飞桨paddlepaddle在线训练平台_在线学习

个人介绍：金雪锋，昇思MindSpore首席架构师，华为2012实验室中央软件院架构与设计管理部部长，当前主要的方向MLSys，包括大规模机器学习系统、AI编译器、AI+科学计算系统等，之前曾先后担任华为的分布式数据库/大数据平台、电信基础软件平台的技术负责人，有20年系统软件设计和开发经验。

陶阳宇腾讯TEG机器学习平台部总监

于佃海百度飞桨平台总架构师

个人介绍：于佃海，飞桨（PaddlePaddle）平台总架构师，百度集团机器学习平台TOC主席，CCF高级会员。2008年从北京大学毕业后加入百度，长期从事AI基础技术和平台研发工作。曾构建了百度第一个大规模分布式机器学习训练系统，最早将机器学习技术引入百度搜索排序，建设了百度最早的机器学习基础算法库和实验平台。作为百度深度学习技术最早一批研究人员，开创深度学习语义计算等技术方向，在深度学习大规模分布式训练、神经网络机器翻译、自然语言语义理解与交互等方向上取得多项突破性成果。参与多项国家重点研发计划课题研究。曾获中国电子学会科技进步一等奖、北京市科学技术进步奖一等奖、CCF杰出工程师奖。

于璠华为软件领域科学家、昇思MindSpore技术总经理、AI4SciLAB主任

个人介绍：于璠博士，中国科学技术大学计算机博士毕业，华为工作14年，现任华为软件领域科学家、昇思MindSpore技术总经理、AI4SciLAB主任，获得中国软件协会卓越工程师、OSCAR开源人物，获聘哈尔滨工业大学客座教授、西电客座教授，主持科技部2030人工智能重大专项，主导华为AI系统核心算法、云计算资源调度、SDN大规模路由等架构和算法的设计和落地，发表专利和论文40余篇。

演讲题目：AI框架业界趋势及MindSpore实践

演讲题目：腾讯太极LLMOps大模型平台实践

1.LLMOps基础简介

2.太极大模型平台

3.数据飞轮与管理

4.模型训练与推理框架

5.性能优化与成本

6.大模型集群稳定性

听众收益：

1.如何通过框架性能优化，降低大模型30%成本？

2.如何提高大模型千卡训练稳定性？

3.大模型LLMOps平台如何建设？

胡晓光百度杰出架构师

个人介绍：胡晓光，百度杰出架构师，研究方向自然语言处理、深度学习框架、AI科学计算等。现负责飞桨训练框架核心技术研发，设计了飞桨2.0全新API体系；牵头研制飞桨高阶自动微分、深度学习编译器等技术，支持AI科学计算的创新应用；牵头研制了飞桨产业级开源模型库，助力飞桨位列中国深度学习平台市场综合份额第一。曾获国家科技进步二等奖1项，省部级科技进步一等奖3项。

演讲题目：大模型时代的深度学习平台发展思考和飞桨实践

演讲提纲：大模型时代深度学习技术演进对深度学习平台提出了新的需求，本报告介绍深度学习平台的发展思考和飞桨开发实践，包括飞桨框架2.5版本的核心架构升级和大模型训练、部署、多硬件适配方面的工作。

1.大模型时代深度学习平台所面临的挑战

2.深度学习平台的技术演进思路

3.飞桨深度学习平台技术特色

出品人：刘童璇深度学习引擎专家

个人介绍：尤洋，新加坡国立大学校长青年教授，加州大学伯克利分校计算机科学博士学位，导师是计算机科学部和EECS系的前任系主任JamesDemmel教授。尤洋的研究兴趣包括并行/分布式算法、高性能计算和机器学习。他当前研究的重点是扩展分布式系统或超级计算机上的深度神经网络训练。2017年，他的团队打破了ImageNet训练速度的世界纪录，并被NSF、ScienceDaily、ScienceNewsLine、i-programmer等科技媒体报道。2019年，他的团队打破了BERT训练速度的世界纪录。BERT训练技术已被Google、Microsoft、NVIDIA等众多科技巨头使用。尤洋团队开发的LARS和LAMB优化器可在行业基准MLPerf中使用。他曾获得IPDPS2015最佳论文奖（0.8%）、ICPP2018最佳论文奖（0.3%）、AAAI2023杰出论文奖（0.14%）、ACL2023杰出论文奖（0.8%）和ACM/IEEEGeorge迈克尔高性能计算奖学金。他是Siebel学者，LotfiA.Zadeh奖获得者。尤洋被加州大学伯克利分校提名为ACM博士论文奖（2020年毕业的81名伯克利EECS博士生中有2名）。他还入选了《福布斯》亚洲30Under30榜单（2021年），并荣获IEEECSTCHPC早期职业研究人员高性能计算卓越奖。欲了解更多信息，请查看他的实验室主页：NUSHPC-AILab

演讲题目：超大模型的高效训练和部署技术

对于大型语言模型而言，更大的模型参数通常意味着更好的性能，这对当前GPU等AI加速器硬件的内存墙提出了挑战。分布式训练是最自然的解决方案，但实现分布式训练，尤其是模型并行性，通常需要计算机系统和架构方面的领域专业知识。对于人工智能研究人员来说，为其模型实施复杂的分布式训练解决方案仍然是一个挑战。

褚超群旷视科技MegEngine训练侧负责人

个人介绍：褚超群毕业于上海交通大学，主要研究方向为神经网络压缩，存算一体架构，AI编译器等。现在是旷视深度学习框架MegEngine训练侧负责人，负责MegEngine训练侧的AI编译与性能优化等。

演讲题目：MegEngineAI编译与训练性能优化实践

1.了解模型训练与推理时主要性能问题的异同

2.了解在训练时使用AI编译解决性能问题的挑战

出品人：薛继龙微软亚洲研究院高级研究员

马凌霄微软亚洲研究院高级研究员

个人介绍：马凌霄，微软亚洲研究院智能云端系统组高级研究员，2020年博士毕业于北京大学，目前主要从事深度学习编译框架方面的研究工作，多项研究成果已发表在OSDI，SOSP，USENIXATC等国际会议上。

演讲题目：基于块（Tile）抽象的高效深度学习编译系统

演讲提纲：在人工智能技术快速发展和广泛应用的今天，人工智能应用需要高效部署在多样化的计算机硬件架构上。然而，随着新模型和新硬件的快速出现和迭代，业界对高效、快速的模型部署有了更高的要求。深度学习编译器成为了一种新的连接模型计算表达和底层硬件执行的途径。然而，如何在不同硬件上高效支持快速发展的人工智能应用仍然存在很多挑战。本报告将介绍我们基于统一的块（Tile）抽象，在深度学习编译领域的一系列探索性工作，包括提升硬件并行利用率（Rammer@OSDI'20）、提高编译效率（Roller@OSDI'22）、优化全局访存效率（Welder@OSDI'23）、优化控制流的高效执行（Cocktailer@OSDI'23）。我们希望通过设计一套统一编译抽象并基于此抽象构建编译系统，从而为深度学习软件和硬件技术提供更加通用和高效的桥梁。

1.一套基于块（Tile）抽象的高效深度学习编译系统

2.在深度学习应用场景，如何通过块（Tile）抽象提升硬件并行利用率

3.如何通过块（Tile）抽象提升深度学习编译效率

4.如何通过块（Tile）抽象优化深度学习应用的全局访存效率

5.如何通过块（Tile）抽象统一调度和优化深度学习应用的数据流和控制流

淡孝强独立学者

个人介绍：2012年毕业于国防科大，同年加入华为编译器团队，曾是基带芯片自研编译器团队核心；17年开始参与昇腾AI编译孵化工作，是TE（后改名TBE），AKG，图算融合项目的主创和架构师；20年加入希姆计算任Toolchain总监，负责AI编译器研发，所带项目TensorTurbo泛化支持160+模型，性能持平A10，核心技术所写论文被OSDI2023接收。

演讲题目：EffectivelySchedulingComputationalGraphsofDeepNeuralNetworkstowardTheirDomain-SpecicAccelerators

演讲提纲：AI芯片的编译技术路线一直深受NvidiaGPU的kernelbykernel模式（有大量的offcore的数据搬移，对DRAM的带宽要求很高，不能做到整网性能最优）影响，该演讲将介绍完全不同的一种技术路线：图调度技术。充分利用模型的数据分布不均的特点，以及AI芯片的硬件特点，尽可能的把模型运行的中间数据都驻留在片上，降低数据搬移，降低对带宽的需求。演讲将从现有技术的问题展开，将阐述图调度技术如何解决当前问题，在已有AIDSA硬件上相比kernelbykernel模型有11倍性能提升。

1.了解当前AI编译面临的主要挑战；

2.了解图调度技术

3.重新思考基于图调度的DSA架构设计

冯思远上海交通大学博士研究生

个人介绍：冯思远是上海交通大学致远荣誉计划博士生的学生，本科毕业自上海交通大学ACM班。目前是ApacheTVM的PMCmember、MLC社区成员。

演讲题目：利用机器学习编译技术部署大模型

演讲提纲：

1.机器学习编译(MLC)技术

2.ApacheTVMUnity简介

3.利用MLC-LLM部署大模型

4.总结

1.大模型部署中遇到的挑战

2.机器学习编译(MLC)技术在大模型场景中的作用

3.MLC-LLM的技术细节

王彪NVIDIAArchitect,Sr

演讲题目：TritononHopper

主要内容包括：

1.Background

2.APIchangesandHowtouse

3.IRStructureandLoweringPath

4.Performance

5.Plansforthefuture

1.OpenAITriton支持Hopper架构之后的API变化

2.OpenAITriton支持Hopper架构的技术路径

3.TritononHopper当前的性能和后续计划

出品人：涂威威第四范式副总裁、主任科学家

曾冠奇特赛发创始人CEO

个人介绍：硕士毕业于武汉大学国家网络安全学院，师从教授委员会主任王丽娜教授。2015年阿里大数据竞赛15/4868，2016年上海bot大赛排面自动识别初复赛第一名。先后任职平安科技（世界500强）资深工程师（2012-2014）；国家某部委841院多媒体深度学习负责人-2016；便利蜂智能零售实验室teamleader。2017-2018；敦煌网算法总监2018-2020；蚂蚁集团数字金融线数金搜索算法负责人2020-2022；CSDN学院人工智能讲师；创新工场AIchanllege讲师；之江实验室学术兼职专家；浙江万里学院行业实践硕士生导师；IEEESMC2020AdaptiveContextLearningNetworkforCrowdCounting第一通讯作者；ACMSIGIR2022CTnoCVR:ANoveltyAuxiliaryTaskMakingtheLower-CTR-Higher-CVRUpper第一通讯作者。

演讲题目：特赛发大模型训练推理实战

1.如何构建一个有力的LLM训练套装

2.如何构建一个准实时的推理服务

1.多机多卡并行分布式训练为什么不可取

2.初创LLM企业如何搭建有力的训练套装

3.LLM训练架构选型和优化

4.准实时推理服务的搭建

5.常用的LLM软件架构设计小技巧

吕冬冬云知声智算平台架构师

个人介绍：负责云知声大规模分布式机器学习平台架构设计与新功能演进，负责深度学习算法应用优化与大模型加速。工作领域涉及大规模集群搭建、集群资源调度、高性能计算、分布式文件存储、分布式缓存等。是CNCFFluid开源项目Committer,获得过2021年厦门市科学技术奖一等奖，福建省科学技术将二等奖。

演讲题目：云知声Atlas一站式高性能大模型智算平台实践

1.大模型训练简介

2.Atlas算力平台介绍

3.大规模数据预处理集群建设

4.训练平台建设及性能优化

5.分布式训练稳定性保障

1.了解大模型训练平台的搭建

2.了解如何从计算、网络、存储与训练框架的角度提高训练效率

3.如何自动化监测大模型训练以及如何提高训练稳定性

石宪vivoAI高性能计算工程师

个人介绍：vivoAI高性能计算工程师。毕业于西安电子科技大学，主要负责vivo移动端计算加速平台VCAP的研发，助力AI算法在移动端快速部署、高效运行。

1.transformer基础及端侧业务落地难点

2.transformer业务场景的实践与优化

1.帮助听众了解transformer结构及端侧落地的难点。

2.帮助听众了解VCAP如何在性能、内存、体积等多个方面实现transformer的高效落地。

王召德淘天集团大淘宝技术技术专家

个人介绍：中国科学院计算技术研究所硕士，任职于阿里巴巴淘系技术MNN团队负责MNN框架架构设计，性能优化等工作。在AI框架架构设计与优化，AI模型编译与代码生成，多后端算子优化，多设备模型部署等领域有丰富经验。

THE END

一个全能大模型工程师的基本素养

百度申请多模态基础模型的训练专利，提升训练效果向量通用大模型知名企业

深度学习新篇章：百度飞桨PaddlePaddle实战解析

百度飞桨(PaddlePaddle)分布式训练在Volcano系统上的实践（下）云社区

飞桨AIStudioAI学习网站

百度飞桨服务器，探索其功能与影响新闻中心

百度飞桨(PaddlePaddle)PPOCRv3文字检测识别系统PaddleInference模型推理（离线部署）VipSoft

寒武纪与百度飞桨PaddleLite完成适配加速AI多场景落地

PaddlePaddle:源于产业实践的开源深度学习平台，飞桨致力于让深度学习技术的创新与应用更简单

一个全能大模型工程师的基本素养