百度算法大牛35页PPT讲解基于EasyDL训练并部署企业级高精度AI模型

在5月9日晚7点的高精度AI模型公开课百度EasyDL专场中,百度AI开发平台高级研发工程师饼干老师,为大家系统讲解企业在AI模型开发中的难点,以及针对这些难点,百度EasyDL专业版又是如何解决的。

本文为此次专场的实录。

正文:

今天的课程主题为《基于EasyDL训练并部署企业级高精度AI模型》。本次讲解的内容分为下面几个部分:

1、企业在开发与部署AI模型中面临的挑战

2、AI开发平台EasyDL介绍

3、EasyDL技术原理解析

4、脚本调参和Notebook开发方式介绍

5、EasyDL企业应用案例

6、实操:饮品检测模型训练、调优与部署

目前各行各业都需要AI的落地,但是在落地的过程中,往往需要定制化地开发AI模型。在一次联合调研过程中,我们发现约86%的市场需求需要定制化开发业务场景下的AI模型。这里画一个重点,是“定制”这两个字。

百度的AI开放平台已经提供了一些通用的接口,但是这些通用接口只能满足一部分的需求,并不能满足所有的需求。比如科研机构的野生生物识别,这是属于一个细粒度图像分类的问题;还有工业上统计原材料的数量、或者说统计工业上的一些瑕疵;物流方面的包裹分拣;安防方面的厨师帽检测、安全帽施工检测;零售方面,统计SKU的数量、计算分销率、或者统计货物在货架上的占比等等。

总体来说,目前定制AI模型面临着成本高、项目效果无法达到预期等问题。

下面是第二部分,EasyDL的介绍。

EasyDL是一个企业级的一站式AI开发平台,同时支持定制化的训练模型。EasyDL为企业、以及个人开发者提供了AI模型开发中的全流程功能支撑,面对不同的群体提供多样化的产品形态。多样化的产品形态,包括EasyDL经典版,帮助零算法基础的用户定制高精度的AI模型;专业版,提供可编程操作,帮助开发者更加灵活地进行AI模型开发;零售版,结合零售场景中的数据、算法,做了一些场景优化和增值服务。

EasyDL底层基于百度自研的飞桨PaddlePaddle深度学习框架实现。支持图片、文本、视频、音频等输入数据。依托飞桨核心框架,提供数据预处理、模型训练、部署以及serving服务。目前提供的服务方式有4种:

1)公有云API:用户可直接调用百度云提供的API进行使用。

2)设备端SDK:做移动端、端设备、以及嵌入式的一些同学可以考虑使用设备端的SDK进行服务部署。

3)Edgeboard/十目软硬一体:目前我们所有的算法都会去优先适配这两款软硬体的设备。

4)本地服务器部署:针对一些有本地化、私有化部署需求的同学,我们提供本地化服务器部署的方式,同样可以达到serving的效果。

-EasyDL经典版

EasyD经典版是2017年11月份推出的全球第一个AI定制化开发平台,目前主要提供图像分类、物体检测、图像分割、文本分类、声音分类、视频分类等功能。其适合AI基础比较薄弱、或追求高效率开发的企业及个人开发者。

-EasyDL零售版

在经典版的基础之上,我们推出了零售版。提供结合了零售行业的数据、算法、工具等一些服务。其次,我们推出了一些增值功能,比如说SKUCloud、货架拼接、智能排成、翻拍识别,门头识别等。

举个例子,比如说SKUCloud,我们已经提供了一个1500类日常化品类的API,在满足场景的情况下,可以直接使用提供的标准化API。如果有其他需求,则可以通过EasyDL零售版平台训练满足实际零售场景需求的SKU模型。该版本适用于有商品识别需求的零售行业企业或者服务商。

-EasyDL专业版

为了满足用户的深度编程、深度调参等需求,去年我们推出的EasyDL专业版。其中内置了百度自有的海量数据训练的预训练模型,目前在CV和NLP领域已经提供了多项的功能。其中在NLP领域,我们预置了百度自研的业界效果最好的预训练模型ERNIE和多种NLP经典算法网络。ERNIE在中英文的16个任务上超越了业界最好模型。2019年底,ERNIE以历史上首次超越90大关的成绩登顶自然语言处理领域最权威的GLUE评测榜单。之后在SemEval2020中摘得五项世界冠军。目前通过EasyDL专业版助力业界开发者,模型效果和开发效率全面提升。

最后介绍一下EasyDL的平台特性。与普通的机器学习工具相比,EasyDL从数据、模型训练、到最后的服务,提供了一站式的解决方案。我们面向用户也很广泛,可以是零基础的小白(经典版),也可以是有一定数据处理能力的开发者(专业版)。同时也提供了比较全面的定制化开发能力,包括分类、检测、分割、文本、声音等。在服务端我们提供了端云一体的解决方案,轻快即用,并内置大量的预训练模型。

然后我简单介绍一下EasyDL的一些基本技术原理。

在业务层面上,我们主要提供了数据集管理、模型训练、模型评估、模型校验和模型发布的功能,其底层依托于飞桨PaddlePaddle平台。

在工作流这一部分,我们自研了AIWorkflow,可以实现数据服务、数据预处理、模型训练、评估模型、模型部署的整个Workflow定制化。

下面我们先介绍一下AIWorkflow,然后主要讲一下数据服务,数据预处理和模型模型训练这三个部分。

-AIWorkflow

提到模型训练,我们知道,不仅仅是训练这一个步骤,一般的深度学习都会经历从数据获取、数据预处理、模型训练、模型评估到最后服务部署的流程。EasyDL的AIWorkflow,融合了传统的机器学习工作流和大数据处理,其中,数据获取是基于MongoDB和HDFS,数据预处理和评估是基于Spark这个大数据处理框架,模型训练是基于飞桨PaddlePaddle这个深度学习框架,serving也是基于k8s构建的一整套运维系统。

AIWorkflow的基本功能就是要把这些架构完全不同的任务组织成工作流,自动完成流水线任务。进一步讲,AIWorkflow还需要对任务进行并发管理、优先级管理、任务重试、支持幂等性等功能,此外,还需要对底层资源进行调度和分发,从而保障流水线可以高效有序地完成。

-数据服务

数据服务主要包括数据管理、智能标注、和数据闭环,其都可以通过EasyData来完成。EasyData是近期上线的智能数据服务平台,提供数据采集、标注、清洗、加工等一站式数据服务,助力开发者高效获取AI开发所需高质量数据。接下来重点介绍一下数据服务中的智能标注。

智能标注,只需要用户标注30%的数据就可以训练出与全量数据训练效果相等的模型,其标注的流程如下图右上角所示。当我们有成千上万的数据时,如果全部通过人工标注的方式进行标注,那么需要的工作量很大。所以我们可以先标注少量数据,启动智能标注,然后进行模型训练,通过少量数据训练出的模型自动对其他数据进行标注,而人工只需要对数据中的难例进行判断,如果符合标准,则可以直接进行标注,不符合标准,则启动下一轮智能标注的循环,极大地减少了人为的工作量。同时整个工作流也都可以通过AIWorkflow来直接完成。

举个例子,如左上角所示。我们进行一个猫狗数据集的标注,如果利用模型进行识别,第一张图片中的小猫我们可以很容易地判断出它是一只猫,属于EasyCase,而后面两张图片就比较难识别,可能会被识别为其他的类别,属于HardCase。所以,简单的Case是可以通过模型进行标注,而一些多样性比较大的Case还是需要人为进行标注。从最终标注的结果来看,我们大约只需要30%的标注数据,便可以达到100%标注数据所达到的效果,节省了70%的人力成本。

-数据预处理

我今天主要介绍一下数据预处理中的数据增强。举一个简单的例子,如下图所示。

比如说在我们采集到的数据中,品牌A的车头都是朝左,品牌B的是朝右,那么对于第三张图片,模型是识别为品牌A、还是品牌B呢?会不会将车牌识别为一样的呢?还是会识别车牌的朝向呢?

为了增强其类别的置信度,我们可以对原图进行数据增强,比如水平翻转、180度翻转、和270度翻转等。当然,翻转只是数据增强方式的一种,还有其他如抠图、裁剪等方式。

不同场景下所需要的增强方式是不同的。对于开发者来说,需要了解数据集与应用场景,以及每种数据增强方式的不同参数设置。

-模型训练

最后是模型训练部分。模型训练包括了四个部分,TransferLearning、AutoDL、自动超参优化和分布式训练加速,下面我将为大家一一介绍。

TransferLearning,所谓迁移学习,就是事先用一个大数据集训练出一个模型,然后用这个模型再接受用户自定义的小数据集来进行训练,对其中网络结构参数进行微调,从而使模型对于用户的小数据集更加敏感,达到好的识别效果。

那么为什么需要用迁移学习?我从0开始训练一个模型不行吗?一个是考虑用户数据稀缺性:从头训练一个深度神经网络模型,很依赖大规模的标注数据,但考虑到行业数据的收集难度和标注成本,非常难以获得。使用迁移学习的另一个原因是考虑训练时长:从0开始训练,往往需要几天甚至几周,但使用迁移学习,训练耗时只需要几小时甚至若干分钟,可以加快用户的模型迭代效率。

当然,迁移学习不是万能的。要使用迁移学习,前提是要保证源领域与目标领域的相似性,这里的源领域是指预训练模型所使用的数据集,目标领域指用户自定义的数据集。迁移学习要求它们具有相似性,只是目标领域更具定制化和细分化。

举个例子,比如你会骑自行车,那么应用迁移学习,相信你也能骑电动车,但若是你会骑自行车就想直接开汽车,那迁移学习做不到,因为差别太大了。因此,EasyDL是使用了百度自有的海量数据进行预训练,对用户涉及到的各个应用场景,基本上都会有涉及,所以才能满足这个前提。

AutoDL,利用强化学习设计深度学习的框架。具体来说,随着硬件、应用场景和模态的多样化,我们使用的模型结构也需要不断进化。那在设计新模型的过程中,这个搜索空间极为庞大,想要尽可能探索这一空间,就必然要从手工设计模型,转向自动化生产模型。我们实际使用到的技术就是利用深度增强学习完成模型设计,系统由两部分组成,第一部分是网络结构的编码器,第二部分是网络结构的评测器。

编码器通常以RNN的方式把网络结构进行编码,然后评测器把编码的结果拿去进行训练和评测,得到包括准确率、模型大小在内的一些指标,反馈给编码器,编码器进行修改,再次编码,如此迭代。经过若干次迭代以后,最终得到一个设计好的模型。

自动超参调优,做过算法调优的朋友都知道,人工调参,需要设定一组超参数,跑一组实验,然后根据结果再来调整超参数,这个过程会非常耗时费力,因此我们需要转向自动调参。要做自动调参,就要涉及到超参推荐策略,也就是根据上一组实验结果的反馈,推荐出下一组实验的超参值,从而让任务自动化。具体的推荐策略简单的有Random,Grid(网络搜索),具有推荐算法的策略常见的有TPE,bayes等。

此外,自动超参调优还有搜索方式的优化。普通的搜索方式就是并行独立搜索,即并行跑多组实验,全部跑完后收集结果,哪组结果最好,就认为哪组超参最优。另一种搜索方式是叫PBT,它也是并行搜索,但不独立。

这里我举例来说明,如上图中,有两个并发进行的实验,初始时传入的超参和模型权重都不相同,经过一定轮数的训练之后,到第2步会对两个worker效果进行对比,发现worker0效果比较好,就进行第3步,把workder0的权重和超参值复制到worker1,worker0本身的训练不受影响,而对worker1,还要进行第4步,对复制过来的超参值加入一些扰动,使之与worker0参数有所差异,再继续训练。这样就相当于在训练过程中把worker1上原始的超参值给过滤了,并在好的超参基础上进行进一步实验,从而加快搜索效率。

分布式训练,前面几个模型训练阶段的优化都是针对模型效果的,其实在训练效率上,我们也有优化加速,那就是使用DGC深度梯度压缩机制。

飞桨PaddlePaddle从1.6.2版本开始也集成了DGC的优化机制,我们也即将应用到EasyDL专业版中。可以看下我们做的对比实验,在v100上dgc机制加速明显,其中两机两卡单batch加速9倍、两机四卡单batch加速7.4倍。分布式的DGC已经在4月份的EasyDL专业版上使用,大家可以在训练的时候选择多节点方式进行训练。

下面给大家介绍一下EasyDL专业版的两种开发模式,脚本调参和Notebook。

脚本调参,进入到脚本调参页面之后,首先是数据集的选择。数据集可以是提前准备的数据集,包括分类、检测。

然后是数据增强策略的选择。我们这边支持自动搜索,如果选择默认配置,我们对每一个模型都会选择一个比较通用的增强策略。选择手动配置的话,用户可以根据自己的行业经验去配置增强策略。针对不同的场景,不同的想法,都可以通过手动的方式进行配置。

其次,是网络的选择。我这边选择的是一个FasterR-CNN网络,你也可以选其他如YOLO、RetinaNet等网络。并且同时支持Python2、Python3两个版本。

重点来了,如果你想修改这个模型的结构,或修改一些模型参数,你可以在这个脚本编辑里面点立即编辑进行编辑。上面暂时并不支持Backbone的修改,就是说ResNet50+FPN是不能修改,但是boxhead,就是头部是支持修改的。

还有Batchsize、Inputofsize、Epoch、以及学习率的变化、Learningrate的变化都是支持修改的。包括对于检测任务来说,一些unclebase方法、基于锚框的训练方法,我们都可以设置一些关于锚框的一些训练参数。

Notebook,是一个类似于Jupyter的开发工具。左侧的这几个文件都可以通过本地上传,数据集也可以本地上传,也可以直接用EasyDL把之前上传过的数据集直接拉到这个训练环境当中。你可以把这个环境理解成属于自己的一个高性能GPU服务器终端,我们在Notebook里面,为每个Notebook的用户内置了一个32GB、V100的GPU,这个性能是很好的。大家可以用这个Notebook去实现一些简单的模型,这就是完全把主动权交给大家。

如果说之前的EasyDL经典版是一个黑盒,那专业版的就可以修改一些参数,通过Notebook的开发模式,用户可以自己实现模型的定义、数据的读取、数据的增强、以及最后的预处理。大家如果有新的想法,都可以去体验一下我们的Notebook。

最后再讲一些在EasyDL上经典的应用案例。

这是一个扶贫办的案例。汉中扶贫办使用EasyDL训练房屋类型、医学条件的识别模型,并将识别模型加入到他们的平台系统中,极大地提高工作人员的效率。以前并不能做到家家户户地检查,而通过这种方式,就可以做到全覆盖检查。

这是一个工业喷油嘴瑕疵的质检。柳州源创公司使用EasyDL物体检测的模型去训练它们工业喷油嘴瘕疵的检测模型,大约每年可以节约60万的成本,检测效率提升了30%。中间那个图片是他们的解决方案,其中的检测模型是用到了我们检测的模型。

零售场景中通过定制化的商品检测去进行陈列审核。惠合科技采用了EasyDL训练的商品检测模型,抽取了3000家零售门店并接入陈列审核,那么品牌商就可以通过这种方式计算到商品的排列占比、分销率等。从前是通过人力去观测这些数值,而现在通过AI的方式,让人员的效率大大提升了30%。

在这个环节中,我将为大家实际演示一下EasyDL平台的使用方式。具体的演示内容大家可以点击下方的视频进行观看。

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

THE END
1.未来已来?国内14家AI大模型应用盘点(附体验网址,持续更新)简介:腾讯AI Lab自研的大规模预训练生成语言模型,擅长开放域聊天、内容创作、知识问答等。 实际体验:实际体验还行,常规水平,没有发现特别突出的方面。 演示:列举登山必备品并制成表格 9、商汤——商量 网址:https://sensechat.sensetime.com/ 简介:商汤科技推出的多模态对话交互平台,利用视觉、语言等技术,提供沉浸https://blog.csdn.net/qq_51646682/article/details/136905451
2.poweredbyPaddlePaddlePaddleClasOpenIPP-HGNet & PP-HGNetV2 系列模型的精度、速度指标如下表所示,更多关于该系列的模型介绍可以参考:PP-HGNet 系列模型文档、PP-HGNetV2 系列模型文档。 模型Top-1 AccTop-5 Acctime(ms)bs=1time(ms)bs=4time(ms)bs=8FLOPs(G)Params(M)预训练模型下载地址inference模型下载地址 PPHGNet_tiny 0.7983 0.9504 https://openi.pcl.ac.cn/PaddlePaddle/PaddleClas/src/branch/develop/docs/zh_CN/models/ImageNet1k
3.AI体验文本分类的训练与模型使用 20,422 6,347 Flappy Bird 训练AI模型自动玩转游戏 236,863 35,135 涂鸦识别 使用AI模型识别简笔画 153,464 26,657 姿态分类 姿势分类的训练与模型使用 31,424 9,847 图像分类 图像分类的训练与模型使用 106,421 30,708 https://www.openinnolab.org.cn/pjlab/aifrontlab
4.AIGC大模型应用技术实训平台00:00/00:00 AIGC大模型应用技术实训平台 中智讯发布于:湖北省2024.12.04 10:36 +1 首赞 作者声明:自主拍摄 AIGC大模型应用技术实训平台可以用于人工智能专业的学习 、实训、实验,丰富的案例https://www.sohu.com/a/833057746_121809663
5.ai模型训练平台训练模型华为云帮助中心为你分享云计算行业信息,包含产品介绍、用户指南、开发指南、最佳实践和常见问题等文档,方便快速查找定位问题与能力成长,并提供相关资料和解决方案。本页面关键词:ai模型训练平台。https://support.huaweicloud.com/topic/1083050-2-A
6.ai游戏模型训练平台模型训练AI游戏模型训练平台专注于提供高效、便捷的模型训练服务。通过先进的技术和算法,帮助开发者快速构建和优化游戏AI模型,提升游戏体验。 AI游戏模型训练平台是一种用于开发和训练人工智能(AI)游戏模型的工具,它提供了一系列的功能和工具,帮助开发人员创建、训练和优化游戏模型,以实现更智能、更具挑战性和更有趣的游戏体验https://www.shiwaiyun.com/article/post/287749.html
7.模型训练平台自训练平台ai数据自训练平台机器学习操作企业级模型训练平台,一站式服务简化大模型训、推、评全流程。通过模型量化技术,优化GPU资源使用,服务更多AI应用场景,实现资源的高效利用。Triton引擎推理加速,将模型参数转换并编译为GPU指令相关的二级制文件,提高运行时计算效率。https://www.zkj.com/training
8.AI模型训练和开放服务平台的研究与实现【摘要】:AI模型训练和开放服务平台是面向企业的、易用的一站式AI应用开发工具,通过简化AI应用开发流程,屏蔽技术实现细节,提供数据管理、模型管理和服务管理等功能,帮助企业可以快速、高效、低成本地进行AI产品的开发与应用。但是由于AI应用开发存在着训练数据来源及格式复杂、训练依赖于多类型资源、开发流程繁琐等特性,https://cdmd.cnki.com.cn/Article/CDMD-10013-1021124067.htm
9.模型训练平台模型训练平台是基于多种机器学习框架开发的人工智能云平台,具有强大的硬件资源管理能力以及高效的模型开发能力,可进行模型开发、分布式训练与服务发布,降低AI使用门槛,提升开发效率,助力车企加速智能化转型。https://www.z-one.tech/products/modeltraining/
10.AI模型平台AMP提供科学、系统的企业级模型平台,面向大模型全新开发范式,打通SenseCore上下游子产品,覆盖大模型训练、推理、到部署应用的全栈式AI开发场景,帮助企业内部有效沉淀及共享模型资产,加速AI开发效率,并提供开放算法库和更为稳定的服务保障。 联系销售 产品优势 提供业界领先算法模型及管理经验,支撑千亿参数行业大模型。 https://www.sensecore.cn/product/amp
11.人工智能PAIDLC云原生一站式深度学习训练平台分布式阿里云人工智能PAI-DLC平台提供灵活、稳定、易用和极致性能的机器学习训练环境,支持多种算法框架,超大规模分布式深度学习任务运行及自定义算法框架https://www.aliyun.com/activity/bigdata/pai-dlc
12.AI算法模型自训练管理平台平台是面向用户的一站式AI算法模型训练及管理平台,为机器学习与深度学习提供海量数据预处理及交互式智能标注、大规模分布式训练、自动化模型生成以及端-边-云模型按需部署能力,帮助用户快速训练和部署AI算法模型。 “一站式”是指AI开发的各个环节,包括数据处理、模型管理、模型训练、模型部署都可以在平台上完成。平台http://www.hxytech.com/product/103.html
13.AI绘画模型平台和网站合集触手AI绘画专业版是为插画师、漫画师、设计师等专业用户打造的国产AI绘图平台。平台支持文生图、图生图、参考生图、AI模型训练、AI视频、图生文等功能。同时平台内有丰富且优质的基础风格模型、Lora叠加模型以及AI绘画作品。 AIGC Cafe-AI绘画模型分享社区 https://www.aihub.cn/models/?post_order=views
14.堆栈AIInfra——AI大模型时代的“卖铲人”1)数据准备:无论是支持经典的机器学习模型还是大规模预训练模型,数据准备都是耗时较久、较为关键的一环。我们认为,LLM浪潮下高质量的标注数据和特征库需求将持续增长,未来海量训练数据的需求或由合成数据满足。此外,我们强调Data+AI平台厂商的关键卡位。2)模型训练:预训练模型的获取使得模型库更加流行,LLM大规模训练https://wallstreetcn.com/articles/3695292
15.AIGC系统程序源码AI绘画做图AI机器人模型训练虎鲸-ORCA AIGC系统内置智能聊天对话机器人 AI绘图 AI模型训练 营销内容创作 企业虚拟AI员工等数十项AI功能,可以训练自己的AI机器人,不限制用户数量,支持源码私有化部署,可以用自己品牌掘金AI蓝海市http://www.hb-forall.com/
16.人工智能训练平台V1.6版本 支持用户自定义算法并一键发布,无缝集成AI工作室图形化项目。支持算法公开及克隆,方便、高效、灵活。 V2.0版本 人工智能训练平台V2.0版本,为您提供更丰富的算子控件、模型管理和算法管理服务,支持私有化部署。https://ei.casicloud.com/
17.多位创作者起诉某社交平台用画师作品训练AI模型涉侵权,已获立案近日,四位绘画创作者将某社交平台的主体公司及该平台Trik软件主体公司诉至法院,引发关注。今年上半年,平台推出AI绘画图片生成模型trik,有粉丝发现,trik账号随后更新的图片,画风及一些元素与一些画师的作品相似。 画师们认为,平台方面涉嫌用他们的作品提供给AI模型进行学习并生成高度相似的作品,侵犯了创作者的合法权益,因https://content-static.cctvnews.cctv.com/snow-book/index.html?item_id=18244119765129020083
18.深度解读华为云AI开发平台ModelArts技术架构ModelArts 是华为全栈全场景 AI 解决方案面向用户和开发者的门户,作为一站式 AI 开发平台,提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成,及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期 AI 工作流。 繁多的 AI 工具安装配置、数据准备、模型训练慢等是困扰 AI 工程师的https://www.infoq.cn/article/wMzAP-QomqEaOug3ua2A
19.英伟达H100vs苹果M2大模型训练,哪款性价比更高?蓝海大脑大模型训练平台提供强大的支持,包括基于开放加速模组高速互联的AI加速器。配置高速内存且支持全互联拓扑,满足大模型训练中张量并行的通信需求。支持高性能I/O扩展,同时可以扩展至万卡AI集群,满足大模型流水线和数据并行的通信需求。强大的液冷系统热插拔及智能电源管理技术,当BMC收到PSU故障或错误警告(如断电、电https://m.elecfans.com/article/2196753.html