开源AI模型生产平台YMIR加速视觉模型开发与迭代云天励飞未来工厂技术总监胡文泽主讲回顾文章|开源ai训练平台_在线学习

5月25日，智东西公开课联合云天励飞策划的「开源AI模型生产平台YMIR公开课」顺利完结直播。公开课由YMIR核心开发成员、云天励飞未来工厂技术总监胡文泽主讲，主题为《开源AI模型生产平台YMIR加速视觉模型开发与迭代》。

胡文泽博士首先快速介绍了AI应用开发的背景，之后比较了AI模型开发与软件开发的不同，并重点解读了以数据为中心的开发方式。最后，他还深入讲解YMIR系统的设计理念和项目实践。

本次公开课分为主讲和Q&A两个环节，以下则是主讲回顾：

智东西公开课的各位同学晚上好，下面由我来做主题为《开源AI模型生产平台YMIR加速视觉模型开发与迭代》的直播讲解。我叫胡文泽，是这个项目的核心开发成员，同时也是云天励飞未来工厂部门的技术总监，负责部门的日常运作。

正式开始之前，我再来做下简单的自我介绍，我是胡文泽，博士毕业于加州大学洛杉矶分校，在云天励飞主要负责未来工厂部门，做一些面向公司未来的项目。我早期曾经在公司参与做过一个门禁机的产品，当时同学们比较打趣，直接把我的照片放到了门禁机的ID罩上，所以我可能不是公司见客户最多的人，但是是客户见过最多的公司的人。

言归正传，下面来看下公开课的内容大纲。首先是背景介绍;然后会对AI模型开发与软件开发进行比较;之后引出AI模型开发的两种具体开发模式，并通过几个例子来说明，以数据为中心的开发模式是一个更符合规模化模型开发的方法;之后会介绍YMIR训练系统，特别是它的设计理念和产品特点;最后用一个乐高检测的案例，系统的给大家展示怎样使用YMIR系统降低模型训练的门槛，并提高模型开发的效率。上述内容可以总结为以下5部分：

1、背景介绍

2、AI模型开发VS软件开发

3、AI模型开发模式

4、YMIR系统设计理念

5、YMIR实践

背景介绍

随着深度学习技术的快速发展，大量的人工智能技术进入到了快速落地和普及的阶段。几年前，谈起人工智能或者计算机视觉，大家可能知道的都是最典型的应用，比如人脸识别。

但是现在只以计算机视觉里的目标检测任务为例，都能列举出许多已经落地或正在尝试落地的应用，如上图所示。在精准农业方面，可以用目标检测技术来粗略的估计、识别并计算果树上的果子数量，从而对整个产量做大概的估计;在现代制造方面，可以用目标检测技术做装备关键零件的检查，确保整个装配质量是合格的;在商标检测方面，商标检测是一个非常成熟的技术，典型的应用像在互联网数据中检测商标的分布，能够为各个厂家在营销上提供一些基础数据;在路政巡检方面，路政巡检也是目前正在落地的一类项目，过去可能都是用人工巡查道路，检查道路里的病害，现在可以很智能、很方便的用公交车或出租车上搭载的摄像头检查道路的一些问题，自动对各种病害进行评估和排序，从而自动生成工单，大大节约了路政巡检的成本。除了上面提到的一些应用外，目标检测还可用在电网巡检、手术导航、车辆定损、污染检测等方面。

总而言之，以计算机视觉技术为代表的AI技术，不再是花拳绣腿，而是能够在各个行业里开始应用，而且是规模化的应用。那自然而然带来了一个问题，如何能够规模化生产或开发这些模型

AI模型开发VS软件开发

在思考这个问题是，我们很容易拿AI模型开发行业与软件行业作比较。那我们先看看软件行业的变迁哈。如上图所示，左边是1998年的谷歌，在Susan(SusanWojcicki，现任YouTube的CEO)家的车库里的样子。随着软件产业发展到2019年，目前都是现代化、大型的、集团化的作业。从车库到软件集团，软件产业已经经历了一次产业化的革命。那AI作为一个即将要经历大规模产业化落地的行业，怎么能够完成革命，实现大规模生产这是一个很现实和严肃的问题。类比于前面提到的1998年的谷歌，我们的现状就是那时的状况。

上面提到AI模型开发可以与软件开发进行类比，但仔细分析一下，其实AI模型在广义上就是一个计算机软件。什么叫软件从最基础的指令层面上看，软件是一系列特定顺序的计算机数据和指令，从而实现用户想要的一些计算，达到用户期望的功能。常规的软件通常是人工编写这些算法，通过一行一行的代码组织这些数据和指令，实现用户想要的功能。比如经常写的if-else语句等，用这样的控制语句来可以实现各种各样的算法。

如果AI模型也是一种软件，那能否照搬传统软件的开发经验开发AI模型呢我们答案是可行也不可行。虽然两者有相似性，但还是有很多的不同点。

下面简单看下传统软件的开发。如上图所示，传统软件开发流程可以总结为左边的四步：首先产品经理做一个需求分析、需求说明;然后软件架构师做问题的分解，把大的系统分解成各个模块，即分层解耦，模块式实现。模块化、中台等概念都是在分层解耦过程中出现的。这些模块有些可以直接复用以前的，即使不能复用，也能够把多个模块分给多个团队并行开发，从而实现大规模开发，提高效率。这种开发性质导致了上图右边的系统架构图的样式。中间这幅图是YMIR开源系统的架构，右边是Linuxkerneldiagram的架构，可以看到一块一块的框图。

再看AI模型开发，从流程上就有一些不同。不同点有哪些呢首先，在做完需求分析之后，AI模型开发有一个很重要的点，是收集大量的数据和标注，进而严格定义这个问题到底是什么，期望的输入是什么，期望的输出是什么，不再是传统意义上需求分析文档或产品设计文档里的几句自然语言。

其次，架构师做问题分解和模块化实现部分也变了，因为我们发现很多深度学习模型是端到端的解决问题，而不再是按分层解耦的方式解决问题。而且通过端到端用数值优化方法解决这个问题，往往比过去模块化方法实现这些问题的效果要更好。所以现在的工作变成了模型结构的选型。还是以目标检测问题为例，变成了选用FasterRCNN还是YOLO作为整体模型结构解决这个问题，而不再是怎么把问题分解成特征提取、特征变换、特征组合等小模块。

AI模型开发的模式

同时拿这个数据表去做另外一组实验。如上图下半部分所示，如果从横轴看，不改变方法，而是改变数据量，想办法在一个实际项目中增加训练数据，可以看到从左向右每增加一次数据，精度都提升10个点以上。而很多项目里增加的这些数据，并不需要花八个月，也不需要国际一流的研究人员或者研究环境，反而效率比研发新方法要高。

过去大多数的软件工程师、算法工程师都是以模型为中心，死磕各种参数。但是在实际项目开发当中，我们倡导应该积极向以数据为中心的开发模式转变。这也引出了今天要介绍的YMIR平台。为什么要做这个平台，就是想快速地实现以数据为中心的模型开发方式。

YMIR系统设计理念

这套方式其实并不是我们发明的，在学术界叫做主动学习，相信有不少同学都听说过。这种主动学习的技术，指的是通过数据挖掘提升有效数据量，随之提升模型的精度，我们把这个系统真真正正实现了。以前也见过、讨论过很多次做主动学习的系统，但这次是真真正正把它做出来，对我们来说是一个很鼓舞很兴奋的事情。

除了做数据挖掘和快速模型迭代的特点之外，YMIR平台还有什么特点YMIR平台能够适应规模化开发，在设计时就把规模化开发放在脑子里，并支持多个模型或多个项目，在同一个数据集上进行并行开发，最终将这些数据都沉淀在同一个平台里。大家可以互相、便捷的使用其他项目里的一些数据和标注，甚至一些模型来帮助你的项目开发。就像代码开发里的Git一样，使得我们的数据和模型都能够沉淀到YMIR平台里，把传统所说的数据资源真真正正变成立等可取的、高价值的数据资产。

同时，为了进一步降低YMIR平台的使用门槛，我们把各个模型开发的各个步骤抽象成一些标准的操作，形成了一个标准的流程。大家不需要懂什么叫主动学习，什么叫数据挖掘，只需要按照我们的界面指导来串流程，跟着流程就能够把模型开发出来。

YMIR实践

前面讲解了以数据为中心的模型开发，以及YMIR系统的特点。下面给大家演示下YMIR系统是怎么工作的。

上图右边放了一张图，有一大堆乐高。大家在做乐高时，会发现拼装并不是最难的，或者拼装是很有意思的，但最麻烦的是在一大堆乐高零件里，找到说明书上下一步拼装的零件在哪。周末我就遇到了这个头疼的问题，想到能否用YMIR系统做一个乐高零件的检测的模型。所以，按照刚才讲的AI开发流程，做了一个模型开发作为今天的例子。

有了这些数据集，可以开始工作了，下面演示具体的过程。安装好YMIR系统之后，安装界面会提示你把前端放在哪个端口，通过浏览器上打开IP地址和端口就能进入这个界面，可能会有用户注册的流程，我就不再演示用户注册了。

进入到这个界面后，如果想做一个模型，可以创建一个项目，比如名字叫“lego_detection_demo”，那要训练哪些类别呢如上图所示，数据集的类别并没有写名字，直接用编号来代替这些类别的名字，来对数据进行标注，在“训练类别”里直接输要检测类别“0、1、2、3......13”，然后可以创建项目。有了这个项目，就像打开了文件夹一样，接下来可以开始导入数据。

我们可以先给要导入的数据起一个名称，比如“lego_trainingset”。导入数据有好多种方式：一种是公共数据集。在首页里的右上部分，可以直接把数据集拷贝到自己的文件夹里，或者是复制已经导入的数据集;还支持网络的远程导入以及本地导入。这里选择本地导入，导入的数据集有一定的格式要求，采用的是PascalVoc格式，是一个比较通用的格式，然后点击数据上传。

上传完毕之后，点击“导入”，系统会自动新建了一个lego_training数据集。这时再导入另外一个测试集，步骤与上面的类似。导完数据集之后，可以看到数据集的大小，以及数据集里有什么标签，什么时候导入。数据集右边的显示是可以对数据集做各种操作，点击“训练”就可以做模型训练了。

YMIR系统会自动把训练集指定为刚才所点“训练”那一行的数据集，即lego_training，然后会用real_test，即10张的测试集做测试。你会发现选定lego_training数据集之后，会把样本的比例做一个简单的展示。这也是YMIR友好性的体现，会帮你自动展示数据集样本的分布情况。如果发现标签分布非常不均衡，通常是会出问题的，这也是模型训练一个常见的问题，即inbalancedataset的问题。如果发现数据分布不均衡，尽量调整你的数据集，使得各个标签的数量能够在同一个数量级范围内。之后我们要训练哪些目标，在项目设置里已经设置过了，系统会自动的填上。

随后我们会选择用哪个算法进行训练，这里选择Yolov4。后面会再介绍下如果有新的模型，或新的方法该怎么办。然后要选用几个GPU，当前我们有7个GPU，选择其中的1个GPU，然后点击训练。对于一些比较高级的用户，也可以调一些对应的参数，这里不再赘述这些参数了。点“训练”之后，模型训练就开始了，可以看到数据集自动的跳到模型训练tag里，显示模型训练已经开始了。

这里以一个用一个已经训练好的模型为例。模型训练完之后，“精度均值(mAP)”界面会显示它的精度是90.12。对于最普通的问题，如果mAP是90.12应该已经很高。由于虽然乐高检测是一个相对比较简单的问题，但因为要检测目标都是刚体，不变性主要存在于视角上。对于这类问题，“90.12”并不是一个满意的结果，那该怎么办呢这就进入到YMIR系统非常关键的一个环节，通过模型迭代挖掘有意义的数据，然后训练新的模型实现更好的效果。这就用到了首页上面的面板，开始用以数据为中心的方式开发模型。

先按“迭代数据准备”按钮，将测试集以及要挖掘的数据集给指定好，训练集是已经指定好的。在挖掘策略部分，对于超大规模的数据集，像云天励飞内部有时可能会用到百万级或千万级的数据集，建议用分块挖掘，一般情况下，建议用去重挖掘。把基本的设置完成之后，还有要准备一个初始迭代模型，就是刚才训练的模型。初始迭代模型确定之后，你会发现“开始迭代”按钮变蓝了，这意味着前续条件都满足，可以点击“开始迭代”。在这个过程中，会发现把迭代流程都清晰的展示了出来，大家可以按照这个流程做模型开发。

接着准备挖掘数据集，挖掘数据集要用到是原始的1181张图片的数据集。如果大家有更复杂的条件，可以在这个界面做数据合并、数据排除、数据随机采样等操作，这些操作留给了大家很高的自由度。这个过程主要是在做模型挖掘集的复制，挖掘集并不是严格复制，是一个虚拟的point-level复制。

设置完之后，点下一步就可以开始做数据挖掘。点“数据挖掘”按钮，会发现根据项目的设置，挖掘集以及用来挖掘的模型都已经填好，你需要选择挖掘镜像，选择想挖掘多少张数据，这里示例例如挖掘20张样本。在“是否产生新标注”部分，如挖掘的数据是已经标注过的，可以选择“否”;如果是没有标注过的，还可以利用挖掘模型对数据产生预标注，从而提高后面标注的效率。在“GPU个数”部分选“1”，即用1个GPU，然后点击“挖掘”按钮，几分钟之后就能挖掘完成。

挖掘完成之后，会显示出“下一步”的按钮，表示这时可以看具体挖掘了哪些数据。如果对挖掘的这些数据满意，可以点击“下一步”;如果对这些数据不满意，还可以重新挖掘并更改其他参数。我们默认是“下一步”，并把这些数据送去标注。点击“数据标注”，会自动的标注刚才挖掘的20张数据，标注人员部分选择自己，例如填写“tony.mir@gmail.com”，标注目标是上面提到的14类：“0、1、2......13”。在是否保留原标注部分，选择“是”，然后点击“标注”，系统会生成一个标注的任务送给标注分系统。

这里提一下，因为YMIR的核心功能在于数据和模型训练，所以还会有另外一个系统叫LabelFree。这里是把标注任务送到LabelFree这个新系统中，可以看到新系统又增加了一个新任务，就是刚才要标注乐高图片的任务，点击“标注”按钮就可以开始标注。

如果满意标注的数据，点击“下一步”更新训练集。这步主要是把标注完的数据和最早的训练数据做合并，即最开始训练数据集只有100张图片，现在又挖掘并标注了20张图片，形成120张图片的数据集。对于这个流程，之所以留给大家手动的按钮，是希望大家如果有时想用它来做一些特殊操作，比如可能要再引入一些数据，或者再排除一些数据等，都可以在这部分实现。

数据合成完成之后，点击“下一步”进入模型训练的步骤。在模型训练部分用到的是上面合并的120张图片的数据集。其他内容还是像上面提到的训练界面一样，会自动展示这个数据集的标签分布，然后选择训练镜像，同时还可以选择初始的预训练模型，这个模型可以用系统内部你已经训练出来的模型，作为一个初始点做下一个模型训练。与上面讲过的类似，在“GPU个数”部分选“1”，即选一个GPU，然后点击“训练”，等待训练完成。

训练完成之后，这时可以看到模型页面，已经显示出训练出来的模型。由于这个项目的测试集只有10张，训练精度会有一些随机误差，第一个模型训练出来时mAP是87%，第二个模型训练出来后mAP是90%，比第一个模型还是有提升的。这也表明通过添加挖掘数据，能够得到模型精度的提升。那多加点数据能否取得更好的效果呢

点击“下一步”，表示这一轮迭代就结束了，可以开启下一轮迭代。在开始下一轮迭代之前还有一个列表。这个列表让大家能够看到每次迭代的整体情况，例如第一次迭代模型的一些关键结果和步骤已经展示出来了。

本次迭代完成之后，可以点击“开启下一次迭代”。从这步已经开始进入到了一个无限循环的状态，即你想循环多少次，就可以循环多少次的模型迭代。这里面的具体步骤和上面提到的类似，在准备挖掘数据部分，用的还是刚才的数据，但会自动选择排除已经挖掘的数据，然后点击“确定”，经过数据挖掘、数据标注、更新训练集、模型训练等步骤，再去迭代。

迭代了几次之后，会产生几个模型，同时模型通过不断添加数据，精度也在不停的提升，这些可以在模型列表里有一个很好的体现。我一共做了4次迭代，挖掘数据集的图像数量在不停减少，每次数据挖掘完成之后都会减少20张数据，并把它添加到了训练集里。在训练集数量部分可以看到，训练集的数量从120到140再到160、180，每次都在增加训练集的数据，与之相对应的是模型精度也在不断增加，从刚开始的90.94，第二次迭代到了95.88，然后是96.41、96.6。同时YMIR系统产品和UI非常友好，类似于炒股，可以看到每次迭代后精度增长的趋势提示。通过这个过程，大家可以看到通过不停的挖掘数据、添加数据，能够快速提升模型的精度。

训练完模型之后，还想知道模型的性能究竟如何，YMIR系统还有一个模型验证的功能。点击选择最终训练完成后对应的模型镜像，然后可以上传一些乐高的图片，来看看最终的检测结果。我提前准备选择了一张真实拍摄的图片，并选择一个合适的阈值，点击“模型验证”，这时系统在启动另外Docker，同时把模型加载进来，对这个图像进行计算，最后把结果显示出来。结果显示出来了之后，检测结果还是比较准确的。

与上图正确的数据标注做对比，可以看到模型显示的预测结果是4号的Lego，置信度是99.31，上图显示4号是一个1x1Brick，正确;还有一个3号，是置信度是98.23，上图显示3号是一个1x2Brick，也没有问题;印象中比较容易犯错的应该是5号，是一个2x2Plate，显示置信度是86.77，5号是一个白色的Plate，是一个薄片，比较容易和一个2x2Brick相混淆，Brick和Plate比较容易混淆，特别是背面时，虽然结果预测5号是Plate，但是它究竟是Plate还是Brick，还需要实际去验证。或者也可以看它的detection的score，相比起其他的乐高零件都是90+以上的分数，5号的分数相对低一些，也说明5号确实是一个比较容易混淆的类，其他的零件我相信也大概率没有太多问题。到此模型训练就完成了。模型训练完成之后，可以就把模型下载下来，真正放到项目中应用。到此为止，已经讲解完整个YMIR系统的一些主要的功能。

下面再介绍下另外的配置和管理功能。在完成这些任务之前，要让YMIR系统知道你要训练哪些目标，这里有一个标签空间的维护和管理页面。目前对于我们使用数据集的0~13标签我已经打好了，也可以选择手动添加标签或批量的添加标签，以及在上面讲到的项目设置时，“训练类别”部分也可以手动的添加标签，比方写一个“newLabel”，然后回车，它会提示这个标签在标签管理页没有添加，是否添加。选择“添加”，之后在标签管理界面可以看到新的标签，大家用时可能要注意下。

另外系统配置部分有一个镜像列表。本次的乐高检测用到的是Yolov4算法，这是在YMIR里一个默认的镜像算法。那可否不用Yolov4，用一些其他更好的算法呢。可以手动的添加镜像，但这个镜像并不是随意添加的，需要满足一些规则，选要满足并开发好适配YMIR的接口镜像，之后通过Dockerhub把镜像拉回来。大家想用的镜像，包括今天用的Yolov4都可以在Dockerhub中找到。

如果是自己开发的项目、镜像，想给大家用，也可以告诉我们，我们可以帮你添加到Dockerhub中;如果只想自己用，可以直接把镜像的地址，填到创建镜像的“镜像”选项中，填一些必要的描述，就可以把镜像拉回来，拉回来之后就可以用你自己的算法做模型开发。但系统配置这一页应该只有管理员能用，一般第一个用户默认是管理员，其他用户可以通过第一个用户添加作为管理员。

THE END

开源AI模型生产平台YMIR加速视觉模型开发与迭代云天励飞未来工厂技术总监胡文泽主讲回顾文章

如何成功安装和部署开源AI训练平台？

谷歌DeepMind开源AI训练平台DeepMindLab

OpenAI和DeepMind开源人工智能训练平台应用软件软件与服务频道

一文揭秘AI框架：开源开放如何解锁智能世界算法大模型人工智能ai框架

对AI开发还不熟？试试这个开源AI模型生产平台，秒成专家级水平

开源AI模型生产平台YMIR加速视觉模型开发与迭代云天励飞未来工厂技术总监胡文泽主讲回顾文章

飞桨AIStudioAI学习网站

中国AI大模型平台排行榜4月作者｜星奈繁语编辑｜方奇媒体｜AI大模型工场国内大模型发展趋势4月份解读MoE模型或成为大模型的未来MoE模型，即混...

FinRobot：一个由大型语言模型（LLM）支持的新型开源AIAgent平台，支持多个金融专业AIAgent

十大零代码AIAgent开发平台