深入浅出YOLOv1

近年来YOLO系列层出不穷,更新不断,已经到v7版本。因此不能简单用版本高低来评判一个系列的效果好坏,YOLOv1-v7不同版本各有特色,在不同场景,不同上下游环境,不同资源支持的情况下,如何从容选择使用哪个版本,甚至使用哪个特定部分,都需要我们对YOLOv1-v7有一个全面的认识。

故将YOLO系列每个版本都表示成下图中的五个部分,逐一进行解析,并将每个部分带入业务侧,竞赛侧,研究侧进行延伸思考,探索更多可能性。

干货篇

YOLOv2论文名以及论文地址:YOLO9000:Better,Faster,Stronger[3]

YOLOv2开源代码:YOLOv2-Darkent[4]

YOLOv3论文名以及论文地址:YOLOv3:AnIncrementalImprovement[5]

YOLOv3开源代码:YOLOv3-PyTorch[6]

YOLOv4论文名以及论文地址:YOLOv4:OptimalSpeedandAccuracyofObjectDetection[7]

YOLOv4开源代码:YOLOv4-Darkent[8]

YOLOv5论文名以及论文地址:无

YOLOv5开源代码:YOLOv5-PyTorch[9]

YOLOx论文名以及论文地址:YOLOX:ExceedingYOLOSeriesin2021[10]

YOLOx开源代码:YOLOx-PyTorch[11]

YOLOv6论文名以及论文地址:YOLOv6:ASingle-StageObjectDetectionFrameworkforIndustrialApplications[12]

YOLOv6开源代码:YOLOv6-PyTorch[13]

YOLOv7论文名以及论文地址:YOLOv7:Trainablebag-of-freebiessetsnewstate-of-the-artforreal-timeobjectdetectors[14]

YOLOv7开源代码:OfficialYOLOv7-PyTorch[15]

YOLO系列中的输入侧结构主要包含了输入图像,数据增强算法以及一些预处理操作。

输入侧可谓是通用性最强的一个部分,具备很强的向目标检测其他模型,图像分类,图像分割,目标跟踪等方向迁移应用的价值。

从业务侧,竞赛侧,研究侧等角度观察,输入侧结构也能在这些方面比较好的融入,从容。

YOLOv1的输入侧有着朴素的逻辑,做的最多的工作是调整输入图像的尺寸以支持对图像细粒度特征的挖掘与检测。

同样的,YOLO系列的grid逻辑(“分而治之”)也从输入侧开始展开,直到Head侧输出相应结果。

【延伸思考】

YOLOv2的输入侧在YOLOv1的基础上引入了多尺度训练(Multi-ScaleTraining),并且优化了预训练模型(HighResolutionClassifier)。

多尺度训练(Multi-ScaleTraining)的逻辑是模型每训练一定的Epoch,改变输入图片的尺寸,使得模型对不同的输入尺寸更鲁棒,能够从容地对不同尺寸的图像进行检测。

论文中使用32的倍数作为输入的尺寸,具体使用了320、352、384、416、448、480、512、544、576、608这10种尺寸。

THE END
1.AI模型训练与优化技巧:从数据增强到模型压缩的实践指南图像数据增强是一种常用的技术,通过对训练数据进行多样性的变换,可以有效提升模型的鲁棒性和泛化能力。常见的图像数据增强方法包括:随机裁剪、旋转、翻转、缩放、色彩变换等。例如,对于分类任务,我们可以通过对图像进行水平翻转和旋转操作,来增加数据的多样性,从而提升模型的分类效果。 https://www.jianshu.com/p/84d2a32572cc
2.一文详细归纳算法数据增强方法需要关注的是,数据增强样本也有可能是引入片面噪声,导致过拟合。此时需要考虑的是调整数据增强方法,或者通过算法(可借鉴Pu-Learning思路)选择增强数据的最佳子集,以提高模型的泛化能力。 常用数据增强方法可分为:基于样本变换的数据增强及基于深度学习的数据增强。 https://blog.csdn.net/2301_78285120/article/details/132388494
3.总结62种在深度学习中的数据增强方式业界新闻混合样本数据增强算法的核心思想是 按一定的比例随机混合两个训练样本及其标签 这种混合方式不仅能够增加样本的多样性,并且能够使不同类别的决策边界过渡更加平滑 减少了一些难例样本的误识别,模型的鲁棒性得到提升,训练时也比较稳定 (35)RICAP RICAP,即随机图像裁剪和修补,是一种新的数据增强技术 https://www.jindouyun.cn/document/industry/article/183115
4.伯克利AI研究院提出新的数据增强算法,比谷歌大脑的AutoAugment雷锋网 AI 科技评论按:数据增强是提升图像识别模型性能的重要手段。伯克利 AI 研究院的一篇关于数据增强的论文便被 ICML 2019 收录为 oral 论文,该论文巧妙地运用基于种群的数据增强算法,在降低计算成本的情况下,既能提高学习数据增强策略的速度,又能提升模型的整体性能。伯克利 AI 研究院也在官方博客上对论文进行了https://www.leiphone.com/news/201906/gfpjijbKYjpKQfE2.html
5.最新车身漆面缺陷检测算法及一些缺陷数据集项目介绍数据:为了实时采集车身油漆缺陷图像,提出了一种新的数据增强算法,以增强数据库处理小样本数据过拟合现象的能力。 方法:针对汽车涂料固有的缺陷特征,通过改进MobileNet-SSD网络的特征层,优化边界框的匹配策略,提出了一种改进的MobileNet-SSD算法,用于油漆缺陷的自动检测。 https://www.yoojia.com/ask/17-11631754346557195974.html
6.基于Mosaic数据增强方法的标签检测算法研究针对原始YOLOv5算法在小目标的复杂情况下的检测效果欠佳的问题,本文引入数据增强和DIOU_nms的方法,有效提高了数据集的利用率和实际检测结果的精确度,大大降低了实际目标的错检率,使得目标框的回归更加稳定迅速,定位更加准确。本文YOLOv5+Mosaic+DIOU_nms模型提高了YOLOv5算法在特定环境下的检测效果和鲁棒性,也验证了https://www.fx361.com/page/2022/0531/10538044.shtml
7.12个常用的图像数据增强技术总结机器学习或深度学习模型的训练的目标是成为“通用”模型。这就需要模型没有过度拟合训练数据集,或者换句话说,我们的模型对看不见的数据有很好的了解。数据增强也是避免过度拟合的众多方法之一。 机器学习或深度学习模型的训练的目标是成为“通用”模型。这就需要模型没有过度拟合训练数据集,或者换句话说,我们的模型对看https://www.51cto.com/article/721267.html
8.深度学习领域的数据增强机器之心在计算视觉领域,生成增强图像相对容易。即使引入噪声或裁剪图像的一部分,模型仍可以对图像进行分类,数据增强有一系列简单有效的方法可供选择,有一些机器学习库来进行计算视觉领域的数据增强,比如:imgaug (https://github.com/aleju/imgaug)它封装了很多数据增强算法,给开发者提供了方便。 但是在自然语言处理领域中,由于https://www.jiqizhixin.com/articles/2019-12-04-10
9.自适应双边滤波的Retinex图像增强算法AET以上各种对Retinex算法的改进都是需要人工调节参数,对此,本文提出一种基于参数估计的双边滤波Retinex图像增强算法:从文献[7]出发,对图像的噪声方差进行估算,从而自动调节双边滤波的空间几何标准差参数;同时,从文献[8]出发,对图像进行边缘检测,得出边缘强度,从而自动调节双边滤波的亮度标准差参数;最后实现了双边滤波的参数http://www.chinaaet.com/article/3000079533
10.指静脉识别中的数据增强及多任务学习算法的研究与实现最近深度学习由于互联网大数据的的爆发获得了快速的发展,在图像领域几近全面超越了传统的算法。本文结合深度学习在指静脉识别领域目前依然存在的问题上进行了探索。并提出了相应的解决方案。本文工作内容如下:(1)针对目前公共数据集数据量少的问题,设计并实现了基于深度学习的图像数量增强算法。该算法利用条件式生成模型,https://cdmd.cnki.com.cn/Article/CDMD-10013-1021025630.htm
11.分析语音数据增强及python实现python数据增强是一种生成合成数据的方法,即通过调整原始样本来创建新样本。这样我们就可获得大量的数据。这不仅增加了数据集的大小,还提供了单个样本的多个变体,这有助于我们的机器学习模型避免过度拟合+ 目录 一、概述 音频时域波形具有以下特征:音调,响度,质量。我们在进行数据增强时,最好只做一些小改动,使得增强数据和https://www.jb51.net/article/214889.htm
12.学习报告:脑电图数据增强——解决睡眠分期任务中的类别失衡问题该文章提出了五种数据增强的方法,包括重复少数类(DAR)、脑电图信号形态变化(DAMC)、信号分割和重组(DASR)、数据集到数据集的传输(DAT),以及最先进的生成算法GAN(DAGAN)。 1.重复少数类(DAR) 少数类的重复样本是一种简单的方法,通过简单地从少数类[2]中随机复制选定的样本。在训练过程中对该方法进行了验证。https://www.scholat.com/teamwork/teamwork/showPostMessage.html?id=13309
13.基于焦点损失函数的嵌套长短时记忆网络心电信号分类研究过量扩充样本数量将会导致特征冗余,故本文采用SMOTE算法仅对少样本类别进行处理,使三类心律失常类别数量总和与N类数量达到相对平衡状态,进而抑制样本不平衡对模型性能的消极影响,进一步提高focal loss下的模型性能,旨在达到平衡数据集的分类的精度。数据增强后的数据分布如表1所示。 在不平衡心律失常分类仿真实验中,对训练https://www.tcsurg.org/article/10.7507/1001-5515.202110002
14.图像增强算法有哪些图像增强算法主要是对成像设备采集的图像进行一系列的加工处理,增强图像的整体效果或是局部细节, 从而提高整体与部分的对比度, 抑制不必要的细节信息, 改善图像的质量, 使其符合人眼的视觉特性。图像增强算法有直方图均衡图像增强,小波变换图像增强 ,偏微分方程图像增强,分数阶微分的图像增强,基于Retinex理论的图像增强,https://aistudio.baidu.com/aistudio/projectdetail/4902656
15.一种基于特征集关联度的乳腺超声分割方法与流程数据增强是提升算法性能、满足深度学习对大量数据的需求的重要工具。数据增强可以 通过生成无限的修改数据流对训练集进行人为扩充。原始数据不同的变换最终趋于同一个结 果是数据一致性的体现。然而正则化是指对模型施加约束以降低模型对训练数据依赖的一般 方法,因此有望使其更好地泛化到无法可视化的数据。一致性正则化https://www.xjishu.com/zhuanli/55/202111049894.html
16.基于基本图像处理技术的数据增强方法在计算视觉领域,生成增强图像相对容易。即使引入噪声或裁剪图像的一部分,模型仍可以对图像进行分类,数据增强有一系列简单有效的方法可供选择,有一些机器学习库来进行计算视觉领域的数据增强,比如:imgaug (https://github.com/aleju/imgaug)它封装了很多数据增强算法,给开发者提供了方便。 但是在自然语言处理领域中,由于https://m.elecfans.com/article/1877181.html