基于FasterR|数据增强算法_在线学习

摘要:为了克服水下鱼类图像样本量不足及实现对水下低清晰度图像中鱼类的快速检测，提出了一种基于FasterR-CNN二次迁移学习和带色彩恢复的多尺度视网膜增强算法(MSRCR)的方法，首先通过ImageNet预训练模型对OpenImages高清鱼类数据集进行一次迁移学习初步训练网络，然后固定检测模型低3层的卷积网络参数，再用水下拍摄的小规模鱼类数据集进行二次迁移学习微调网络，最后通过MSRCR算法对水下拍摄图像进行处理以增强其与高清鱼类图像的相似性，解决水下图像降质问题，让二次迁移学习高效进行。结果表明，该方法利用小规模水下拍摄鱼类数据集训练出的网络查准率可达到98.12%，网络检测能力及后续提升能力优于传统机器学习方法，并能够实现鱼类目标的快速检测，本研究结果可为深海探测作业与海底鱼类等生物资源的监测、保护和可持续开发等工程应用提供一定的参考。

关键词:深度学习；鱼类检测；FasterR-CNN算法；MSRCR算法；迁移学习

传统机器学习方法是通过人工方法提取鱼类特征，然后将特征输入支持向量机、boosting等分类器进行检测分类。Rova等[9]提出一种基于模板匹配的可变形提取技术可用于鱼类检测；张志强等[10]提出一种一般化方法，将鱼类图像中各颜色分量和长短轴之比作为鱼类特征；姚润璐等[11]则从鱼类图像中分割出鱼各部位的图像模块，然后提取关联度更高的特征，但其提取过程非常复杂，需要人工制定鱼类各部位的匹配规则，不适用于分析海量数据；Dalal等[12]提出HOG(Histogramoforientedgradients)特征具有较好的分类特性等。然而,上述人工方法提取到的鱼类特征通常只适用于光照充足、清晰度高、背景环境对比度高的情景下，在水下较难产生作用。而且机器学习方法提取鱼类特征是通过人类的先验知识实现的,挖掘特征的能力差,在检测效果达到一定程度后无法随数据量的扩增而提高。

FasterR-CNN可看作“区域生成网络FastR-CNN[17]+RPN[18]”的系统，两者相互协调对图像中目标进行检测。其最大创新在于增加目标区域提取网络RPN(regionproposalnetwork)，其本质是基于滑窗的无类别目标检测器，通过锚点机制来生成候选框以替代选择搜索、EdgeBox等传统方法,然后通过CNN来预测检测目标可能存在的区域,可极大地提升检测框的生成速度。

RPN网络采用端到端的训练方式，能够输出感兴趣区域的边框位置和可能存在目标的概率值。在结构上，FasterR-CNN将特征抽取、边框回归及分类都整合在一个网络中，从而有效提高检测精度和检测效率，在检测速度方面提升尤为明显。如图1所示，基于FasterR-CNN的鱼类目标检测步骤如下:(1)将鱼类图像缩放后输入到卷积层提取特征图，然后将特征图输入后续的FastR-CNN与RPN网络中共享。(2)在特征图传入RPN后，使用滑窗生成特征向量，然后将特征向量输入分类层和回归层。(3)在分类层中，使用Softmax分类器执行二分类任务，对锚点进行前景或背景的判断；在回归层中，调整锚点边框中心，拟合推算回归得到候选框位置。(4)FastR-CNN综合候选框与特征图的信息，判断前景所属类别，并生成最终鱼类图像检测框的确切位置。

图1FasterR-CNN模型结构Fig.1StructureoftheFasterR-CNNmodel

第一步：使用上述初始化好的参数来训练RPN网络，然后生成感兴趣区域。

第二步：对于第一步中得到的感兴趣区域，利用ImageNet数据集初始化完毕的网络进行回归训练和分类。由于此时RPN网络和FastR-CNN网络各自独立训练，故训练后各自对网络参数的更新不同，两个网络参数不共享。

第三步：使用第二步生成的网络参数来训练RPN网络，此时只调优RPN独有的网络层参数，并生成感兴趣区域。

第四步：使用生成的感兴趣区域训练网络，然后进行分类和回归，期间固定卷积层共享的参数，最终实现目标域FasterR-CNN检测模型的训练。

获取水下拍摄大规模鱼类图像比较困难，成本较高，现有的水下拍摄样本量很难训练出符合要求的模型。在常规深度学习训练中，若数据量不足，通常方法是通过随机裁剪、翻转、亮度与对比度设置及颜色转换等方法对数据集进行扩充，虽然一定程度上能提高检测精度，但是提高有限。借助数据量相对充足的OpenImages高清鱼类图像,采用迁移学习的方法，利用水下拍摄的鱼类图像微调OpenImages高清鱼类目标检测网络,进而实现对水下图像中鱼类目标的检测。迁移学习所连接的两个目标的相似程度越高,就越利于迁移学习的进行。OpenImages高清鱼类图像与水下拍摄鱼类图像最主要的差别在于光。与普通图像不同，水下由于光随距离和深度呈指数衰减，从而产生雾霭、水下介质吸收光能、散射改变光的方向，故水下图像对比度低、清晰度低、颜色褪色。提高两者之间相似度的关键是处理光线条件及恢复水下颜色色彩,而MSRCR算法能够减弱光线对图像中物体的影响,恢复物体本来的清晰度、对比度、色彩、边缘等信息。故本研究中使用MSRCR算法对水下拍摄鱼类图像增强,增大其与OpenImages高清鱼类图像的相似度。

MSRCR是对Retinex算法的极大改进。依据Retinex理论，图像可看作由入射光线和反射光线组成，数学表达式如下：

I(x,y)=L(x,y)×R(x,y)。

(1)

其中：I(x,y)为观察者感知的物体图像信息；L(x,y)为环境光的照度分量；R(x,y)为物体的反射分量。Retinex算法的核心思想是消去照射光线的影响，保留物体本身的反射属性。对式(1)两边取对数，即可抛除入射光线的影响，从而得到目标物体的原本面貌，关系式如下：

lg[R(x,y)]=lg[I(x,y)]-lg[L(x,y)]。

(2)

对于已获取的一张图像I(x,y)，计算图像增强后的对应R(x,y)，关键是获取L(x,y)。Retinex理论提出L(x,y)能够通过对图像I(x,y)和一个高斯核的卷积进行高斯模糊来近似表示，关系式如下：

R(x,y)=exp{lg[I(x,y)]-

lg[I(x,y)*G(x,y)]}。

(3)

其中：*为卷积；G(x,y)为高斯核。

然后将lg[R(x,y)]量化成0～255范围之内的像素值输出。计算出lg[R(x,y)]的最小值与最大值,然后对每个lg[R(x,y)]值采用线性方式量化，计算公式如下：

R(x,y)={lg[R(x,y)]-lg[R(x,y)]min}/

{lg[R(x,y)]max-lg[R(x,y)]min}×

(255-0)。

(4)

为了获得更好的增强效果，在其基础上又衍生出多尺度视网膜增强算法MSR(Multi-ScaleRetinex)，其优点是能够在保持图像高保真度和对图像的动态范围进行压缩的同时也能够实现色彩增强。MSR算法在计算lg[R(x,y)]时需要对输入图像进行每个尺度的高斯模糊，得到模糊后的图像Li(x,y)(下标i表示尺度数)，然后对每个尺度进行累加计算，计算公式如下：

lg[R(x,y)]=lg[R(x,y)]+W(i)×

(lg[Ii(x,y)]-lg[Li(x,y)])。

(5)

其中：W(i)为每个尺度对应的权重，各尺度权重之和为1，经典取值为等权重。其他的计算步骤与单尺度相同。

MSRCR是对MSR结果做了色彩平衡、归一化及增益和偏差线性加权，解决了MSR普遍存在的偏色问题。MSRCR算法，首先是计算出lg[R(x,y)]中R/G/B各通道数据的平均值(Mean)和均方差(Var)，设置动态参数(Dynamic)，然后通过lg[R(x,y)max=Mean-Dynamic×Var和lg[R(x,y)max=Mean+Dynamic×Var计算各通道的最小和最大值，最后对lg[R(x,y)]的每一个值用式(4)进行映射，通过判断语句：if(R(x,y)>255)R(x,y)=255;elseif(R(x,y)<0)R(x,y)=0做溢出判断。经上述处理，在水下拍摄图像即可取得非常好的效果。

MSRCR不同尺度数对比试验结果(图2)表明，尺度(scale)数对结果的影响不大，且在实际网络模型检测鱼类图像中精度差别甚微，但随尺度数的增加，算法耗时将线性增加，为满足鱼类图像快速检测的需求，一般选取尺度数为3比较合适。

图2MSRCR尺度数对比试验图Fig.2TestdiagramofMSRCRscalenumbercomparison

MSRCR不同动态参数对比试验结果(图3)表明，动态对比参数Dynamic取值越小，水下图像增强后的对比度越强，当其取值在2～3之间时能取得很自然的过渡效果，保持图像的清晰度适度增强。对于最大尺度，针对水下拍摄鱼类数据集，本试验中总结出取值以大于100为好。

图3MSRCR动态参数对比试验图Fig.3ComparisontestdiagramofMSRCRdynamicparameters

使用谷歌OpenImages训练集中共计13443张有单独鱼类边界框的高清鱼类图片作为训练数据,如图4所示，像素尺寸为1920×1080,其中鱼类种类多样、背景复杂、对比度强、清晰度高。从OpenImages的测试集选取500张鱼类测试图片,共计2253个样本作为测试集，并从训练集的图片中随机选取500张图片作为交叉验证集。通过python脚本读取OpenImages中谷歌开源标注好的边界框信息,转换成本研究中训练所需的数据格式。

图4OpenImages数据集中带有单独鱼类边界框的高清鱼类图片Fig.4HighdefinitionfishpictureswithindividualfishboundaryframeinOpenImagesdataset

利用超大规模ImageNet数据集训练好的VGG16、ResNet101网络模型对网络参数初始化,并利用高清鱼类数据集对网络微调,完成基于一次迁移学习的OpenImages高清鱼类目标检测。

检测结果如表1所示,可以看出,ResNet101网络的查准率及查全率均高于VGG16网络,并且查全率与查准率均高于90%,同时ResNet101网络相对于VGG16网络检测耗时更短，这是由于ResNet101引入残差结构，并且网络深度远大于VGG-16网络但参数空间较小。

表1对OpenImages高清鱼类数据集的检测结果

Tab.1DetectionofhighdefinitionfishdatasetbyOpenImages

图5为RestNet101网络对高清鱼类图像的部分检测结果,可以看出,该网络模型能够精确地识别出清晰度高、对比度强的鱼类目标,并对光照、背景、阴影等因素具有一定程度的鲁棒性,在海草遮蔽鱼身及水底环境复杂的情况下亦可检测到目标,但是当目标与背景颜色相近或者与背景环境对比不强时有可能发生较小的漏检和误检。

图5高清鱼类图像识别结果Fig.5Recognitionresultsofhigh-definitionfishimage

由于目前还没有较为完备的、公开的水下鱼类数据集，因此，利用水下摄像机拍摄鱼类图片,共600张图片,像素尺寸为1000×600,场景主要是本文背景项目养殖基地。从中随机选取100张，共计324个样本，作为测试集；从剩余的图片中随机选取100张，共计433个样本，作为交叉验证集；其余400张图片，共计1838个样本作为训练集。并对每幅图片中的所有样本统一归为鱼类目标类别,用labelImg图像标注工具进行人工标注并制作成所需的xml格式，结果如图6所示。

图6使用labelImg制作标签图Fig.6UsinglabelImgtocreatelabels

网络模型的低层卷积层是用来提取识别目标的纹理、色彩、边缘等底层特征的,对于不同的数据集影响较小，一般预训练模型对底层特征的提取能力非常强，基于对图像识别时提取底层特征通用的特点，在进行参数迁移时会保留并固定低层卷积模块结构与参数，并将靠近分类层的高层卷积的模块与结构参数设置为可训练的状态，然后将模型放入目标域中进行再训练，由于可训练参数继承自源模型，因此，在进行微调时无须从初始值开始梯度下降，一般经过小幅调整后即可达到新的最优值。针对已经训练好的OpenImages高清鱼类目标检测模型固定前3层卷积网络参数,根据水下拍摄鱼类数据集，仅对更高层次的网络参数做微调，并观察其在交叉验证集中的检测效果,结果如表2所示。

表2不同处理方法下水下拍摄鱼类图片检测mAP结果

Tab.2DetectionofmAPresultsfromunderwaterfishimagesbydifferentprocessingmethods

图像增强imageenhancement迁移学习transferlearning学习率learningrateVGG16网络VGG16networkResNet101网络ResNet101networkFalseFalse10-30.7080.791FalseTrue10-30.7640.803BrightnessTrue10-30.7720.824MSRCRTrue10-30.8130.902MSRCRTrue10-40.8210.917

Tab.3Networktraininganddetectionparameters，waysandtime

表4水下鱼类图像测试集检测结果Tab.4Detectionresultsofunderwaterfishimagetestset

在输出检测结果前,网络会依据score阈值进行判断，然后丢弃结果小于score阈值的目标,保留大于score阈值的目标。如图7所示，对于ResNet101网络,随着score阈值的增加,查准率基本是以线性方式增长，而查全率先是一定程度的缓慢下滑,然后急剧下降；而对于F1度量而言,当score阈值小于0.90时，F1度量随着score阈值的增大先缓慢升高，然后又平稳下降，幅度较小；但当socre阈值大于0.90之后,查全率下降迅速，由于其查准率始终保持在较高的水平,波动幅度较小,所以此时查全率对F1度量影响较大,在score阈值为0.30时,其值约为0.975。

图7不同score阈值对水下鱼类图像检测结果的影响Fig.7Effectsofdifferentscorethresholdsonthedetectionresultsofunderwaterfishimages

图8为ResNet101网络最终的检测结果,可以看出,对水下鱼类图像增强后的图片检测效果令人满意,无论是在鱼类游动速度较快的情况下拍摄的带有残影的模糊鱼类图像,还是在水下环境对比度较差、鱼类密集甚至重叠的情况下,ResNet101网络均能够较为精准全面地检测出鱼类目标。相较于传统机器学习提取鱼类特征的方法，本研究中所采用的FasterR-CNN方法无须人工设计鱼类特征的提取规则，检测网络可以自动挖掘出鱼类信息,从中提取出高区分度、高聚类、低耦合的鱼类特征。通过二次迁移学习的方法解决了水下鱼类数据集不足的问题,网络的查准率与查全率也都得到了不同程度的提高,并且随着以后水下鱼类图像数据的搜集与扩充,该网络依然能够继续提高检测精度,传统机器学习方法不具备的此优点，这对水下鱼类检测具有重要意义。

图8ResNet101增强前(A)、增强后(B)水下拍摄鱼类数据集的对比Fig.8Comparisonofunderwaterfishdatasetsbefore(A)andafter(B)ResNet101enhancement

(1)本文中首先完成了ImageNet超大规模数据集到大规模OpenImages中高清鱼类数据集的一次迁移学习,实现了对OpenImages中高清鱼类目标的有效检测。在VGG-16上的查全率、查准率、F1度量及检测耗时分别为0.948、0.852、0.897、183ms,在ResNet101上则分别为0.959、0.911、0.934、108ms。

(2)然后完成了大规模高清鱼类数据集到小规模水下拍摄鱼类数据集的二次迁移学习,并对水下拍摄图像使用MSRCR算法进行数据增强,以便二次迁移学习的高效进行。在VGG-16上的查全率、查准率、F1度量及检测耗时分别为0.9496、0.9299、0.9396、172ms,在ResNet101上则分别为0.9812、0.9508、0.9658、96ms。

(3)在不同图像增强算法对比上，Brightness增强算法在VGG16与ResNet101网络的mAP分别为0.772、0.824，而MSRCR算法则分别是0.813、0.902，高下立判，MSRCR算法具有明显优势。同时，进行二次迁移学习后，相较于一次迁移学习，在VGG16与ResNet101两种网络的mAP结果上分别提升了0.056与0.012。

(4)不同score阈值对ResNet101网络检测鱼类图像结果影响较大,随着score阈值增加,查准率基本呈线性增长，而查全率先轻微下滑再急剧下降。而对于F1度量而言,当score阈值小于0.90时，对F1度量影响较小，但当socre阈值大于0.90时,对F1度量影响较大,在score阈值为0.30时,其值约为0.975。

本研究表明,该网络具有较高的检测精度并可以满足水下鱼类目标的快速检测需求,具有较强的工程应用参考价值。下一步的工作将在水下鱼类成功检测的基础上，对水下鱼类进行分类识别，从而实现对水下鱼类丰富度的检测，继续为海底鱼类等生物资源的检测、保护，以及可持续开发等方面提供一定的技术支持。

参考文献：

[1]LiQingzhong,ZhangYang,ZangFengni.Fastmulticameravideostitchingforunderwaterwidefield-of-viewobservation[J].JournalofElectronicImaging,2014,23(2):023008.

[2]Bonin-FontF,OliverG,WirthS,etal.Visualsensingforautonomousunderwaterexplorationandinterventiontasks[J].OceanEngineering,2015,93(1):25-44.

[3]QiaoXi,BaoJianhua,ZengLihua,etal.Anautomaticactivecontourmethodforseacucumbersegmentationinnaturalunderwaterenvironments[J].ComputersandElectronicsinAgriculture,2017,135:134-142.

[4]MahmoodA,BennamounM,AnS,etal.Deepimagerepresentationsforcoralimageclassification[J].IEEEJournalofOceanicEngineering,2019,44(1):121-131.

[5]袁红春,顾怡婷,汪金涛,等.西北太平洋柔鱼中长期预测方法研究[J].海洋科学,2013,37(10):65-70.

[6]LiXiu,TangYouhua,GaoTingwei.Deepbutlightweightneuralnetworksforfishdetection[C]//ProceedingsoftheOCEANS2017-Aberdeen.Aberdeen,UK:IEEE,2017.

[7]于红,冯艳红,李晗,等.渔业标准体系化服务与决策系统研究[J].大连海洋大学学报,2019,34(2):260-266.

[8]CutterG,StierhoffK,ZengJiaming.AutomateddetectionofrockfishinunconstrainedunderwatervideosusingHaarcascadesandaNewImageDataset:LabeledFishesintheWild[C]//Proceedingsof2015IEEEWinterApplicationsandComputerVisionWorkshops.Waikoloa,HI,USA:IEEE,2015.

[9]RovaA,MoriG,DillLM.Onefish,twofish,butterfish,trumpeter:recognizingfishinunderwatervideo[C]//ProceedingsoftheIAPRConferenceonMachineVisionApplications.Tokyo,Japan:DBLP,2007.

[10]张志强,牛智有,赵思明.基于机器视觉技术的淡水鱼品种识别[J].农业工程学报,2011,27(11):388-392.

[11]姚润璐,桂詠雯,黄秋桂.基于机器视觉的淡水鱼品种识别[J].微型机与应用,2017,36(24):37-39.

[12]DalalN,TriggsB.Histogramsoforientedgradientsforhumandetection[C]//ProceedingsoftheIEEEComputerSocietyConferenceonComputerVisionandPatternRecognition.LosAlamitos:IEEE,2005:886-893.

[13]孙娟娟,于红,冯艳红,等.基于深度学习的渔业领域命名实体识别[J].大连海洋大学学报,2018,33(2):265-269.

[14]庄福振,罗平,何清,等.迁移学习研究进展[J].软件学报,2015,26(1):26-39.

[15]RenShaoqing,HeKaiming,GirshickR,etal.FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2017,39(6):1137-1149.

[16]RussakovskyO,DengJia,SuHao,etal.ImageNetlargescalevisualrecognitionchallenge[J].InternationalJournalofComputerVision,2015,115(3):211-252.

[17]GirshickR.FastR-CNN[C]//ProceedingsoftheIEEEInternationalConferenceonComputerVision.Santiago,Chile:IEEE,2015:1440-1448.

[18]ShelhamerE,LongJ,DarrellT.Fullyconvolutionalnetworksforsemanticsegmentation[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2017,39(4):640-651.

[19]DaiJifeng,HeKaiming,SunJian.Instance-awaresemanticsegmentationviamulti-tasknetworkcascades[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.LasVegas,NV,USA:IEEE,2016:3150-3158.

[20]HeKaiming,ZhangXiangyu,RenShaoqing,etal.Deepresiduallearningforimagerecognition[C]//Proceedingsof2016IEEEConferenceonComputerVisionandPatternRecognition.LasVegas,NV,USA:IEEE,2016:770-778.

[21]CutterG,StierhoffK,ZengJiaming.AutomateddetectionofrockfishinunconstrainedunderwatervideosusingHaarcascadesandanewimagedataset:labeledfishesinthewild[C]//Proceedingsof2015IEEEWinterApplicationsandComputerVisionWorkshops.Waikoloa,HI,USA:IEEE,2015.

YUANHongchun,ZHANGShuo*

(CollegeofInformationTechnology,ShanghaiOceanUniversity，Shanghai201306,China)

Keywords：deeplearning;fishdetection;FasterR-CNNalgorithm;MSRCRalgorithm;transferlearning

DOI：10.16535/j.cnki.dlhyxb.2019-146

收稿日期：2019-06-18

基金项目：国家自然科学基金(41776142);上海市科学技术委员会支撑项目(1439190400)

作者简介：袁红春(1971—)，男，博士，教授。E-mail：hcyuan@shou.edu.cn

通信作者：张硕(1996—)，男，硕士研究生。E-mail：1042785279@qq.com

THE END

基于FasterR

30分钟教会你十几种数据增强方法！再也不用因为数据而烦恼！人工智能/机器学习/深度学习哔哩哔哩

数据增强之mixup算法详解Avatarx

基于生成对抗网络的数据增强方法

一种增强多样性的改进型NSGAⅡ算法

深入浅出YOLOv1

基于FasterR

基于YOLOv5和重识别的行人多目标跟踪方法

深入浅出Yolo系列之Yolox核心基础完整讲解向量cocoimage算法代码

第五届“6·18”国外电子信息产业项目成果公文公报

基于视觉Transformer的多损失融合水下图像增强网络

BEV最新综述学术界和工业界方案汇总！优化方法与tricks学习感知任务的鸟瞰图（BEV）中的强大表示法是一种趋势