智能科学与技术学报,2022,4(4):522-532doi:10.11959/j.issn.2096-6652.202252
专题:水下机器人
丛晓峰1,桂杰1,章军21东南大学网络空间安全学院,江苏南京210000
2安徽大学人工智能学院,安徽合肥230000
CONGXiaofeng1,GUIJie1,ZHANGJun21SchoolofCyberScienceandEngineering,SoutheastUniversity,Nanjing210000,China
2SchoolofArtificialIntelligence,AnhuiUniversity,Hefei230000,China
修回日期:2022-10-25网络出版日期:2022-12-15
Revised:2022-10-25Online:2022-12-15
作者简介Aboutauthors
丛晓峰(1997-),男,东南大学网络空间安全学院博士生,主要研究方向为水下图像处理、生成式算法、图像去雾等。
桂杰(1982-)男,博士,东南大学网络空间安全学院教授、博士生导师,主要研究方向为生成式算法、图像去雾、对抗机器学习以及自监督学习等。
章军(1971-)男,博士,安徽大学人工智能学院教授、博士生导师,主要研究方向为模式识别、智能信息处理等。
由于水中存在光的吸收和散射现象,水下机器人拍摄到的图像存在颜色失真和对比度降低的问题。针对水下图像存在的质量退化现象,提出了一种基于视觉Transformer的多损失融合的方式训练水下图像增强网络。图像增强网络采用编码与解码的结构,可以采用端到端的方式进行训练。将多损失的线性组合作为总体优化目标,有效地更新水下图像增强网络的参数,包括像素损失、结构损失、边缘损失和特征损失。在两个大型水下数据集上进行了量化实验,并与7种水下图像增强算法进行对比。以峰值信噪比和结构相似性为有参考评估指标,以水下评估指标为无参考评估指标进行实验。实验结果表明,提出的水下图像增强网络能够有效地解决图像的颜色失真与对比度降低问题。
关键词:水下图像;质量增强;视觉Transformer;神经网络
Keywords:underwaterimage;qualityenhancement;visionTransformer;neuralnetwork
本文引用格式
丛晓峰,桂杰,章军.基于视觉Transformer的多损失融合水下图像增强网络.智能科学与技术学报[J],2022,4(4):522-532doi:10.11959/j.issn.2096-6652.202252
CONGXiaofeng.UnderwaterimageenhancementnetworkbasedonvisualTransformerwithmultiplelossfunctionsfusion.ChineseJournalofIntelligentScienceandTechnology[J],2022,4(4):522-532doi:10.11959/j.issn.2096-6652.202252
UWT-Net采用了编码-解码的结构方式,包括编码的降维过程和解码的升维过程。编码过程负责学习特征表示,解码过程负责增强图像的像素重建。下面给出UWT-Net的整体结构及前向计算的原理,并分别对网络的各个模块进行介绍。
(1)整体网络架构
图1编码-解码结构的Transformer网络
(2)并行连接编码模块
(3)分块与块投射
(4)下采样模块与上采样模块
在编码过程中,Transformer模块前使用了下采样模块降低特征图尺寸,下采样模块通过步长为2且核尺寸为3×3的卷积实现。在解码过程中,Transformer模块前使用了上采样模块提升特征图尺寸,并且采用步长为1的卷积及像素重组(pixelshuffle)操作将特征图尺寸提升一倍。
(5)Transformer模块
基本的Transformer模块主要包含两个核心组件,第一个是多头自注意力模块,采用的是基于窗口的模式,第二个是多层感知机模块。为了实现信息的有效传递,Transformer模块一般采用层归一化(layernorm)模块对信息流进行处理,第i层的计算方式如式(2)~式(3)所示:
图2Transformer模块结构
为了对增强网络进行有效优化,设计了多种损失组合的方式对网络的参数进行更新。损失的设计从以下4个方面展开。
·像素损失(pixelloss):像素损失在像素层面对网络进行优化,使增强后图像的像素值趋近参考图像。
·结构损失(structuralloss):为了精确地对水下图像的结构信息进行复原,根据结构相似性原理使用结构损失优化网络。
·边缘损失(edgeloss):水下图像的边缘信息是图像质量的重要组成部分,因此将基于梯度的边缘损失作为总体损失中的一项。
·特征损失(featureloss):基于大规模图像数据集训练得到的模型可以表征图像的统计规律,因此使用特征损失对增强网络进行优化可以提高增强效果。
(1)像素损失
逐像素计算的损失是图像复原任务的基础损失,对增强网络的优化采用L1损失,则像素损失计算如式(4)所示:
其中,w和h分别为图像的长和宽,i和j分别为增强结果和参考图像的像素位置。
(2)结构损失
其中,uη和uy分别为增强后图像和参考图像的均值,ση和σy分别为增强后图像和参考图像的方差,σηy为协方差,C1与C2为常数,P为像素。SSIM的值越大,代表两张图像的相似程度越高,所以结构损失的定义如式(6)所示:
其中,N为图像块P中的像素数量。
(3)边缘损失
其中,Gh和Gv分别为水平和垂直方向的梯度值。
(4)特征损失
(5)总体损失与训练流程
上述4种用于水下图像增强网络训练的损失需要在每次迭代中被同时计算,并用于指导网络参数的更新,损失的组合方式为线性加权,具体如式(9)所示:
其中,λs、λe与λf分别为对应损失的权重值,具体的设置见第3节。对所设计的增强网络和组合型损失,采用梯度下降算法进行网络的参数更新。增强网络的训练流程伪代码见算法1。
算法1增强网络的训练流程伪代码
初始化
更新参数
endfor
图3UIEB和EUVP-US的失真图像和参考图像
其中,k为比特数,对于当前数据集,k=8。SSIM是结构信息复原效果的评估指标。UIQM被广泛用于水下图像增强的质量评估任务,它主要包括3个角度的评估,第1是水下图像的色彩评估,第2是水下图像的锐度评估,第3是水下图像的对比度评估,将3种评估值进行线性求和可以获得最终的UIQM值。
表1UIEB数据集上的定量实验结果
图4UIEB测试集的增强效果
表2EUVP-US数据集上的定量实验结果
针对UWT-Net的消融实验分为两部分:第一部分是UWT-Net训练过程所用损失的对比研究,第二部分是网络结构的对比研究。消融实验使用的是UIEB数据集。
(1)损失的消融实验
实验中采用多损失组合优化的方式对神经网络的参数进行更新,分别为像素损失、结构损失、边缘损失和特征损失。像素损失是主体损失,其余3种损失是辅助损失。为了验证所选择的损失是有效的,需要对损失组合情况下获得的水下图像增强效果进行量化分析。针对损失的消融实验分为以下4组。
·设置1:L1损失+结构损失+边缘损失+特征损失。
·设置2:L1损失+结构损失+边缘损失。
·设置3:L1损失+边缘损失+特征损失。
图5EUVP-US测试集的增强效果
·设置4:L1损失+结构损失+特征损失。
设置1包含了所有损失项,设置2、设置3和设置4中分别在设置1的基础上去掉一种损失,目的是验证去掉的损失对水下图像增强任务是否具有促进作用。
表3L1损失消融实验结果
(2)网络结构的消融实验
图6整体损失L的收敛情况
本文针对水下图像的颜色失真与对比度降低问题,将视觉Transformer模型作为基础网络模块,构建了端到端的水下图像增强模型UWT-Net。模型的训练过程将4种不同类型的损失组合作为图像增强网络的整体损失,4种损失分别从像素、结构、边缘和特征的角度设计,能够有效地对增强网络的参数更新过程进行指导。本文在两个公开的水下图像数据集上进行了定量和定性的实验,将提出的水下图像增强模型与其他水下图像增强模型进行对比与分析,实验结果表明,本文设计的模型能够获得较高的峰值信噪比,并保证增强后的水下图像与参考图像具有较高的结构相似性。
图74种损失的收敛情况
严浙平,曲思瑜,邢文.水下图像增强方法研究综述
YANZP,QUSY,XINGW.Anoverviewofunderwaterimageenhancementmethods
DREWSJRP,DONASCIMENTOE,MORAESF,etal.Transmissionestimationinunderwatersingleimages
DREWSJRP,NASCIMENTOER,BOTELHOSSC,etal.Underwaterdepthestimationandimagerestorationbasedonsingleimages
PENGYT,COSMANPC.Underwaterimagerestorationbasedonimageblurrinessandlightabsorption
SONGW,WANGY,HUANGDM,etal.Arapidscenedepthestimationmodelbasedonunderwaterlightattenuationpriorforunderwaterimagerestoration
LIUP,WANGGY,QIH,etal.Underwaterimageenhancementwithadeepresidualframework
NAIKA,SWARNAKARA,MITTALK.Shallow-UWnet:compressedmodelforunderwaterimageenhancement(studentabstract)
LICY.Underwaterscenepriorinspireddeepunderwaterimageandvideoenhancement
BERMAND,LEVYD,AVIDANS,etal.Underwatersingleimagecolorrestorationusinghaze-linesandanewquantitativedataset
LIUZ,LINYT,CAOY,etal.SwinTransformer:hierarchicalvisiontransformerusingshiftedwindows
ZAMIRSW,ARORAA,KHANS,etal.Restormer:efficienttransformerforhigh-resolutionimagerestoration
DOSOVITSKIYA,BEYERL,KOLESNIKOVA,etal.Animageisworth16×16words:transformersforimagerecognitionatscale
LIJ,SKINNERKA,EUSTICERM,etal.WaterGAN:unsupervisedgenerativenetworktoenablereal-timecolorcorrectionofmonocularunderwaterimages
常戬,韩旭.结合导向滤波与自适应算子的水下图像增强
CHANGJ,HANX.Underwaterimageenhancementcombiningguidefilteringwithadaptiveoperator
李颖,陈龙,黄钊宏,等.基于多尺度卷积神经网络特征融合的植株叶片检测技术
LIY,CHENL,HUANGZH,etal.Plantleafdetectiontechnologybasedonmulti-scaleCNNfeaturefusion
王禾扬,杨启鸣,朱旗.基于深度卷积集成网络的视网膜多种疾病筛查和识别方法
WANGHY,YANGQM,ZHUQ.Retinalmulti-diseasescreeningandrecognitionmethodbasedondeepconvolutionensemblenetwork
邵虹,张鸣坤,崔文成.基于分层卷积神经网络的皮肤镜图像分类方法
SHAOH,ZHANGMK,CUIWC.Classificationmethodofdermoscopicimagebasedonhierarchicalconvolutionneuralnetwork
陈龙,丁丹丹.多残差联合学习的水下图像增强
CHENL,DINGDD.Jointmulti-residuallearningforunderwaterimageenhancement
范新南,杨鑫,史鹏飞,等.特征融合生成对抗网络的水下图像增强
FANXN,YANGX,SHIPF,etal.Underwaterimageenhancementbasedonfeaturefusiongenerativeadversaralnetworks
LICY,GUOCL,RENWQ,etal.Anunderwaterimageenhancementbenchmarkdatasetandbeyond
GUOYC,LIHY,ZHUANGPX.Underwaterimageenhancementusingamultiscaledensegenerativeadversarialnetwork
FABBRIC,ISLAMMJ,SATTARJ.Enhancingunderwaterimageryusinggenerativeadversarialnetworks
BOUDIAFA,GUOYH,GHIMIREA,etal.Underwaterimageenhancementusingpre-trainedtransformer
VASWANIA,SHAZEERN,PARMARN,etal.Attentionisallyouneed
SONGYD,HEZQ,QIANH,etal.Visiontransformersforsingleimagedehazing
ZHAOH,GALLOO,FROSIOI,etal.Lossfunctionsforimagerestorationwithneuralnetworks
ZHANGH,PATELVM.Denselyconnectedpyramiddehazingnetwork
JOHNSONJ,ALAHIA,LIFF.Perceptuallossesforreal-timestyletransferandsuper-resolution
SIMONYANK,ZISSERMANA.Verydeepconvolutionalnetworksforlarge-scaleimagerecognition
ISLAMMJ,XIAYY,SATTARJ.Fastunderwaterimageenhancementforimprovedvisualperception
LICY,QUOJ,PANGYW,etal.Singleunderwaterimagerestorationbyblue-greenchannelsdehazingandredchannelcorrection
WANGY,SONGW,FORTINOG,etal.Anexperimental-basedreviewofimageenhancementandimagerestorationmethodsforunderwaterimaging
PANETTAK,GAOC,AGAIANS.Human-visual-system-inspiredunderwaterimagequalitymeasures