基于视觉Transformer的多损失融合水下图像增强网络

智能科学与技术学报,2022,4(4):522-532doi:10.11959/j.issn.2096-6652.202252

专题:水下机器人

丛晓峰1,桂杰1,章军21东南大学网络空间安全学院,江苏南京210000

2安徽大学人工智能学院,安徽合肥230000

CONGXiaofeng1,GUIJie1,ZHANGJun21SchoolofCyberScienceandEngineering,SoutheastUniversity,Nanjing210000,China

2SchoolofArtificialIntelligence,AnhuiUniversity,Hefei230000,China

修回日期:2022-10-25网络出版日期:2022-12-15

Revised:2022-10-25Online:2022-12-15

作者简介Aboutauthors

丛晓峰(1997-),男,东南大学网络空间安全学院博士生,主要研究方向为水下图像处理、生成式算法、图像去雾等。

桂杰(1982-)男,博士,东南大学网络空间安全学院教授、博士生导师,主要研究方向为生成式算法、图像去雾、对抗机器学习以及自监督学习等。

章军(1971-)男,博士,安徽大学人工智能学院教授、博士生导师,主要研究方向为模式识别、智能信息处理等。

由于水中存在光的吸收和散射现象,水下机器人拍摄到的图像存在颜色失真和对比度降低的问题。针对水下图像存在的质量退化现象,提出了一种基于视觉Transformer的多损失融合的方式训练水下图像增强网络。图像增强网络采用编码与解码的结构,可以采用端到端的方式进行训练。将多损失的线性组合作为总体优化目标,有效地更新水下图像增强网络的参数,包括像素损失、结构损失、边缘损失和特征损失。在两个大型水下数据集上进行了量化实验,并与7种水下图像增强算法进行对比。以峰值信噪比和结构相似性为有参考评估指标,以水下评估指标为无参考评估指标进行实验。实验结果表明,提出的水下图像增强网络能够有效地解决图像的颜色失真与对比度降低问题。

关键词:水下图像;质量增强;视觉Transformer;神经网络

Keywords:underwaterimage;qualityenhancement;visionTransformer;neuralnetwork

本文引用格式

丛晓峰,桂杰,章军.基于视觉Transformer的多损失融合水下图像增强网络.智能科学与技术学报[J],2022,4(4):522-532doi:10.11959/j.issn.2096-6652.202252

CONGXiaofeng.UnderwaterimageenhancementnetworkbasedonvisualTransformerwithmultiplelossfunctionsfusion.ChineseJournalofIntelligentScienceandTechnology[J],2022,4(4):522-532doi:10.11959/j.issn.2096-6652.202252

UWT-Net采用了编码-解码的结构方式,包括编码的降维过程和解码的升维过程。编码过程负责学习特征表示,解码过程负责增强图像的像素重建。下面给出UWT-Net的整体结构及前向计算的原理,并分别对网络的各个模块进行介绍。

(1)整体网络架构

图1编码-解码结构的Transformer网络

(2)并行连接编码模块

(3)分块与块投射

(4)下采样模块与上采样模块

在编码过程中,Transformer模块前使用了下采样模块降低特征图尺寸,下采样模块通过步长为2且核尺寸为3×3的卷积实现。在解码过程中,Transformer模块前使用了上采样模块提升特征图尺寸,并且采用步长为1的卷积及像素重组(pixelshuffle)操作将特征图尺寸提升一倍。

(5)Transformer模块

基本的Transformer模块主要包含两个核心组件,第一个是多头自注意力模块,采用的是基于窗口的模式,第二个是多层感知机模块。为了实现信息的有效传递,Transformer模块一般采用层归一化(layernorm)模块对信息流进行处理,第i层的计算方式如式(2)~式(3)所示:

图2Transformer模块结构

为了对增强网络进行有效优化,设计了多种损失组合的方式对网络的参数进行更新。损失的设计从以下4个方面展开。

·像素损失(pixelloss):像素损失在像素层面对网络进行优化,使增强后图像的像素值趋近参考图像。

·结构损失(structuralloss):为了精确地对水下图像的结构信息进行复原,根据结构相似性原理使用结构损失优化网络。

·边缘损失(edgeloss):水下图像的边缘信息是图像质量的重要组成部分,因此将基于梯度的边缘损失作为总体损失中的一项。

·特征损失(featureloss):基于大规模图像数据集训练得到的模型可以表征图像的统计规律,因此使用特征损失对增强网络进行优化可以提高增强效果。

(1)像素损失

逐像素计算的损失是图像复原任务的基础损失,对增强网络的优化采用L1损失,则像素损失计算如式(4)所示:

其中,w和h分别为图像的长和宽,i和j分别为增强结果和参考图像的像素位置。

(2)结构损失

其中,uη和uy分别为增强后图像和参考图像的均值,ση和σy分别为增强后图像和参考图像的方差,σηy为协方差,C1与C2为常数,P为像素。SSIM的值越大,代表两张图像的相似程度越高,所以结构损失的定义如式(6)所示:

其中,N为图像块P中的像素数量。

(3)边缘损失

其中,Gh和Gv分别为水平和垂直方向的梯度值。

(4)特征损失

(5)总体损失与训练流程

上述4种用于水下图像增强网络训练的损失需要在每次迭代中被同时计算,并用于指导网络参数的更新,损失的组合方式为线性加权,具体如式(9)所示:

其中,λs、λe与λf分别为对应损失的权重值,具体的设置见第3节。对所设计的增强网络和组合型损失,采用梯度下降算法进行网络的参数更新。增强网络的训练流程伪代码见算法1。

算法1增强网络的训练流程伪代码

初始化

更新参数

endfor

图3UIEB和EUVP-US的失真图像和参考图像

其中,k为比特数,对于当前数据集,k=8。SSIM是结构信息复原效果的评估指标。UIQM被广泛用于水下图像增强的质量评估任务,它主要包括3个角度的评估,第1是水下图像的色彩评估,第2是水下图像的锐度评估,第3是水下图像的对比度评估,将3种评估值进行线性求和可以获得最终的UIQM值。

表1UIEB数据集上的定量实验结果

图4UIEB测试集的增强效果

表2EUVP-US数据集上的定量实验结果

针对UWT-Net的消融实验分为两部分:第一部分是UWT-Net训练过程所用损失的对比研究,第二部分是网络结构的对比研究。消融实验使用的是UIEB数据集。

(1)损失的消融实验

实验中采用多损失组合优化的方式对神经网络的参数进行更新,分别为像素损失、结构损失、边缘损失和特征损失。像素损失是主体损失,其余3种损失是辅助损失。为了验证所选择的损失是有效的,需要对损失组合情况下获得的水下图像增强效果进行量化分析。针对损失的消融实验分为以下4组。

·设置1:L1损失+结构损失+边缘损失+特征损失。

·设置2:L1损失+结构损失+边缘损失。

·设置3:L1损失+边缘损失+特征损失。

图5EUVP-US测试集的增强效果

·设置4:L1损失+结构损失+特征损失。

设置1包含了所有损失项,设置2、设置3和设置4中分别在设置1的基础上去掉一种损失,目的是验证去掉的损失对水下图像增强任务是否具有促进作用。

表3L1损失消融实验结果

(2)网络结构的消融实验

图6整体损失L的收敛情况

本文针对水下图像的颜色失真与对比度降低问题,将视觉Transformer模型作为基础网络模块,构建了端到端的水下图像增强模型UWT-Net。模型的训练过程将4种不同类型的损失组合作为图像增强网络的整体损失,4种损失分别从像素、结构、边缘和特征的角度设计,能够有效地对增强网络的参数更新过程进行指导。本文在两个公开的水下图像数据集上进行了定量和定性的实验,将提出的水下图像增强模型与其他水下图像增强模型进行对比与分析,实验结果表明,本文设计的模型能够获得较高的峰值信噪比,并保证增强后的水下图像与参考图像具有较高的结构相似性。

图74种损失的收敛情况

严浙平,曲思瑜,邢文.水下图像增强方法研究综述

YANZP,QUSY,XINGW.Anoverviewofunderwaterimageenhancementmethods

DREWSJRP,DONASCIMENTOE,MORAESF,etal.Transmissionestimationinunderwatersingleimages

DREWSJRP,NASCIMENTOER,BOTELHOSSC,etal.Underwaterdepthestimationandimagerestorationbasedonsingleimages

PENGYT,COSMANPC.Underwaterimagerestorationbasedonimageblurrinessandlightabsorption

SONGW,WANGY,HUANGDM,etal.Arapidscenedepthestimationmodelbasedonunderwaterlightattenuationpriorforunderwaterimagerestoration

LIUP,WANGGY,QIH,etal.Underwaterimageenhancementwithadeepresidualframework

NAIKA,SWARNAKARA,MITTALK.Shallow-UWnet:compressedmodelforunderwaterimageenhancement(studentabstract)

LICY.Underwaterscenepriorinspireddeepunderwaterimageandvideoenhancement

BERMAND,LEVYD,AVIDANS,etal.Underwatersingleimagecolorrestorationusinghaze-linesandanewquantitativedataset

LIUZ,LINYT,CAOY,etal.SwinTransformer:hierarchicalvisiontransformerusingshiftedwindows

ZAMIRSW,ARORAA,KHANS,etal.Restormer:efficienttransformerforhigh-resolutionimagerestoration

DOSOVITSKIYA,BEYERL,KOLESNIKOVA,etal.Animageisworth16×16words:transformersforimagerecognitionatscale

LIJ,SKINNERKA,EUSTICERM,etal.WaterGAN:unsupervisedgenerativenetworktoenablereal-timecolorcorrectionofmonocularunderwaterimages

常戬,韩旭.结合导向滤波与自适应算子的水下图像增强

CHANGJ,HANX.Underwaterimageenhancementcombiningguidefilteringwithadaptiveoperator

李颖,陈龙,黄钊宏,等.基于多尺度卷积神经网络特征融合的植株叶片检测技术

LIY,CHENL,HUANGZH,etal.Plantleafdetectiontechnologybasedonmulti-scaleCNNfeaturefusion

王禾扬,杨启鸣,朱旗.基于深度卷积集成网络的视网膜多种疾病筛查和识别方法

WANGHY,YANGQM,ZHUQ.Retinalmulti-diseasescreeningandrecognitionmethodbasedondeepconvolutionensemblenetwork

邵虹,张鸣坤,崔文成.基于分层卷积神经网络的皮肤镜图像分类方法

SHAOH,ZHANGMK,CUIWC.Classificationmethodofdermoscopicimagebasedonhierarchicalconvolutionneuralnetwork

陈龙,丁丹丹.多残差联合学习的水下图像增强

CHENL,DINGDD.Jointmulti-residuallearningforunderwaterimageenhancement

范新南,杨鑫,史鹏飞,等.特征融合生成对抗网络的水下图像增强

FANXN,YANGX,SHIPF,etal.Underwaterimageenhancementbasedonfeaturefusiongenerativeadversaralnetworks

LICY,GUOCL,RENWQ,etal.Anunderwaterimageenhancementbenchmarkdatasetandbeyond

GUOYC,LIHY,ZHUANGPX.Underwaterimageenhancementusingamultiscaledensegenerativeadversarialnetwork

FABBRIC,ISLAMMJ,SATTARJ.Enhancingunderwaterimageryusinggenerativeadversarialnetworks

BOUDIAFA,GUOYH,GHIMIREA,etal.Underwaterimageenhancementusingpre-trainedtransformer

VASWANIA,SHAZEERN,PARMARN,etal.Attentionisallyouneed

SONGYD,HEZQ,QIANH,etal.Visiontransformersforsingleimagedehazing

ZHAOH,GALLOO,FROSIOI,etal.Lossfunctionsforimagerestorationwithneuralnetworks

ZHANGH,PATELVM.Denselyconnectedpyramiddehazingnetwork

JOHNSONJ,ALAHIA,LIFF.Perceptuallossesforreal-timestyletransferandsuper-resolution

SIMONYANK,ZISSERMANA.Verydeepconvolutionalnetworksforlarge-scaleimagerecognition

ISLAMMJ,XIAYY,SATTARJ.Fastunderwaterimageenhancementforimprovedvisualperception

LICY,QUOJ,PANGYW,etal.Singleunderwaterimagerestorationbyblue-greenchannelsdehazingandredchannelcorrection

WANGY,SONGW,FORTINOG,etal.Anexperimental-basedreviewofimageenhancementandimagerestorationmethodsforunderwaterimaging

PANETTAK,GAOC,AGAIANS.Human-visual-system-inspiredunderwaterimagequalitymeasures

THE END
1.AI模型训练与优化技巧:从数据增强到模型压缩的实践指南图像数据增强是一种常用的技术,通过对训练数据进行多样性的变换,可以有效提升模型的鲁棒性和泛化能力。常见的图像数据增强方法包括:随机裁剪、旋转、翻转、缩放、色彩变换等。例如,对于分类任务,我们可以通过对图像进行水平翻转和旋转操作,来增加数据的多样性,从而提升模型的分类效果。 https://www.jianshu.com/p/84d2a32572cc
2.一文详细归纳算法数据增强方法需要关注的是,数据增强样本也有可能是引入片面噪声,导致过拟合。此时需要考虑的是调整数据增强方法,或者通过算法(可借鉴Pu-Learning思路)选择增强数据的最佳子集,以提高模型的泛化能力。 常用数据增强方法可分为:基于样本变换的数据增强及基于深度学习的数据增强。 https://blog.csdn.net/2301_78285120/article/details/132388494
3.总结62种在深度学习中的数据增强方式业界新闻混合样本数据增强算法的核心思想是 按一定的比例随机混合两个训练样本及其标签 这种混合方式不仅能够增加样本的多样性,并且能够使不同类别的决策边界过渡更加平滑 减少了一些难例样本的误识别,模型的鲁棒性得到提升,训练时也比较稳定 (35)RICAP RICAP,即随机图像裁剪和修补,是一种新的数据增强技术 https://www.jindouyun.cn/document/industry/article/183115
4.伯克利AI研究院提出新的数据增强算法,比谷歌大脑的AutoAugment雷锋网 AI 科技评论按:数据增强是提升图像识别模型性能的重要手段。伯克利 AI 研究院的一篇关于数据增强的论文便被 ICML 2019 收录为 oral 论文,该论文巧妙地运用基于种群的数据增强算法,在降低计算成本的情况下,既能提高学习数据增强策略的速度,又能提升模型的整体性能。伯克利 AI 研究院也在官方博客上对论文进行了https://www.leiphone.com/news/201906/gfpjijbKYjpKQfE2.html
5.最新车身漆面缺陷检测算法及一些缺陷数据集项目介绍数据:为了实时采集车身油漆缺陷图像,提出了一种新的数据增强算法,以增强数据库处理小样本数据过拟合现象的能力。 方法:针对汽车涂料固有的缺陷特征,通过改进MobileNet-SSD网络的特征层,优化边界框的匹配策略,提出了一种改进的MobileNet-SSD算法,用于油漆缺陷的自动检测。 https://www.yoojia.com/ask/17-11631754346557195974.html
6.基于Mosaic数据增强方法的标签检测算法研究针对原始YOLOv5算法在小目标的复杂情况下的检测效果欠佳的问题,本文引入数据增强和DIOU_nms的方法,有效提高了数据集的利用率和实际检测结果的精确度,大大降低了实际目标的错检率,使得目标框的回归更加稳定迅速,定位更加准确。本文YOLOv5+Mosaic+DIOU_nms模型提高了YOLOv5算法在特定环境下的检测效果和鲁棒性,也验证了https://www.fx361.com/page/2022/0531/10538044.shtml
7.12个常用的图像数据增强技术总结机器学习或深度学习模型的训练的目标是成为“通用”模型。这就需要模型没有过度拟合训练数据集,或者换句话说,我们的模型对看不见的数据有很好的了解。数据增强也是避免过度拟合的众多方法之一。 机器学习或深度学习模型的训练的目标是成为“通用”模型。这就需要模型没有过度拟合训练数据集,或者换句话说,我们的模型对看https://www.51cto.com/article/721267.html
8.深度学习领域的数据增强机器之心在计算视觉领域,生成增强图像相对容易。即使引入噪声或裁剪图像的一部分,模型仍可以对图像进行分类,数据增强有一系列简单有效的方法可供选择,有一些机器学习库来进行计算视觉领域的数据增强,比如:imgaug (https://github.com/aleju/imgaug)它封装了很多数据增强算法,给开发者提供了方便。 但是在自然语言处理领域中,由于https://www.jiqizhixin.com/articles/2019-12-04-10
9.自适应双边滤波的Retinex图像增强算法AET以上各种对Retinex算法的改进都是需要人工调节参数,对此,本文提出一种基于参数估计的双边滤波Retinex图像增强算法:从文献[7]出发,对图像的噪声方差进行估算,从而自动调节双边滤波的空间几何标准差参数;同时,从文献[8]出发,对图像进行边缘检测,得出边缘强度,从而自动调节双边滤波的亮度标准差参数;最后实现了双边滤波的参数http://www.chinaaet.com/article/3000079533
10.指静脉识别中的数据增强及多任务学习算法的研究与实现最近深度学习由于互联网大数据的的爆发获得了快速的发展,在图像领域几近全面超越了传统的算法。本文结合深度学习在指静脉识别领域目前依然存在的问题上进行了探索。并提出了相应的解决方案。本文工作内容如下:(1)针对目前公共数据集数据量少的问题,设计并实现了基于深度学习的图像数量增强算法。该算法利用条件式生成模型,https://cdmd.cnki.com.cn/Article/CDMD-10013-1021025630.htm
11.分析语音数据增强及python实现python数据增强是一种生成合成数据的方法,即通过调整原始样本来创建新样本。这样我们就可获得大量的数据。这不仅增加了数据集的大小,还提供了单个样本的多个变体,这有助于我们的机器学习模型避免过度拟合+ 目录 一、概述 音频时域波形具有以下特征:音调,响度,质量。我们在进行数据增强时,最好只做一些小改动,使得增强数据和https://www.jb51.net/article/214889.htm
12.学习报告:脑电图数据增强——解决睡眠分期任务中的类别失衡问题该文章提出了五种数据增强的方法,包括重复少数类(DAR)、脑电图信号形态变化(DAMC)、信号分割和重组(DASR)、数据集到数据集的传输(DAT),以及最先进的生成算法GAN(DAGAN)。 1.重复少数类(DAR) 少数类的重复样本是一种简单的方法,通过简单地从少数类[2]中随机复制选定的样本。在训练过程中对该方法进行了验证。https://www.scholat.com/teamwork/teamwork/showPostMessage.html?id=13309
13.基于焦点损失函数的嵌套长短时记忆网络心电信号分类研究过量扩充样本数量将会导致特征冗余,故本文采用SMOTE算法仅对少样本类别进行处理,使三类心律失常类别数量总和与N类数量达到相对平衡状态,进而抑制样本不平衡对模型性能的消极影响,进一步提高focal loss下的模型性能,旨在达到平衡数据集的分类的精度。数据增强后的数据分布如表1所示。 在不平衡心律失常分类仿真实验中,对训练https://www.tcsurg.org/article/10.7507/1001-5515.202110002
14.图像增强算法有哪些图像增强算法主要是对成像设备采集的图像进行一系列的加工处理,增强图像的整体效果或是局部细节, 从而提高整体与部分的对比度, 抑制不必要的细节信息, 改善图像的质量, 使其符合人眼的视觉特性。图像增强算法有直方图均衡图像增强,小波变换图像增强 ,偏微分方程图像增强,分数阶微分的图像增强,基于Retinex理论的图像增强,https://aistudio.baidu.com/aistudio/projectdetail/4902656
15.一种基于特征集关联度的乳腺超声分割方法与流程数据增强是提升算法性能、满足深度学习对大量数据的需求的重要工具。数据增强可以 通过生成无限的修改数据流对训练集进行人为扩充。原始数据不同的变换最终趋于同一个结 果是数据一致性的体现。然而正则化是指对模型施加约束以降低模型对训练数据依赖的一般 方法,因此有望使其更好地泛化到无法可视化的数据。一致性正则化https://www.xjishu.com/zhuanli/55/202111049894.html
16.基于基本图像处理技术的数据增强方法在计算视觉领域,生成增强图像相对容易。即使引入噪声或裁剪图像的一部分,模型仍可以对图像进行分类,数据增强有一系列简单有效的方法可供选择,有一些机器学习库来进行计算视觉领域的数据增强,比如:imgaug (https://github.com/aleju/imgaug)它封装了很多数据增强算法,给开发者提供了方便。 但是在自然语言处理领域中,由于https://m.elecfans.com/article/1877181.html