基于视觉Transformer的多损失融合水下图像增强网络

智能科学与技术学报,2022,4(4):522-532doi:10.11959/j.issn.2096-6652.202252

专题:水下机器人

丛晓峰1,桂杰1,章军21东南大学网络空间安全学院,江苏南京210000

2安徽大学人工智能学院,安徽合肥230000

CONGXiaofeng1,GUIJie1,ZHANGJun21SchoolofCyberScienceandEngineering,SoutheastUniversity,Nanjing210000,China

2SchoolofArtificialIntelligence,AnhuiUniversity,Hefei230000,China

修回日期:2022-10-25网络出版日期:2022-12-15

Revised:2022-10-25Online:2022-12-15

作者简介Aboutauthors

丛晓峰(1997-),男,东南大学网络空间安全学院博士生,主要研究方向为水下图像处理、生成式算法、图像去雾等。

桂杰(1982-)男,博士,东南大学网络空间安全学院教授、博士生导师,主要研究方向为生成式算法、图像去雾、对抗机器学习以及自监督学习等。

章军(1971-)男,博士,安徽大学人工智能学院教授、博士生导师,主要研究方向为模式识别、智能信息处理等。

由于水中存在光的吸收和散射现象,水下机器人拍摄到的图像存在颜色失真和对比度降低的问题。针对水下图像存在的质量退化现象,提出了一种基于视觉Transformer的多损失融合的方式训练水下图像增强网络。图像增强网络采用编码与解码的结构,可以采用端到端的方式进行训练。将多损失的线性组合作为总体优化目标,有效地更新水下图像增强网络的参数,包括像素损失、结构损失、边缘损失和特征损失。在两个大型水下数据集上进行了量化实验,并与7种水下图像增强算法进行对比。以峰值信噪比和结构相似性为有参考评估指标,以水下评估指标为无参考评估指标进行实验。实验结果表明,提出的水下图像增强网络能够有效地解决图像的颜色失真与对比度降低问题。

关键词:水下图像;质量增强;视觉Transformer;神经网络

Keywords:underwaterimage;qualityenhancement;visionTransformer;neuralnetwork

本文引用格式

丛晓峰,桂杰,章军.基于视觉Transformer的多损失融合水下图像增强网络.智能科学与技术学报[J],2022,4(4):522-532doi:10.11959/j.issn.2096-6652.202252

CONGXiaofeng.UnderwaterimageenhancementnetworkbasedonvisualTransformerwithmultiplelossfunctionsfusion.ChineseJournalofIntelligentScienceandTechnology[J],2022,4(4):522-532doi:10.11959/j.issn.2096-6652.202252

UWT-Net采用了编码-解码的结构方式,包括编码的降维过程和解码的升维过程。编码过程负责学习特征表示,解码过程负责增强图像的像素重建。下面给出UWT-Net的整体结构及前向计算的原理,并分别对网络的各个模块进行介绍。

(1)整体网络架构

图1编码-解码结构的Transformer网络

(2)并行连接编码模块

(3)分块与块投射

(4)下采样模块与上采样模块

在编码过程中,Transformer模块前使用了下采样模块降低特征图尺寸,下采样模块通过步长为2且核尺寸为3×3的卷积实现。在解码过程中,Transformer模块前使用了上采样模块提升特征图尺寸,并且采用步长为1的卷积及像素重组(pixelshuffle)操作将特征图尺寸提升一倍。

(5)Transformer模块

基本的Transformer模块主要包含两个核心组件,第一个是多头自注意力模块,采用的是基于窗口的模式,第二个是多层感知机模块。为了实现信息的有效传递,Transformer模块一般采用层归一化(layernorm)模块对信息流进行处理,第i层的计算方式如式(2)~式(3)所示:

图2Transformer模块结构

为了对增强网络进行有效优化,设计了多种损失组合的方式对网络的参数进行更新。损失的设计从以下4个方面展开。

·像素损失(pixelloss):像素损失在像素层面对网络进行优化,使增强后图像的像素值趋近参考图像。

·结构损失(structuralloss):为了精确地对水下图像的结构信息进行复原,根据结构相似性原理使用结构损失优化网络。

·边缘损失(edgeloss):水下图像的边缘信息是图像质量的重要组成部分,因此将基于梯度的边缘损失作为总体损失中的一项。

·特征损失(featureloss):基于大规模图像数据集训练得到的模型可以表征图像的统计规律,因此使用特征损失对增强网络进行优化可以提高增强效果。

(1)像素损失

逐像素计算的损失是图像复原任务的基础损失,对增强网络的优化采用L1损失,则像素损失计算如式(4)所示:

其中,w和h分别为图像的长和宽,i和j分别为增强结果和参考图像的像素位置。

(2)结构损失

其中,uη和uy分别为增强后图像和参考图像的均值,ση和σy分别为增强后图像和参考图像的方差,σηy为协方差,C1与C2为常数,P为像素。SSIM的值越大,代表两张图像的相似程度越高,所以结构损失的定义如式(6)所示:

其中,N为图像块P中的像素数量。

(3)边缘损失

其中,Gh和Gv分别为水平和垂直方向的梯度值。

(4)特征损失

(5)总体损失与训练流程

上述4种用于水下图像增强网络训练的损失需要在每次迭代中被同时计算,并用于指导网络参数的更新,损失的组合方式为线性加权,具体如式(9)所示:

其中,λs、λe与λf分别为对应损失的权重值,具体的设置见第3节。对所设计的增强网络和组合型损失,采用梯度下降算法进行网络的参数更新。增强网络的训练流程伪代码见算法1。

算法1增强网络的训练流程伪代码

初始化

更新参数

endfor

图3UIEB和EUVP-US的失真图像和参考图像

其中,k为比特数,对于当前数据集,k=8。SSIM是结构信息复原效果的评估指标。UIQM被广泛用于水下图像增强的质量评估任务,它主要包括3个角度的评估,第1是水下图像的色彩评估,第2是水下图像的锐度评估,第3是水下图像的对比度评估,将3种评估值进行线性求和可以获得最终的UIQM值。

表1UIEB数据集上的定量实验结果

图4UIEB测试集的增强效果

表2EUVP-US数据集上的定量实验结果

针对UWT-Net的消融实验分为两部分:第一部分是UWT-Net训练过程所用损失的对比研究,第二部分是网络结构的对比研究。消融实验使用的是UIEB数据集。

(1)损失的消融实验

实验中采用多损失组合优化的方式对神经网络的参数进行更新,分别为像素损失、结构损失、边缘损失和特征损失。像素损失是主体损失,其余3种损失是辅助损失。为了验证所选择的损失是有效的,需要对损失组合情况下获得的水下图像增强效果进行量化分析。针对损失的消融实验分为以下4组。

·设置1:L1损失+结构损失+边缘损失+特征损失。

·设置2:L1损失+结构损失+边缘损失。

·设置3:L1损失+边缘损失+特征损失。

图5EUVP-US测试集的增强效果

·设置4:L1损失+结构损失+特征损失。

设置1包含了所有损失项,设置2、设置3和设置4中分别在设置1的基础上去掉一种损失,目的是验证去掉的损失对水下图像增强任务是否具有促进作用。

表3L1损失消融实验结果

(2)网络结构的消融实验

图6整体损失L的收敛情况

本文针对水下图像的颜色失真与对比度降低问题,将视觉Transformer模型作为基础网络模块,构建了端到端的水下图像增强模型UWT-Net。模型的训练过程将4种不同类型的损失组合作为图像增强网络的整体损失,4种损失分别从像素、结构、边缘和特征的角度设计,能够有效地对增强网络的参数更新过程进行指导。本文在两个公开的水下图像数据集上进行了定量和定性的实验,将提出的水下图像增强模型与其他水下图像增强模型进行对比与分析,实验结果表明,本文设计的模型能够获得较高的峰值信噪比,并保证增强后的水下图像与参考图像具有较高的结构相似性。

图74种损失的收敛情况

严浙平,曲思瑜,邢文.水下图像增强方法研究综述

YANZP,QUSY,XINGW.Anoverviewofunderwaterimageenhancementmethods

DREWSJRP,DONASCIMENTOE,MORAESF,etal.Transmissionestimationinunderwatersingleimages

DREWSJRP,NASCIMENTOER,BOTELHOSSC,etal.Underwaterdepthestimationandimagerestorationbasedonsingleimages

PENGYT,COSMANPC.Underwaterimagerestorationbasedonimageblurrinessandlightabsorption

SONGW,WANGY,HUANGDM,etal.Arapidscenedepthestimationmodelbasedonunderwaterlightattenuationpriorforunderwaterimagerestoration

LIUP,WANGGY,QIH,etal.Underwaterimageenhancementwithadeepresidualframework

NAIKA,SWARNAKARA,MITTALK.Shallow-UWnet:compressedmodelforunderwaterimageenhancement(studentabstract)

LICY.Underwaterscenepriorinspireddeepunderwaterimageandvideoenhancement

BERMAND,LEVYD,AVIDANS,etal.Underwatersingleimagecolorrestorationusinghaze-linesandanewquantitativedataset

LIUZ,LINYT,CAOY,etal.SwinTransformer:hierarchicalvisiontransformerusingshiftedwindows

ZAMIRSW,ARORAA,KHANS,etal.Restormer:efficienttransformerforhigh-resolutionimagerestoration

DOSOVITSKIYA,BEYERL,KOLESNIKOVA,etal.Animageisworth16×16words:transformersforimagerecognitionatscale

LIJ,SKINNERKA,EUSTICERM,etal.WaterGAN:unsupervisedgenerativenetworktoenablereal-timecolorcorrectionofmonocularunderwaterimages

常戬,韩旭.结合导向滤波与自适应算子的水下图像增强

CHANGJ,HANX.Underwaterimageenhancementcombiningguidefilteringwithadaptiveoperator

李颖,陈龙,黄钊宏,等.基于多尺度卷积神经网络特征融合的植株叶片检测技术

LIY,CHENL,HUANGZH,etal.Plantleafdetectiontechnologybasedonmulti-scaleCNNfeaturefusion

王禾扬,杨启鸣,朱旗.基于深度卷积集成网络的视网膜多种疾病筛查和识别方法

WANGHY,YANGQM,ZHUQ.Retinalmulti-diseasescreeningandrecognitionmethodbasedondeepconvolutionensemblenetwork

邵虹,张鸣坤,崔文成.基于分层卷积神经网络的皮肤镜图像分类方法

SHAOH,ZHANGMK,CUIWC.Classificationmethodofdermoscopicimagebasedonhierarchicalconvolutionneuralnetwork

陈龙,丁丹丹.多残差联合学习的水下图像增强

CHENL,DINGDD.Jointmulti-residuallearningforunderwaterimageenhancement

范新南,杨鑫,史鹏飞,等.特征融合生成对抗网络的水下图像增强

FANXN,YANGX,SHIPF,etal.Underwaterimageenhancementbasedonfeaturefusiongenerativeadversaralnetworks

LICY,GUOCL,RENWQ,etal.Anunderwaterimageenhancementbenchmarkdatasetandbeyond

GUOYC,LIHY,ZHUANGPX.Underwaterimageenhancementusingamultiscaledensegenerativeadversarialnetwork

FABBRIC,ISLAMMJ,SATTARJ.Enhancingunderwaterimageryusinggenerativeadversarialnetworks

BOUDIAFA,GUOYH,GHIMIREA,etal.Underwaterimageenhancementusingpre-trainedtransformer

VASWANIA,SHAZEERN,PARMARN,etal.Attentionisallyouneed

SONGYD,HEZQ,QIANH,etal.Visiontransformersforsingleimagedehazing

ZHAOH,GALLOO,FROSIOI,etal.Lossfunctionsforimagerestorationwithneuralnetworks

ZHANGH,PATELVM.Denselyconnectedpyramiddehazingnetwork

JOHNSONJ,ALAHIA,LIFF.Perceptuallossesforreal-timestyletransferandsuper-resolution

SIMONYANK,ZISSERMANA.Verydeepconvolutionalnetworksforlarge-scaleimagerecognition

ISLAMMJ,XIAYY,SATTARJ.Fastunderwaterimageenhancementforimprovedvisualperception

LICY,QUOJ,PANGYW,etal.Singleunderwaterimagerestorationbyblue-greenchannelsdehazingandredchannelcorrection

WANGY,SONGW,FORTINOG,etal.Anexperimental-basedreviewofimageenhancementandimagerestorationmethodsforunderwaterimaging

PANETTAK,GAOC,AGAIANS.Human-visual-system-inspiredunderwaterimagequalitymeasures

THE END
1.图像增强新思路:DeepLPF前言该文是华为诺亚方舟实验室 & INSA Lyon & Mila Montreal联合提出一种基于深度学习的图像增强方法。作者提出采用深度学习方法学习三种类型(椭圆滤波器、渐变滤波器、多项式滤波器)的空间局部滤波器用于图像增强。该文为深度学习算法在图像复原里面的应用提供了一个新思路,非常建议大家仔细看一下。文末附论文下载方式。https://zhuanlan.zhihu.com/p/611492439?utm_id=0
2.基于深度学习的图像增强的算法图像增强算法综述HE按处理方式可以分为基于全局直方图均衡化算法和基于局部直方图均衡化算法。前者是对低照度图像进行整体灰度级调整,若待处理的图像整体偏暗,则会使增强后的图像视觉效果极差,同时造成图像中的目标信息不能突显出来,对于那些全局灰度范围较宽的图像,增强后其细节不能很好地保留。后者的思想是将输入图像分割成各个子块,https://blog.51cto.com/u_14125/7924918
3.基于深度学习的低光照图像增强方法总结(2020.09.15更新)之前在做光照对于高层视觉任务的影响的相关工作,看了不少基于深度学习的低光照增强(low-light enhancement)的文章,于是决定简单梳理一下。 光照估计(illumination estimation)和低光照增强(low-light enhancement)的区别:光照估计是一个专门的底层视觉任务(例如[1,2,6]),它的输出结果可以被用到其它任务中,例如图像增https://blog.csdn.net/hyk_1996/article/details/99641652
4.基于深度学习的暗光图像增强与目标检测算法研究及应用基于深度学习的智能无人系统以其高智能、小型化、低成本等优势被广泛应用于各类暗光场景。而高级的计算机视觉任务,如目标检测,通常以内容清晰的高质量图像作为研究对象,对环境复杂、光线微弱的暗光场景无法实现高精度的检测。为此,本文提出了一种融合注意力机制的暗光增强算法以及适用于移动设备的快速目标检测算法,并通过https://wap.cnki.net/touch/web/Dissertation/Article/1023444780.nh.html
5.图像处理三:图像增强算法FPGA开发圈由于受到环境,光线等的影响,拍摄的照片清晰度和对比度比较低,不能够突出图像中的重点。图像增强就是通过一定手段来增强图像的对比度,使得其中的人物或者事物更加明显,有利于后边的识别等处理。本章介绍几个传统的图像增强算法,并给出matlab实现代码,看一看不同算法的实现效果,最后再介绍一下深度学习在图像增强上的应用http://xilinx.eetrend.com/content/2019/100044332.html
6.基于深度学习的图像边缘和轮廓提取整体嵌套边缘检测(Holistically-Nested Edge Detection,HED 是一个深度学习的边缘提取的算法,两个特色:(1)整体图像训练和预测; (2)多尺度、多层特征学习。该深度模型利用全卷积网络,自动学习丰富的分层表示(基于侧面响应的深层监督指导)。 多尺度深度学习可分为四类,即https://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247628143&idx=1&sn=f36201e4473903adbb7c63e24642841b&chksm=fac4d7b04943a3bc2a67e6307dac61560c15a5e0662e4b3f0d719307989355d740d966e9d821&scene=27
7.的图像去雾算法来啦!前面给大家介绍过14种低照度图像增强算法这个透射率告诉了图像去雾系统我们需要恢复多少被雾霾遮盖的细节。然后,系统会根据透射率对图片进行调整。它会让照片中的像素更加亮丽,同时减少雾霾造成的影响。具体来说,图像去雾算法可以分为基于图像增强的去雾算法、基于图像复原的去雾算法和基于深度学习的去雾算法。本文主要研究介绍基于深度学习的去雾算法介绍基于https://juejin.cn/post/7255312213480194107
8.图像增强算法综述①小波变换图像增强,偏微分方程图像增强,分数阶 微分的图像增强,基于 Retinex 理论的图像增强和基于深度学习的图像增强算法,?并讨论了它们的改进算法.?然后, 从视觉效果,对比度,信息熵等方面对几种算法进行了定性和定量的对比,?分析了它们的优势和劣势.?最后,?对图 像增强算法的未来发展趋势作了简单的https://c-s-a.org.cn/csa/article/pdf/7956
9.基于深度学习的图像压缩感知算法研究.pdf基于深度学习的图像压缩感知算法研究 3.5本章小结23 第四章基于观测值残差并行网络的深度压缩感知算法25 4.1引言25 4.2残差并行增强网络模型25 4.2.1网络模型25 4.2.2主特征提取分支25 4.2.3基于观测值残差的特征补偿提取分支27 4.2.4穿插模块28 4.2.5增强分支28 4.3损失函数29 4.4实验结果和分析29 4.4.1数据集https://max.book118.com/html/2024/0325/8130111014006051.shtm
10.图像增强算法综述15. 张莹. 暗光图像增强技术在矿用小型终端中的应用. 世界有色金属. 2024(14): 202-204 . 16. 章赵威,冯向萍,张世豪. 基于深度学习的玉米叶片病害识别方法研究. 现代计算机. 2024(13): 1-8+77 . 17. 王孟奇,连增增,田亚林,王鹏辉. 面向室内弱光环境的视觉与惯导融合算法研究. 导航定位与授时. 202http://www.chineseoptics.net.cn/en/article/id/9522
11.基于深度学习的水下图像增强技术研究学位然而,特殊的水下成像环境会导致拍摄的水下图像出现颜色失真、对比度低、细节模糊等退化现象,因此,水下图像增强技术具有重要的科学意义与应用价值。针对水下特殊成像环境与现有水下图像增强方法的不足之处,本文设计了基于深度学习的水下图像增强算法,主要研究工作包括: (1)为解决水下图像样本数量及多样性不足的问题,https://d.wanfangdata.com.cn/thesis/D02724334
12.低光照图像增强算法综述.docx传统的低光照图像增强算法在一定程度上提高了图像的视觉效果,但仍然存在一些问题,如噪声增强、细节丢失等。因此,近年来,随着深度学习技术的发展,越来越多的研究者开始关注基于深度学习的低光照图像增强算法。四、基于深度学习的低光照图像增强算法近年来,深度学习在计算机视觉任务中取得了显著的成果,尤其是在图像增强和https://www.renrendoc.com/paper/319219630.html
13.多尺度语义特征水下图像增强研究目前,水下图像增强与复原分为非深度学习方法与深度学习方法[2]。基于非深度学习方法主要分为2种:一种是图像增强,以像素点的基础使图像清晰,比如:直方图均衡化[3]、白平衡[4]、MSRCR[5]等算法,该类算法忽略传感器镜头在水下环境中的成像模型,导致红通道缺失,甚至出现伪影,用增强算法处理后的水下图像色彩容易增强https://www.fx361.com/page/2022/1214/17780778.shtml
14.Light深度学习赋能下的光学计量澎湃号·湃客澎湃新闻图2 光学计量的典型图像处理过程(如条纹投影轮廓术)可分为三个主要步骤:预处理(如去噪、图像增强)、分析(如相位解调、相位展开)和后处理(如相位—深度映射) 图3 光学计量图像处理层次结构的概貌以及不同层中分布的各种图像处理算法 深度学习技术 原理、发展与卷积神经网络 https://www.thepaper.cn/newsDetail_forward_16995760
15.科学网—基于深度学习的单幅图像超分辨率重建算法综述在深度学习未兴起前,经典的单幅图像超分辨率算法占据主导地位, Lanczos重采样[1]和双三次插值[2]得到了广泛的应用,但采用插值方法有时会导致图像边缘和细节模糊,因此其他传统算法也被相继提出[3-5],有效地增强了图像的质量.经典的超分辨率重建算法需要很多先验知识,且要求研究者具有深厚的专业知识储备.随着深度学习https://blog.sciencenet.cn/blog-3291369-1347645.html
16.增强型DeepLab算法和自适应损失函数的高分辨率遥感影像分类夏梦等(2017)结合深度学习和条件随机场,在输入图像中增加了纹理信息,得到了比SVM分类器更好的提取效果,但其网络结果中,输出层地物位置信息没有得到足够的保留。在DeepLab v2网络的基础上,Chen等(2018a)提出了Na?ve-SCNN和Deeper-SCNN网络,并提出增强视场的方法,使用ISPRS的高分辨率语义分割数据集,成功提高了训练https://www.ygxb.ac.cn/zh/article/doi/10.11834/jrs.20209200/