基于视觉Transformer的多损失融合水下图像增强网络

智能科学与技术学报,2022,4(4):522-532doi:10.11959/j.issn.2096-6652.202252

专题:水下机器人

丛晓峰1,桂杰1,章军21东南大学网络空间安全学院,江苏南京210000

2安徽大学人工智能学院,安徽合肥230000

CONGXiaofeng1,GUIJie1,ZHANGJun21SchoolofCyberScienceandEngineering,SoutheastUniversity,Nanjing210000,China

2SchoolofArtificialIntelligence,AnhuiUniversity,Hefei230000,China

修回日期:2022-10-25网络出版日期:2022-12-15

Revised:2022-10-25Online:2022-12-15

作者简介Aboutauthors

丛晓峰(1997-),男,东南大学网络空间安全学院博士生,主要研究方向为水下图像处理、生成式算法、图像去雾等。

桂杰(1982-)男,博士,东南大学网络空间安全学院教授、博士生导师,主要研究方向为生成式算法、图像去雾、对抗机器学习以及自监督学习等。

章军(1971-)男,博士,安徽大学人工智能学院教授、博士生导师,主要研究方向为模式识别、智能信息处理等。

由于水中存在光的吸收和散射现象,水下机器人拍摄到的图像存在颜色失真和对比度降低的问题。针对水下图像存在的质量退化现象,提出了一种基于视觉Transformer的多损失融合的方式训练水下图像增强网络。图像增强网络采用编码与解码的结构,可以采用端到端的方式进行训练。将多损失的线性组合作为总体优化目标,有效地更新水下图像增强网络的参数,包括像素损失、结构损失、边缘损失和特征损失。在两个大型水下数据集上进行了量化实验,并与7种水下图像增强算法进行对比。以峰值信噪比和结构相似性为有参考评估指标,以水下评估指标为无参考评估指标进行实验。实验结果表明,提出的水下图像增强网络能够有效地解决图像的颜色失真与对比度降低问题。

关键词:水下图像;质量增强;视觉Transformer;神经网络

Keywords:underwaterimage;qualityenhancement;visionTransformer;neuralnetwork

本文引用格式

丛晓峰,桂杰,章军.基于视觉Transformer的多损失融合水下图像增强网络.智能科学与技术学报[J],2022,4(4):522-532doi:10.11959/j.issn.2096-6652.202252

CONGXiaofeng.UnderwaterimageenhancementnetworkbasedonvisualTransformerwithmultiplelossfunctionsfusion.ChineseJournalofIntelligentScienceandTechnology[J],2022,4(4):522-532doi:10.11959/j.issn.2096-6652.202252

UWT-Net采用了编码-解码的结构方式,包括编码的降维过程和解码的升维过程。编码过程负责学习特征表示,解码过程负责增强图像的像素重建。下面给出UWT-Net的整体结构及前向计算的原理,并分别对网络的各个模块进行介绍。

(1)整体网络架构

图1编码-解码结构的Transformer网络

(2)并行连接编码模块

(3)分块与块投射

(4)下采样模块与上采样模块

在编码过程中,Transformer模块前使用了下采样模块降低特征图尺寸,下采样模块通过步长为2且核尺寸为3×3的卷积实现。在解码过程中,Transformer模块前使用了上采样模块提升特征图尺寸,并且采用步长为1的卷积及像素重组(pixelshuffle)操作将特征图尺寸提升一倍。

(5)Transformer模块

基本的Transformer模块主要包含两个核心组件,第一个是多头自注意力模块,采用的是基于窗口的模式,第二个是多层感知机模块。为了实现信息的有效传递,Transformer模块一般采用层归一化(layernorm)模块对信息流进行处理,第i层的计算方式如式(2)~式(3)所示:

图2Transformer模块结构

为了对增强网络进行有效优化,设计了多种损失组合的方式对网络的参数进行更新。损失的设计从以下4个方面展开。

·像素损失(pixelloss):像素损失在像素层面对网络进行优化,使增强后图像的像素值趋近参考图像。

·结构损失(structuralloss):为了精确地对水下图像的结构信息进行复原,根据结构相似性原理使用结构损失优化网络。

·边缘损失(edgeloss):水下图像的边缘信息是图像质量的重要组成部分,因此将基于梯度的边缘损失作为总体损失中的一项。

·特征损失(featureloss):基于大规模图像数据集训练得到的模型可以表征图像的统计规律,因此使用特征损失对增强网络进行优化可以提高增强效果。

(1)像素损失

逐像素计算的损失是图像复原任务的基础损失,对增强网络的优化采用L1损失,则像素损失计算如式(4)所示:

其中,w和h分别为图像的长和宽,i和j分别为增强结果和参考图像的像素位置。

(2)结构损失

其中,uη和uy分别为增强后图像和参考图像的均值,ση和σy分别为增强后图像和参考图像的方差,σηy为协方差,C1与C2为常数,P为像素。SSIM的值越大,代表两张图像的相似程度越高,所以结构损失的定义如式(6)所示:

其中,N为图像块P中的像素数量。

(3)边缘损失

其中,Gh和Gv分别为水平和垂直方向的梯度值。

(4)特征损失

(5)总体损失与训练流程

上述4种用于水下图像增强网络训练的损失需要在每次迭代中被同时计算,并用于指导网络参数的更新,损失的组合方式为线性加权,具体如式(9)所示:

其中,λs、λe与λf分别为对应损失的权重值,具体的设置见第3节。对所设计的增强网络和组合型损失,采用梯度下降算法进行网络的参数更新。增强网络的训练流程伪代码见算法1。

算法1增强网络的训练流程伪代码

初始化

更新参数

endfor

图3UIEB和EUVP-US的失真图像和参考图像

其中,k为比特数,对于当前数据集,k=8。SSIM是结构信息复原效果的评估指标。UIQM被广泛用于水下图像增强的质量评估任务,它主要包括3个角度的评估,第1是水下图像的色彩评估,第2是水下图像的锐度评估,第3是水下图像的对比度评估,将3种评估值进行线性求和可以获得最终的UIQM值。

表1UIEB数据集上的定量实验结果

图4UIEB测试集的增强效果

表2EUVP-US数据集上的定量实验结果

针对UWT-Net的消融实验分为两部分:第一部分是UWT-Net训练过程所用损失的对比研究,第二部分是网络结构的对比研究。消融实验使用的是UIEB数据集。

(1)损失的消融实验

实验中采用多损失组合优化的方式对神经网络的参数进行更新,分别为像素损失、结构损失、边缘损失和特征损失。像素损失是主体损失,其余3种损失是辅助损失。为了验证所选择的损失是有效的,需要对损失组合情况下获得的水下图像增强效果进行量化分析。针对损失的消融实验分为以下4组。

·设置1:L1损失+结构损失+边缘损失+特征损失。

·设置2:L1损失+结构损失+边缘损失。

·设置3:L1损失+边缘损失+特征损失。

图5EUVP-US测试集的增强效果

·设置4:L1损失+结构损失+特征损失。

设置1包含了所有损失项,设置2、设置3和设置4中分别在设置1的基础上去掉一种损失,目的是验证去掉的损失对水下图像增强任务是否具有促进作用。

表3L1损失消融实验结果

(2)网络结构的消融实验

图6整体损失L的收敛情况

本文针对水下图像的颜色失真与对比度降低问题,将视觉Transformer模型作为基础网络模块,构建了端到端的水下图像增强模型UWT-Net。模型的训练过程将4种不同类型的损失组合作为图像增强网络的整体损失,4种损失分别从像素、结构、边缘和特征的角度设计,能够有效地对增强网络的参数更新过程进行指导。本文在两个公开的水下图像数据集上进行了定量和定性的实验,将提出的水下图像增强模型与其他水下图像增强模型进行对比与分析,实验结果表明,本文设计的模型能够获得较高的峰值信噪比,并保证增强后的水下图像与参考图像具有较高的结构相似性。

图74种损失的收敛情况

严浙平,曲思瑜,邢文.水下图像增强方法研究综述

YANZP,QUSY,XINGW.Anoverviewofunderwaterimageenhancementmethods

DREWSJRP,DONASCIMENTOE,MORAESF,etal.Transmissionestimationinunderwatersingleimages

DREWSJRP,NASCIMENTOER,BOTELHOSSC,etal.Underwaterdepthestimationandimagerestorationbasedonsingleimages

PENGYT,COSMANPC.Underwaterimagerestorationbasedonimageblurrinessandlightabsorption

SONGW,WANGY,HUANGDM,etal.Arapidscenedepthestimationmodelbasedonunderwaterlightattenuationpriorforunderwaterimagerestoration

LIUP,WANGGY,QIH,etal.Underwaterimageenhancementwithadeepresidualframework

NAIKA,SWARNAKARA,MITTALK.Shallow-UWnet:compressedmodelforunderwaterimageenhancement(studentabstract)

LICY.Underwaterscenepriorinspireddeepunderwaterimageandvideoenhancement

BERMAND,LEVYD,AVIDANS,etal.Underwatersingleimagecolorrestorationusinghaze-linesandanewquantitativedataset

LIUZ,LINYT,CAOY,etal.SwinTransformer:hierarchicalvisiontransformerusingshiftedwindows

ZAMIRSW,ARORAA,KHANS,etal.Restormer:efficienttransformerforhigh-resolutionimagerestoration

DOSOVITSKIYA,BEYERL,KOLESNIKOVA,etal.Animageisworth16×16words:transformersforimagerecognitionatscale

LIJ,SKINNERKA,EUSTICERM,etal.WaterGAN:unsupervisedgenerativenetworktoenablereal-timecolorcorrectionofmonocularunderwaterimages

常戬,韩旭.结合导向滤波与自适应算子的水下图像增强

CHANGJ,HANX.Underwaterimageenhancementcombiningguidefilteringwithadaptiveoperator

李颖,陈龙,黄钊宏,等.基于多尺度卷积神经网络特征融合的植株叶片检测技术

LIY,CHENL,HUANGZH,etal.Plantleafdetectiontechnologybasedonmulti-scaleCNNfeaturefusion

王禾扬,杨启鸣,朱旗.基于深度卷积集成网络的视网膜多种疾病筛查和识别方法

WANGHY,YANGQM,ZHUQ.Retinalmulti-diseasescreeningandrecognitionmethodbasedondeepconvolutionensemblenetwork

邵虹,张鸣坤,崔文成.基于分层卷积神经网络的皮肤镜图像分类方法

SHAOH,ZHANGMK,CUIWC.Classificationmethodofdermoscopicimagebasedonhierarchicalconvolutionneuralnetwork

陈龙,丁丹丹.多残差联合学习的水下图像增强

CHENL,DINGDD.Jointmulti-residuallearningforunderwaterimageenhancement

范新南,杨鑫,史鹏飞,等.特征融合生成对抗网络的水下图像增强

FANXN,YANGX,SHIPF,etal.Underwaterimageenhancementbasedonfeaturefusiongenerativeadversaralnetworks

LICY,GUOCL,RENWQ,etal.Anunderwaterimageenhancementbenchmarkdatasetandbeyond

GUOYC,LIHY,ZHUANGPX.Underwaterimageenhancementusingamultiscaledensegenerativeadversarialnetwork

FABBRIC,ISLAMMJ,SATTARJ.Enhancingunderwaterimageryusinggenerativeadversarialnetworks

BOUDIAFA,GUOYH,GHIMIREA,etal.Underwaterimageenhancementusingpre-trainedtransformer

VASWANIA,SHAZEERN,PARMARN,etal.Attentionisallyouneed

SONGYD,HEZQ,QIANH,etal.Visiontransformersforsingleimagedehazing

ZHAOH,GALLOO,FROSIOI,etal.Lossfunctionsforimagerestorationwithneuralnetworks

ZHANGH,PATELVM.Denselyconnectedpyramiddehazingnetwork

JOHNSONJ,ALAHIA,LIFF.Perceptuallossesforreal-timestyletransferandsuper-resolution

SIMONYANK,ZISSERMANA.Verydeepconvolutionalnetworksforlarge-scaleimagerecognition

ISLAMMJ,XIAYY,SATTARJ.Fastunderwaterimageenhancementforimprovedvisualperception

LICY,QUOJ,PANGYW,etal.Singleunderwaterimagerestorationbyblue-greenchannelsdehazingandredchannelcorrection

WANGY,SONGW,FORTINOG,etal.Anexperimental-basedreviewofimageenhancementandimagerestorationmethodsforunderwaterimaging

PANETTAK,GAOC,AGAIANS.Human-visual-system-inspiredunderwaterimagequalitymeasures

THE END
1.AI在自然语言处理中的突破:从理论到应用腾讯云开发者社区多模态学习:融合视觉、听觉和文本等多种模态的信息,实现更智能的交互和理解。 跨语言模型:开发能够理解和生成多种语言的统一模型,消除语言障碍。 人机协作:通过增强人机协作能力,提高工作效率和用户体验。 结论 自然语言处理技术的突破,不仅推动了理论研究的发展,也在实际应用中取得了丰硕成果。从机器翻译到情感分析,再https://cloud.tencent.com/developer/article/2479408
2.一文详细归纳算法数据增强方法需要关注的是,数据增强样本也有可能是引入片面噪声,导致过拟合。此时需要考虑的是调整数据增强方法,或者通过算法(可借鉴Pu-Learning思路)选择增强数据的最佳子集,以提高模型的泛化能力。 常用数据增强方法可分为:基于样本变换的数据增强及基于深度学习的数据增强。 https://blog.csdn.net/2301_78285120/article/details/132388494
3.强化学习详解:理论基础与核心算法解析本文详细介绍了强化学习的基础知识和基本算法,包括动态规划、蒙特卡洛方法和时序差分学习,解析了其核心概念、算法步骤及实现细节。 关注作者,复旦AI博士,分享AI领域全维度知识与研究。拥有10+年AI领域研究经验、复旦机器人智能实验室成员,国家级大学生赛事评审专家,发表多篇SCI核心期刊学术论文,上亿营收AI产品研发负责人。https://www.jianshu.com/p/09c44358b4a6
4.总结62种在深度学习中的数据增强方式业界新闻Local Augment,即局部增强的原理是将图像切分成小块,并在每个小块上应用不同类型的数据增强 目的是潜在地改变目标偏差属性,但产生显着的局部特征 虽然这种增强并不主宰全局结构,但提供了非常多样化的图像特征,这对于神经网络以更通用的方式学习局部特征至关重要 https://www.jindouyun.cn/document/industry/article/183115
5.2021届计算机科学方向毕业设计(论文)阶段性汇报基于多智能体增强学习的交互式图像分割算法研究 本课题旨在利用强化学习算法,将与人类的不断交互的信息引入到图像分割的过程中,从而实现交互式的图像分割,增加分割的准确率和收敛速度,最终降低分割所需要的标注成本。 目前现已基于开源的ppo强化学习算法进行修改,完成了算法主体部分的代码框架搭建,并且完善了数据处理、https://zhiyuan.sjtu.edu.cn/html/zhiyuan/announcement_view.php?id=3943
6.一文梳理ICML2022中图机器学习热点和趋势▲ 图局部增强算法。来源:Liu等人[64] 下一篇是 Yu,Wang 和 Wang 等人 [66] 提升GNN 速度的工作。普通的邻域采样算法,例如 GraphSAGE,会导致邻域以指数速度增长和过时的历史 embedding。这篇论文则是提出了 GraphFM,利用 momentum 和 1-hop 邻域来更新每个点的历史 embedding。在此之前,momentum 常用于各种自https://www.zhuanzhi.ai/document/551b27b7936ef0889d86181f1f2c3e88
7.基于深度学习的水下图像增强算法研究所以,本文针对水下图像存在的局部或整体模糊、色彩饱和度低等问题,提出一种基于深度学习的水下图像增强算法。首先,采用一种残差递归对抗网络模型对水下图像进行去模糊处理。该模型采用多尺度体系结构,每个尺度上网络模型保持一致,均采用包含四个残差块的递归块结构和卷积长短时记忆网络单元构成。由于模型中使用递归结构,https://wap.cnki.net/lunwen-1020122283.html
8.图像增强算法综述①?增强图像的整体效果或是局部细节, 从而提高整体与部分的对比度,?抑制不必要的细节信息,?改善图像的质量,?使其符合人眼的视觉特性.?首先,?本文从 图像增强算法的基本原理出发,?归纳了直方图均衡图像增强,小波变换图像增强,偏微分方程图像增强,分数阶 微分的图像增强,基于 Retinex 理论的图像增强和https://c-s-a.org.cn/csa/article/pdf/7956
9.学习报告:脑电图数据增强——解决睡眠分期任务中的类别失衡问题该文章提出了五种数据增强的方法,包括重复少数类(DAR)、脑电图信号形态变化(DAMC)、信号分割和重组(DASR)、数据集到数据集的传输(DAT),以及最先进的生成算法GAN(DAGAN)。 1.重复少数类(DAR) 少数类的重复样本是一种简单的方法,通过简单地从少数类[2]中随机复制选定的样本。在训练过程中对该方法进行了验证。https://www.scholat.com/teamwork/teamwork/showPostMessage.html?id=13309
10.图像增强算法综述基于局部自适应对比度增强算法的木板条纹识别. 信息与电脑(理论版). 2020(22): 57-59 . 97. 苏航,文畅,谢凯,贺建飚. 最大熵轮廓提取下的脸部区域自适应提取算法. 计算机工程与设计. 2019(01): 197-202 . 98. 王园园,赵耀宏,罗海波,李方舟. 海面红外图像的动态范围压缩及细节增强. 红外与激光工程. http://www.chineseoptics.net.cn/en/article/id/9522
11.神经网络在低照度图像增强中的应用相比于传统的图像增强算法,RetinexNet具有以下优点: 强大的特征提取能力:卷积神经网络可以有效地提取图像的局部特征和全局特征,从而更好地捕捉到图像的细节和纹理信息。 自动学习增强策略:RetinexNet通过训练自动学习增强策略,避免了传统增强方法中需要手动调整参数的问题。 适用于不同场景:RetinexNet可以适用于不同的低https://developer.baidu.com/article/detail.html?id=2302053