弱光增强是图像处理的基本任务之一。它在不同领域有广泛的应用,包括视觉监控、自动驾驶和计算摄影。尤其是智能手机摄影已变得非常常见。受限于相机光圈的大小、实时处理的要求以及内存的限制,在昏暗的环境中使用智能手机的相机拍照尤其具有挑战性。在此类应用中增强低光图像和视频是一个令人兴奋的研究领域。
我们希望我们的调查能够提供新的见解和启发,以促进对基于深度学习的LLIE的理解,促进对提出的未解决问题的研究,并加快该研究领域的发展。
我们首先给出基于深度学习的LLIE问题的通用公式。对于宽高的低光图像,过程可以建模为:
是增强结果,表示具有可训练参数的网络。深度学习的目的是找到使误差最小的最优网络参数:其中是groundtruth,损失函数驱动网络的优化。在网络训练过程中可以使用监督损失和无监督损失等各种损失函数。更多细节将在第3节中介绍。
根据不同的学习策略,我们将现有的LLIE方法分为监督学习、强化学习、无监督学习、零样本学习和半监督学习。图3给出了从不同角度进行的统计分析。在下文中,我们回顾了每种策略的一些代表性方法。
监督学习。对于基于监督学习的LLIE方法,它们可以进一步分为端到端方法、基于深度Retinex的方法和现实数据驱动方法。
强化学习。在没有配对训练数据的情况下,Yu等人。[22]通过强化对抗学习来学习曝光照片,命名为DeepExposure。具体地,首先根据曝光将输入图像分割成子图像。对于每个子图像,策略网络基于强化学习顺序学习局部曝光。奖励评估函数通过对抗学习来近似。最后,利用每次局部曝光对输入进行修饰,从而获得不同曝光下的多张修饰图像。最终的结果是通过融合这些图像来实现的。
无监督学习。在配对数据上训练深度模型可能会导致过度拟合和泛化能力有限。为了解决这个问题,在[23]中提出了一种名为EnligthenGAN的无监督学习方法。EnlightenGAN采用注意力引导的U-Net[55]作为生成器,并使用全局-局部鉴别器来确保增强的结果看起来像真实的正常光图像。除了全局和局部对抗性损失外,还提出了全局和局部自特征保持损失来保留增强前后的图像内容。这是稳定训练这种单路径生成对抗网络(GAN)结构的关键点
观察图3(a),我们可以发现监督学习是基于深度学习的LLIE方法中的主流。比例达到77%。这是因为当LOL[4]、SID[2]和各种低光/正常光图像合成方法等配对训练数据公开可用时,监督学习相对容易。然而,基于监督学习的方法面临一些挑战:1)收集涵盖各种现实世界弱光条件的大规模配对数据集是困难的,2)合成的弱光图像不能准确地表示现实世界的照度诸如空间变化的照明和不同级别的噪声等条件,以及3)在配对数据上训练深度模型可能会导致对具有不同照明属性的真实世界图像的过度拟合和有限泛化
因此,一些方法采用无监督学习、强化学习、半监督学习和零样本学习来绕过监督学习中的挑战。尽管这些方法实现了竞争性能,但它们仍然存在一些局限性:1)对于无监督学习/半监督学习方法,如何实现稳定的训练、避免颜色偏差以及建立跨域信息的关系对当前的方法提出了挑战,2)对于强化学习方法,设计有效的奖励机制和实施高效稳定的训练是错综复杂的,以及3)对于零样本学习方法,非参考损失的设计在保色、去除伪影时非常重要,并且应该考虑梯度反向传播。
在本节中,我们首先总结表1中具有代表性的基于深度学习的LLIE方法,然后分析和讨论它们的技术特点。
表1:基于深度学习的代表性方法的基本特征总结,包括学习策略、网络结构、损失函数、训练数据集、测试数据集、评估指标、输入数据格式以及模型是否基于Retinex。“simulated”是指通过与合成训练数据相同的方法模拟测试数据。“self-selected”代表作者选择的真实世界图像。“#P”表示可训练参数的数量。“-”表示该项目不可用或未在论文中注明。
现有模型中使用了多种网络结构和设计,从基本的U-Net、金字塔网络、多级网络到频率分解网络。分析图3(b)可以看出,LLIE中主要采用U-Net和类U-Net网络。这是因为U-Net可以有效地集成多尺度特征,并同时使用低级和高级特征。这些特性对于实现令人满意的低光增强是必不可少的。
然而,在当前的LLIE网络结构中可能会忽略一些关键问题:
1)在经过几个卷积层后,由于其像素值较小,极低光图像的梯度在梯度反向传播过程中可能会消失,这会降低增强性能并影响网络训练的收敛性。
2)类U-Net的网络中使用的跳跃连接可能会在最终结果中引入噪声和冗余特征。应该仔细考虑如何有效滤除噪声并融合低级和高级特征。
如图3(c)所示,几乎1/3的方法将深度网络的设计与Retinex理论相结合,例如,设计不同的子网络来估计Retinex模型的组件,并估计光照图来指导学习网络。尽管这种组合可以建立基于深度学习和基于模型的方法之间的联系,但它们各自的弱点可能会引入最终模型中:1)反射率是基于Retinex的LLIE方法中使用的最终增强结果的理想假设仍然会影响最终结果,以及2)尽管引入了Retinex理论,但深度网络中过度拟合的风险仍然存在。因此,当研究人员将深度学习与Retinex理论相结合时,应该仔细考虑如何取其精华,去其糟粕。
如图3(d)所示,原始数据格式Raw在大多数方法中占主导地位。尽管原始数据仅限于特定传感器,例如基于拜耳模式的传感器,但数据涵盖更广的色域和更高的动态范围。因此,在原始数据上训练的深度模型通常可以恢复清晰的细节和高对比度,获得鲜艳的色彩,减少噪声和伪影的影响,并提高极低光图像的亮度。尽管如此,RGB格式也用于某些方法,因为它通常是智能手机相机、Go-Pro相机和无人机相机产生的最终图像形式。在未来的研究中,从不同模式的原始数据到RGB格式的平滑转换将有可能结合RGB数据的便利性和LLIE对原始数据的高质量增强的优势。
在图3(e)中,LLIE模型中常用的损失函数包括重建损失(L1、L2、SSIM)、感知损失和平滑损失。此外,根据不同的需求和策略,还采用了颜色损失、曝光损失和对抗损失。我们将代表性损失函数详述如下。
重建损失(ReconstructionLoss)。常用的L1、L2和SSIM损失可以表示为:
其中和分别代表groundtruth和增强结果,、和分别是输入图像的高度、宽度和通道。均值和方差分别由和表示。根据SSIM损失[60]中的默认值,将常数和设置为0.02和0.03。不同的重建损失有其优点和缺点。损失倾向于惩罚较大的错误,但可以容忍小错误。损失可以很好地保留颜色和亮度,因为无论局部结构如何,都会对误差进行同等加权。损失很好地保留了结构和纹理。详细分析见[61]。
感知损失。[62]提出了感知损失来限制与特征空间中的基本事实相似的结果。损失提高了结果的视觉质量。它被定义为增强结果的特征表示与对应的ground-truth的特征表示之间的欧几里得距离。特征表示通常是从在ImageNet数据集[64]上预训练的VGG网络[63]中提取的。感知损失可以表示为:
其中、和分别是特征图的高度、宽度和通道数。函数表示从VGG网络的第个卷积层(在ReLU激活之后)提取的特征表示。
平滑度损失。为了去除增强结果中的噪声或保留相邻像素的关系,通常使用平滑损失(TVloss)来约束增强结果或估计的光照图,可以表示为:
其中和分别是水平和垂直梯度操作。
其中生成器试图生成“假”图像来欺骗鉴别器。鉴别器试图将“假”图像与参考图像区分开来。输入是从源流形中采样的,而是从目标流形中采样的任意参考图像。为了优化生成器,应该最小化这个损失函数:其中输出增强的结果。为了优化鉴别器,这个损失函数被最小化:曝光损失。作为基于的方法中的关键损失函数之一,曝光损失衡量了在没有配对或未配对图像作为参考图像的情况下增强结果的曝光水平,可以表示为:
其中M是固定大小(默认为16×16)的非重叠区域的数量,Y是增强结果中区域的平均强度值。LLIE网络中常用的损失函数,如L1、L2、SSIM、感知损失,也用于图像重建网络中,用于图像超分辨率[65]、图像去噪[66]、图像去训练(Imagedetraining)[67]、[68]和图像去模糊[69]。与这些通用损失不同,为LLIE专门设计的曝光损失激发了非参考损失的设计。非参考损失不依赖参考图像,从而使模型具有更好的泛化能力。在设计损失函数时考虑图像特征是一项正在进行的研究。
为了模拟在真实世界的低光照场景中拍摄的图像,将高斯噪声、泊松噪声或真实噪声添加到校正图像中。使用校正合成的低光图像可以表示为:
SCIE。SCIE是低对比度和良好对比度图像对的多曝光图像数据集。它包括589个室内和室外场景的多重曝光序列。每个序列有3到18张不同曝光级别的低对比度图像,因此总共包含4,413张多重曝光图像。589张高质量的参考图像是从13种具有代表性的增强算法的结果中选择得到的。即许多多重曝光图像具有相同的高对比度参考图像。图像分辨率介于3,000×2,000和6,000×4,000之间。SCIE中的图像以RGB格式保存。
MIT-AdobeFiveK。MIT-AdobeFiveK[70]被收集用于全局色调调整,但已用于LLIE。这是因为输入图像具有低光和低对比度。MIT-AdobeFiveK包含5,000张图像,每张图像都由5位训练有素的摄影师进行美化,以呈现视觉上令人愉悦的效果,类似于明信片。因此,每个输入都有五个修饰结果。通常,专家C的结果在训练阶段被用作地面ground-truth图像。图片都是Raw原始格式。要训练能够处理RGB格式图像的网络,需要使用AdobeLightroom对图像进行预处理,并按照此过程将其保存为RGB格式。图像通常被调整为长边为500像素的大小。
SID。SID[2]包含5,094张原始短曝光图像,每张图像都有对应的长曝光参考图像。不同的长曝光参考图像的数量为424。换句话说,多个短曝光图像对应于相同的长曝光参考图像。这些图像是在室内和室外场景中使用两台相机拍摄的:索尼α7SII和富士X-T2。因此,图像具有不同的传感器模式(索尼相机的拜耳传感器和富士相机的APS-CX-Trans传感器)。索尼的分辨率为4,240×2,832,富士的分辨率为6,000×4,000。通常,长曝光图像由libraw(一个原始图像处理库)处理并保存在sRGB颜色空间中,并随机裁剪512×512块进行训练。
VE-LOL。VE-LOL[48]包含两个子集:用于训练和评估LLIE方法的配对VE-LOLL和用于评估LLIE方法对人脸检测效果的未配对VE-LOL-H。具体来说,VE-LOLL包括2,500个配对图像。其中,1000双是合成的,1500双是真实的。VE-LOL-H包括10,940张未配对的图像,其中人脸是用边界框手动注释的。
DRV。DRV[8]包含202个静态原始视频,每个视频都有一个对应的长曝光ground-truth。每个视频在连续拍摄模式下以每秒大约16到18帧的速度拍摄,最多可拍摄110帧。这些图像由索尼RX100VI相机在室内和室外场景中拍摄,因此全部采用BayerRaw格式。分辨率为3,672×5,496。
SMOID。SMOID[9]包含179对由同轴光学系统拍摄的视频,每对有200帧。因此,SMOID包括35,800个极低光BayerRaw图像及其相应的光照良好的RGB计数器。SMOID中的视频由不同光照条件下的移动车辆和行人组成。
一些问题对上述配对训练数据集提出了挑战:1)由于合成数据和真实数据之间的差距,在合成数据上训练的深度模型在处理真实世界的图像和视频时可能会引入伪影和颜色偏差,2)数据的规模和多样性,真实的训练数据不能令人满意,因此一些方法会结合合成数据来增加训练数据。这可能会导致次优增强,并且3)输入图像和相应的ground-truth可能会由于运动、硬件和环境的影响而存在错位。这将影响使用逐像素损失函数训练的深度网络的性能。
到目前为止,LoLi平台涵盖了13种流行的基于深度学习的LLIE方法,包括LLNet[1]、LightenNet[5]、Retinex-Net[4]、EnlightenGAN[23]、MBLLEN[3]、KinD[11]、KinD++[54]、TBEFN[20]、DSLR[21]、DRBN[27]、ExCNet[24]、Zero-DCE[25]和RRDNet[26],通过一个用户友好的网络界面,可以将任何输入的结果输出。我们会定期在这个平台上提供新的方法。我们希望这个LoLi平台能够通过为用户提供灵活的界面来运行现有的基于深度学习的LLIE方法并开发他们自己的新LLIE方法,从而为不断发展的研究社区服务。