Multi-exposure image fusion via deep perceptual enhancement
(基于深度感知增强的多曝光图像融合)
多曝光图像融合 (MEF) 是通过将具有不同曝光的多个镜头集成在一起来解决此问题的有效方法,这在本质上是一个增强问题。在融合过程中,应同时关注两个感知因素,包括信息性和视觉真实感。为了实现这一目标,本文提出了一种用于MEF的深度感知增强网络,称为DPE-MEF。具体来说,建议的DPE-MEF包含两个模块,其中一个模块响应从输入收集内容细节,而另一个模块则负责最终结果的颜色映射/校正。
大多数 (如果不是全部) 现有MEF方法首先将图像的RGB颜色空间切换到亮度和色度分离颜色空间,例如YCbCr,然后仅在亮度 (Y通道) 上应用融合策略。但是,通过这种方式,融合图像的颜色通常会变得相对苍白和失真,因为由于传感器的质量有限,(极度) 曝光不足的图像的颜色信息可能 (严重) 被破坏。基于以上考虑,本研究提出了一种深度神经网络来完成MEF任务。
贡献
1)为了获得信息丰富且视觉上引人注目的融合结果,我们为MEF设计了深度感知增强网,即DPE-MEF。DPE-MEF由两个功能子网组成,分别负责从多个输入收集重要细节。
2)受融合本质的驱动,细节增强模块试图从源输入中全面探索细节。通过寻找最佳的局部曝光来有效地形成增强图像,这些曝光可以作为参考来指导细节增强模块。
3)为了保证视觉质量,引入了色彩增强模块。它能够通过学习同一场景的自然图像中颜色和亮度之间的关系来完善外观,从而使融合图像更加逼真和生动,从而显着提高视觉感知。
4)进行了广泛的实验以证明我们设计的功效,并与最新方法相比揭示了其优势。我们进一步验证了所提出的策略可用于提高单个图像的曝光质量。
相关工作
传统方法
通常包含三个主要组成部分,包括图像变换,活动水平 (信息性) 测量和融合策略设计,主要可以分为基于空间域和基于变换域的技术。
基于空间域直接在像素级别或补丁级别执行融合策略。在像素级工作的方法通常会努力为源图像计算适当的权重图,然后通过加权加法进行融合。作为代表,Liu等人提出了一种基于密集尺度不变特征变换的方法,并应用密集SIFT描述符作为活动水平度量来计算权重图。基于补丁的工作通常首先从不同方面评估源图像中补丁的信息量,然后结合具有最丰富信息的信息来组成融合图像。Ma等人为MEF定制了一种结构斑块分解方法,并利用该分解策略作为优化指标,进一步提出了基于优化的方法。上述方法具有局限性,即基于像素的方法由于缺乏全局信息而经常遭受亮度转变问题,而基于补丁的方法很可能在边界周围引入 (光晕) 伪像。
基于变换域的方法,它们通常对系数执行融合策略,然后逆变换回原始域。Burt等人为MEF设计了一个金字塔分解方案,这可以说是对MEF任务的第一次基于变换的尝试。此外,Mertens等人尝试将对比度,饱和度和良好的曝光性结合起来来测量源图像的质量,然后生成权重图以金字塔的方式融合源图像。Li等人使用引导滤波器将源图像分解为基本层和细节层,然后通过加权平均将它们合并以获得最终融合的图像。许多后续行动都采用其他方法来完成这项工作,例如小波,梯度和PCA。尽管显示出一些合理的结果,但这些传统方法通常依赖于手工制作的功能和手动设计的融合策略。由于特征提取和集成能力不足,大多数需要长序列的源图像,曝光间隔较小,才能产生相对较好的融合结果,需要繁重的计算量,限制了适用的场景。请注意,在曝光变化较大的源图像较少的情况下,通过这些方法融合的结果的质量将大大降低。
Deep learning methods
缓解了对源图像数量和质量的需求,并获得了更好的融合效果。第一次基于DL的尝试可能会追溯到DeepFuse,它构建了一个卷积网络,通过优化无监督度量MEF-SSIM 直接合并源图像的亮度分量,并通过加权融合策略融合色度部分。但是,MEF-SSIM本身不足以确保融合质量,并且缺乏详细的色度处理通常会导致颜色失真。继DeepFuse之后,Qi等人利用多通道MEF-SSIM作为优化目标,以避免颜色空间的转换。Ma等人设计了一个名为MEF-Net的网络,它遵循加权融合线。MEF-Net通过将下采样的源图像馈入网络来生成权重图,从而降低了计算成本。由于其基于像素的权重添加方式,它也与传统的基于像素的方法 (例如俯瞰全局结构信息) 一样存在麻烦。上述基于DL的算法以不同的无监督方式执行。或者,有些作品通过将现有融合方法产生的融合图像作为伪地面真相来将MEF任务转变为有监督的方式。Xu等人为MEF任务使用了生成对抗网络,即MEF-GAN。Zhang等人提出IFCNN,利用两个分支从每个源图像中提取特征,然后采用元素融合规则融合深度特征,最后通过两个卷积层从融合的特征中生成融合图像。显然,这些监督方法的性能受到所涉及的现有方法的限制。不难在参考图像中看到伪影,从而在最终的融合结果中看到伪影。此外,提出了几种基于统一深度学习的方法来服务于各种图像融合任务。这些方法通常使用常见的图像属性作为信息性的度量,然后进行融合以收集信息部分。例如,DIF-Net采用结构张量来评估源图像的结构强度。在PMGI和SDNet中,都使用了梯度和强度,而U2Fusion利用深度特征的梯度来保持融合结果和源图像之间的相似性。尽管这种方法扩大了应用范围,但它们不可避免地会失去针对不同融合场景的特定考虑。此外,由于仅在亮度通道上执行操作以实现多任务多功能性,因此它们还遭受颜色失真的困扰。
Problem analysis
MEF-SSIM是一种基于补丁的度量,它将每个图像补丁x𝑘 分解为其信号强度c𝑘 、信号结构s𝑘 和平均强度 𝑙𝑘,方法如下:
目标补丁的所需对比度由源图像中对应补丁的最高对比度确定,即
其中 ‖ ⋅ ‖ 𝑝 表示 𝓁𝑝 范数。可以看出,融合是通过简单的加权和运算进行的。
需要关注的另一点是融合图像的视觉美学。在各种因素中,我们观察到颜色起着至关重要的作用。大多数现有的MEF方法首先将图像的RGB颜色空间转换为亮度和色度分离,然后仅在亮度通道上执行融合策略。但是,通过这种方式,由于曝光不良的图像的破坏的颜色信息和/或颜色外观与不同曝光之间的非线性关系,融合图像的颜色通常会失真且不切实际。如上所述,产生高质量多曝光图像融合结果的两个关键问题出现:
1.如何利用给定源图像中尽可能详细的内容?
2.如何恢复视觉上令人愉悦和逼真的颜色以获得融合的结果?
以就是本文所要解决的内容。
Deep perceptual enhancement for MEF
本节介绍了一个称为DEF-MEF的网络,以增强在无监督设置中融合图像的感知质量。DEF-MEF的蓝图在图2中示意性地示出。如所讨论的,网络应同时兼顾信息性和视觉美学。
从功能的角度,我们根据两个关键问题,将整个网络逻辑划分为两个子网,即细节增强模块和色彩增强模块。通过分区,将原始问题解耦为两个较小的问题,从而大大降低了复杂性。此外,将工作颜色空间从RGB转换为YCbCr是很自然的,因为与RGB颜色空间相比,YCbCr可以有效地将亮度和纹理 (Y通道,亮度分量) 与颜色分开 (Cb和Cr通道,色度分量)。细节增强和色彩增强可以分别在亮度和色度分量上执行,这非常适合我们的设计。在下面,我们将详细介绍这两个模块。
DEM: Detail enhancement module
现在让我们专注于曝光不足和曝光过度的图像不满意的细节问题。对于曝光不足的图像,高动态范围信息被压缩在有限的范围内,而对于曝光过度的图像,信息被上移并被截断,这两者都会导致低对比度和损坏的细节。由于在多曝光融合任务中没有地面真实图像可以作为优化目标,因此核心任务是找到一种方法来充分挖掘源图像内的信息,增强对比度并保存细节,从而为DEM网络的优化提供指导。
Detail enhancement rule
给定图像 𝐼,可以通过 I`^𝛼=𝛼·I 使用曝光调整率 𝛼,轻松获得全局增益。将图像升级为 𝛼> 1的较高曝光 (较亮) 级别,而将其降级为 𝛼 <1的较低 (较暗) 级别。请注意,同一场景中不同区域的照明在图像中可能会有很大差异。可能同时存在过度曝光,适当曝光和曝光不足的区域。通过全局调整 𝛼>1,虽然曝光不足的区域会变亮,但由于数字图像的表达限制,原本曝光适当的部分会过度曝光。换句话说,在这种情况下几乎找不到最佳的 𝛼。因此,需要局部自适应规则。
受Retinex理论的启发,图像可以分解为两层,例如反照率和阴影,或反射率和照明。在这项工作中,我们交替地以 𝐼 = 𝑅 ◦ 𝐸 的形式分解 𝐼,其中 𝑅 和 𝐸 分别表示场景细节和曝光分量(与相机曝光的概念不同,𝐸 反映了细节增强的力度)。运算符◦表示元素乘积。通过简单的代数变换,我们得出 𝑅 = 1/𝐸 ◦I ,其中1/E是元素方向反转 𝐸。为了便于解释,我们将1/E表示为 𝐴。由于 𝐴 (或等价地 𝐸) 在空间上是变化的,因此调整也是如此。请注意,如果 𝐴 中的所有元素都具有相同的值,则调整将退化为全局元素。
通过假设 𝑅 包含最丰富的细节,调整应该致力于从 𝐼 寻求最优的 𝐴~。对于每个位置 (𝑖,𝑗),我们根据局部区域统计-局部平均值 𝜇𝑖𝑗 和标准差 𝜎𝑖𝑗-在半径 r 周围的窗口内确定 𝐴 ̂ ̂ (用 𝑃𝑖𝑗 表示)。标准差可以看作是细节丰富性的度量,它是通过以下方式计算的:
我们简单地选择 𝑝 = ∞,即选取对应于最大 𝜎^𝛼 𝑖𝑗 的𝛼𝑡 值。有了曝光调整图 𝐴^ 到,细节分量 𝑅 到可以立即由 𝐴 ^◦I 获取。与以前仅使用原始源图像本身来完成融合的方法相比,我们提出的规则从每个源图像隐式生成不同曝光的虚拟图像。换句话说,我们的调整探索了更多的信息 (𝑇 次参考图像)。此外,我们不需要显式处理 𝑇 次输入,从而节省了计算成本。
Bi-directional detail enhancement. 可以注意到,上述增强仅仅是向上的,主要是拉伸曝光不足区域的对比度。它不能处理过度曝光的区域,因为通过设置 𝛼 <1来减少曝光总是会导致比原始图像更小的标准偏差。因此,这些地区将保持原状。为了更好地利用相对过度曝光区域的内容,我们将源图像反转为 𝐼𝑖𝑛𝑣 = 1 − 𝐼。在倒置的图像中,最初曝光过度的区域看起来像曝光不足的区域。然后,我们在 𝐼𝑖𝑛𝑣 上应用完全相同的增强规则。计算出对应的调整图 𝐴 ̂ 𝑖𝑛𝑣后,向下增强版本被捕获为 𝑅 ̂ = = 1 −𝐴 ̂ 𝑖𝑛𝑣◦𝐼𝑖𝑛𝑣 。
通过双向细节增强,每个源图像都有两个增强的参考,即 𝑅 ̂ 和 𝑅 ̂𝑖𝑛𝑣 。图3总结了从源图像生成增强引用的整个过程。可以看出,暴露不足区域的压缩细节通过向上增强而显着拉伸,而相对暴露过度的细节则从向下过程中有效地放大。
Architecture & loss function
以两个具有不同曝光的源图像 𝐼1和 𝐼2作为输入,DEM有望为融合图像生成具有更丰富细节的亮度分量 𝑌𝑓,而色度分量将由CEM负责。DEM的功能可以公式化如下:
其中 NDEM表示需要学习参数 𝜃DEM的DEM网络。DEM的详细网络架构如图4所示。我们简单地采用类似UNet的编码器-解码器架构作为我们的主干。具体地,DEM由两个编码器组成,其中一个称为联合编码器,接收两个源图像作为输入,旨在提取两个源图像之间的相关特征,而另一个分别对每个源图像进行编码,倾向于从每个输入中发现代表性信息,即判别编码器。然后,解码器将来自两个编码器的输出特征作为输入,并在每个刻度处接收编码器的跳过连接,以生成最终融合的亮度分量。
𝓁𝑝𝑖x表示每个 𝑌 ̂ q和 𝑌𝑓 之间的归一化曼哈顿距离为:
其中,𝐻 和 𝑊 是输入的高度和宽度,与输出相同。此外,𝓁^𝜙𝑝𝑒r术语表示感知损失,定义为:
其中 𝜙𝑙 表示感知网络中的第 𝑙 层。𝐶𝑙 、 𝐻𝑙 、 𝑊𝑙 是第 𝑙 层张量特征图的维度。本工作采用预先训练的VGG-19网络 进行感知特征提取,其中 𝑙 表示 {𝑐𝑜𝑛𝑣 1_1,𝑐𝑜𝑛𝑣 2_1,𝑐𝑜𝑛𝑣 3_1,𝑐𝑜𝑛𝑣 4_1,𝑐𝑜𝑛𝑣 5_1} 的层索引。从Eq(5)中可以看出,它考虑了深度特征和原始图像域的指导。
可以调整超参数 𝛾𝑞 以选择满足的DEM学习配置以进行多次试验。为了使培训不受调整的影响,我们设计了一种自动方式来确定 𝛾𝑞 的值。
CEM: Color enhancement module
如上所述,颜色信息在图像质量的主观评估中起着重要作用。与其他融合任务不同,例如红外和可见光图像融合以及医学图像融合,MEF的目标是产生视觉上令人愉悦的融合结果。因此,将融合图像强制执行以具有生动逼真的色彩可以显着提高MEF算法的视觉性能。然而,在大多数现有的MEF技术中,颜色因子很少受到关注。通常,源图像被转换为YCbCr颜色空间,然后仅在Y (亮度) 通道上执行融合策略,而Cb和Cr (色度) 通道的融合规则仍以简单的形式设计。最常用的规则是本文提出的加权求和,如下所示:
其中 𝐶1和 𝐶2表示输入图像对的Cb (或Cr) 通道,而 𝐶𝑓 是相应的融合色度通道。𝜏 的值通常设置为128。
但是,当源图像曝光不良时,由于数字设备质量有限,颜色信息可能会受到干扰甚至破坏。此外,不同光照条件下的颜色也不一致。在这种情况下,直接通过加权求和获得的颜色将是不合理的。为了缓解这个问题,我们定制了一个名为色彩增强模块 (color enhancement module (CEM)) 的模块。它旨在学习从目标 (融合) 亮度和源图像到融合图像的合适色度的颜色映射。CEM期望通过将两个源图像的全部信息 (亮度和色度分量) 以及目标亮度作为输入来推断最适合融合亮度 (从DEM生成) 的色度,如下所示:
其中 NCEM表示需要学习参数 𝜃CEM的CEM网络。CEM被设置为每个具有4层的联合编码器-解码器结构,以探索输入图像之间的颜色映射关系,如图5所示。
在实际情况下,融合图像没有颜色的基本事实。这就是说,我们不能通过这种方式执行培训。但是请注意,我们有一个场景具有不同曝光的多个图像。这些图像是由相机真正捕获的,这些相机在相应的亮度条件下提供相对适当和逼真的颜色信息。为了训练CEM推断给定亮度的颜色,我们替代了现有的真实数据。具体而言,随机选择每个序列的三个图像,然后将两个选择的图像以及第三个图像的亮度一起输入CEM。第三图像的色度分量自然地作为参考 (𝐶𝑏3和 𝐶𝑟3)。通过这种方式,可以通过最小化估计和参考之间的差距来训练CEM。在这项工作中,我们简单地采用 𝓁 1 (曼哈顿) 距离来测量差异为:
请添加图片描述