大家读完觉得有帮助记得关注和点赞!!!
摘要
从多个低动态范围 (LDR) 图像中恢复无鬼影的高动态范围 (HDR) 图像,当 LDR 图像出现饱和和明显运动时,会变得具有挑战性。近年来,扩散模型 (DM) 被引入 HDR 成像领域,展现出良好的性能,特别是在与以往基于深度神经网络的方法相比,能够获得视觉上更明显的成果。然而,DM 需要与大型模型进行大量迭代才能估计整个图像,导致效率低下,阻碍了其实际应用。为了解决这一挑战,我们提出了低频感知扩散 (LF-Diff) 模型用于无鬼影 HDR 成像。LF-Diff 的关键思想是在高度压缩的潜在空间中实现 DM,并将其集成到基于回归的模型中,以增强重建图像的细节。具体来说,由于低频信息与人类视觉感知密切相关,我们建议利用 DMs 为重建过程创建紧凑的低频先验。此外,为了充分利用上述低频先验,动态 HDR 重建网络 (DHRNet) 以回归的方式进行,以获得最终的 HDR 图像。在合成和真实世界基准数据集上进行的大量实验表明,我们的 LF-Diff 在性能上优于几种最先进的方法,并且比之前的基于 DM 的方法快 10 倍。
1. 引言
多重曝光高动态范围 (HDR) 成像旨在从曝光变化的低动态范围 (LDR) 图像中恢复丢失的细节。然而,在动态场景中,由于物体或相机运动,它经常会导致重影伪影,限制了实际应用。研究人员正在积极探索无重影图像重建方法,以实现对具有高动态范围的动态场景的无缝捕捉。
图 1. Kalantari 数据集 [11] 上平均 PSNR 与推理时间的关系。我们的方法表现良好,比之前的基于扩散模型的方法 DiffHDR [44] 快 10 倍。
近年来,深度神经网络 (DNN) 的兴起为 HDR 成像领域带来了重大进步。许多基于 DNN 的方法应运而生,它们采用卷积神经网络 (CNN) [11, 41, 47] 或视觉Transformer (ViT) [16, 28] 进行 HDR 图像重建。尽管基于DNN的方法取得了进步,但当由于物体或相机移动导致过度曝光区域缺少必要信息(例如内容、细节)时,它们面临着挑战。最近,扩散模型(DMs)[8, 26]在图像合成[4, 29]和图像重建任务(包括HDR成像)[24, 44, 46]中表现出令人印象深刻的性能。DMs 通过迭代去噪高斯噪声来生成高保真图像。Yan 等人 [44] 从纯高斯噪声中重建完整的 HDR 图像,取得了令人印象深刻的结果。值得注意的是,与之前的深度生成模型 [14, 21] 相比,DMs 在没有遇到优化不稳定或模式崩溃等问题的情况下,生成了更准确的目标分布,这使得它们成为增强 HDR 图像质量的有希望的选择。然而,DM 要求对降噪模型进行大量的迭代步骤以捕获复杂的数据细节,即使使用高端 GPU 卡,这也是耗时的。例如,如图 1 所示,DiffHDR [44] 在单个 A100 GPU 上生成 HDR 图像大约需要 7.5 秒。
本文的目标是设计一种基于DM的方法,有效地利用DM强大的分布映射能力来重建HDR图像。我们注意到,从纯噪声中重建完整的HDR图像是不必要的,因为LDR参考图像已经提供了HDR图像所需的大部分内容信息。由于低频信息与人类视觉感知密切相关 [34],我们提出利用 DMs 在潜在空间中创建紧凑的低频先验。这些先验随后被整合到基于回归的模型中,以预测重建的 HDR 图像的低频内容。
为了实现我们的目标,我们提出了低频感知扩散模型(LF-Diff),该模型包含低频先验提取网络(LPENet)、去噪网络和动态HDR重建网络(DHRNet)。遵循已有的方法 [3, 23, 39],我们采用两阶段训练策略来预训练LF-Diff和DM训练。在第一阶段,LPENet 学习从真实图像中提取紧凑的低频先验表示 (LPR),指导 DHRNet。DHRNet 包含两个模块:先验集成模块 (PIM),它将 LPR 与 DHRNet 的中间特征融合;特征细化模块 (FRM),它进一步处理融合后的特征以生成 HDR 图像。值得注意的是,LPENet 和 DHRNet 在此阶段一起优化。在第二阶段,我们训练 DM 从 LDR 图像中直接学习紧凑的 LPR。由于 LPR 非常轻量级,并且仅用于 HDR 成像的低频内容,因此我们的 DM 可以以极低的计算成本估计 LPR,确保多次迭代后获得稳定的视觉效果。
主要贡献可概括如下:
• 我们介绍了 LF-Diff,一种基于扩散模型的简单高效的 HDR 成像方法。LF-Diff 利用扩散模型的能力生成信息丰富的低频先验,然后将其整合到成像过程中以增强结果。
• 我们在 DHRNet 中提出了 PIM 和 FRM,以充分利用 LPR。PIM 有效地将 LPR 与 DHRNet 的中间特征融合,而 FRM 进一步处理融合后的特征以重建高质量的 HDR 图像。
• 广泛的实验表明,提出的 LFDiff 方法在 HDR 成像任务中取得了最先进的性能,并产生了与人类视觉感知相一致的视觉上令人愉悦的结果。但与其他基于 DM 的方法相比,它消耗的计算资源明显更少。
2. 相关工作
无鬼影HDR重建 传统的HDR重建方法通常采用运动抑制 [7, 40]、运动配准 [31, 36] 和块匹配 [9, 25] 等方法来对齐LDR图像并重建高质量结果。然而,这些方法严重依赖于预处理技术的性能,在处理跨越较大空间范围的运动时往往面临挑战。随后,基于DNN的方法因其优越的非线性表达能力而成为主流方法。研究人员探索了DNN在HDR成像中的各种应用,设计了复杂的网络架构和模型优化方案,例如注意力机制 [1, 41]、Transformer [16, 28, 30]、光流 [11, 22]、GAN [6, 14, 21] 等 [5, 15, 42, 43, 47]。然而,当LDR图像由于运动或饱和而缺乏足够的信息时,它们往往会表现出与人类视觉感知不一致的伪影,通常被称为重影。
扩散模型。扩散模型最近在各种低级视觉任务中展现出令人鼓舞的结果,包括超分辨率 [13, 24]、HDR重建 [44, 46]、彩色化 [12, 35] 和去模糊 [37]。DiffHDR [44] 将传统的扩散模型范式应用于重建 HDR 图像,取得了显著成果。然而,由于扩散模型的高计算成本以及对大量迭代步骤的需求,推理速度受到限制。尽管已努力减轻这种约束 [2, 17, 27],但整体复杂性仍然很高,尤其是在 HDR 场景中常见的 高分辨率图像。最近,一些方法 [3, 23, 39] 通过在潜在空间中进行扩散建模来解决这个问题。Rombach 等人 [23] 使用自动编码器模型将图像压缩成等效于图像空间的特征。HI-Diff [3] 利用基于扩散的矢量特征来辅助图像去模糊。然而,考虑到 HDR 成像的独特特性,需要进一步探索选择合适的潜在空间用于 HDR 重建任务。
3. 预备知识
Sohl-Dickstein 等人提出的扩散模型。
[26] 受非平衡热力学启发。这里,我们简要概述了来自 [8] 的“方差保持”扩散模型,该模型涵盖了扩散过程和逆过程。
扩散过程。给定一个干净的图像分布,扩散过程会根据方差调度 β1, · · · , βT ∈ (0, 1) 逐渐注入各向同性的高斯噪声,以生成 xt。令 αt = 1 − βt,α¯t = QT i=1 αi:
(1)
该过程的闭合形式可以表示为:
其中 xt 代表时间 t 的输出,x0 是初始干净图像,ϵt 表示各向同性高斯噪声。
逆向过程。逆向过程试图通过马尔可夫过程来近似数据分布 q(x0),从随机高斯噪声 xT = N (xT ; 0, I): 开始。
图 2. 提出的 LF-Diff 包含 DHRNet、LPRNet 和一个去噪网络。LF-Diff 经历两个训练阶段:LF-Diff 预训练(第 4.1 节)和 DM 训练(第 4.2 节)。值得注意的是,在推理阶段,我们不会将真实图像输入到 LPENetDM 和去噪网络中。相反,我们仅利用 DM 的逆过程。
其中 µ˜t 和 β˜t 是分布参数。由于真实的逆过程 Eq.(3) 依赖于 q(x0) 且难以处理,神经网络 fθ 作为降噪器来估计 pθ(xt−1|xt, t) 而不是 q(xt−1|xt, x0):
其中 µθ 和 Σθ 是反向过程中要估计的参数。令固定方差为 (Σθ(xt, t) = β˜tI),优化目标可以定义为:
4. 方法
如图 2 所示,我们介绍了提出的 LFDiff 框架,该框架包含两个训练阶段。在第一阶段,我们使用 LPENet 预训练 LF-Diff 以从地面真值中提取准确的低频先验表示,而 DHRNet 学习如何利用上述先验来重建 HDR 图像。在第二阶段,我们训练 DM 直接从 LDR 图像中准确预测低频先验表示,并与 DHRNet 联合优化,生成最终的高质量 HDR 图像。
4.1. 第一阶段:预训练 LF-Diff
在第一阶段,我们的目标是训练 LPENet 如何从真实数据中提取准确的低频先验特征,并将该表示嵌入到 DHRNet 中以指导重建过程。如图 2 (a) 所示,我们利用先验集成模块 (PIM) 通过交叉注意力机制将这些先验特征整合到 DHRNet 中。在 DHRNet 中,多个特征细化模块 (FRM) 被堆叠在一起,直接学习从输入特征到目标图像分布的映射关系,而 PIM 利用先验特征来帮助恢复重建图像的低频内容。接下来,我们将详细阐述以上描述。
低频先验提取网络。LPENet 结构简单,如图 2 (a) 所示,包含多个残差块,用于提取低频先验表示 (LPR)。从真实图像 Igt ∈ RH×W ×3 开始,我们首先执行色调映射操作 T (·) 以获得 LDR 域真实图像 T (Igt)。我们将这些图像沿着通道维度连接起来,并使用 PixelUnshuffle 操作进行下采样,生成 LPENet 的输入。随后,LPENet 提取 LPR z ∈ R Hk × Wk ×3,如下所示:
其中 T (x) = 表示色调映射算子,µ = 5000 是一个预定义的常数参数,用于控制应用于输入信号的压缩程度,k 表示 PixelUnshuffle 的采样倍数。
动态 HDR 重建网络。如图 2 (a) 所示,DHRNet 由多个堆叠的重建块组成,每个块包含一个先验集成模块 (PIM) 和 N 个特征细化模块 (FRM)。PIM 将 LPR 与 DHRNet 的中间特征融合,我们将在接下来的部分中详细描述。FRM 的设计基于对自然图像包含不同频率的理解,因为高频和低频在图像编码中扮演着不同的角色。
在图 3 (a) 中,FRM 的结构包含多个模块。具体来说,我们首先通过残差块处理特征以获得 Fn−1。随后,我们将这些特征分解为两个部分:高频特征 Fnhigh−1,其保持分辨率不变,以及低频特征 Fnlo−w1,其分辨率降低,遵循 [18] 中描述的方法:
其中 k 表示平均池化层的核大小,U_psample 表示上采样操作。本质上,低频特征捕获输入(图像/特征)中的全局依赖关系,不需要高分辨率特征图,但需要全局注意力。另一方面,高频特征捕获详细的局部信息,需要高分辨率特征图,并且只能通过局部算子实现。因此,我们使用残差块 (RB) 处理 Fnhigh−1,并利用来自 [45] 的自注意力 (SA) 来处理 Fnlo−w1。随后,我们融合低频和高频特征以保留初始细节,从而得到特征 Fn′ −1。此操作可以表示如下:
Fn′ −1 = Concat hRB Fnhigh−1 , Upsample SA Fnlo−w1i(8). 考虑到 Fn′ −1 是两个特征的串联,采用 1 × 1 卷积来减少通道数量。此降维步骤之后是一个通道注意力模块,旨在突出显示那些具有较高激活值的通道。
为了有效地将来自 LPENet 的先验特征与 DHRNet 生成的中间特征融合,我们将 FRM 低频分支中的自注意力机制替换为精心设计的交叉注意力机制,从而形成了先验集成模块 (PIM)。如图 2 (a) 所示,每个重建块之前都放置了一个 PIM。在每个 PIM 中,对先验特征和中间特征进行交叉注意力计算,以促进特征融合。该模块能够将先验特征的信息聚合到 DHRNet 的特征中。
图 3. (a) 特征细化模块 (FRM) 和 (b) 交叉注意力机制的架构。
具体来说,如图3 (b) 所示,我们的交叉注意力模块接收两种类型的输入:中间特征 F ∈ RHˆ ×Wˆ ×Cˆ 和先验特征 z ∈ RHˆ ×Wˆ ×Nˆ。我们使用点态 1 × 1 卷积和深度态 3 × 3 卷积,权重分别为 WdQ 和 WcQ,将 F 投影到查询向量 Q = WdQWcQF。类似地,z 通过类似的操作转换为键 K 和值 V。接下来,我们将这些投影重塑为适合注意力计算的矩阵:Qˆ ∈ RHˆ Wˆ ×Cˆ、Kˆ ∈ RNˆ×Hˆ Wˆ 和 Vˆ ∈ RHˆ Wˆ ×Nˆ。然后,我们通过对 Qˆ 和 Kˆ 进行点积运算,计算出一个计算效率更高的注意力图 A ∈ RNˆ×Cˆ。该过程可以描述如下:
其中 γ 是一个可训练参数。值得注意的是,我们没有在 PIM 中实现多头注意力机制。
训练策略。如 [11] 中所述,我们首先使用伽马校正将提供的输入 LDR 图像集 {L1, L2,...,LN } 转换为其对应的 HDR 版本 Hi。随后,我们将每个 Li 与其对应的 Hi 沿通道轴连接起来,生成六通道输入张量 Xi = [Li, Hi]。与 [16], [41], [44] 相似,我们采用对齐模块 [41] 处理输入 LDR 图像,隐式对齐特征,并将它们馈送到 DHRNet。然后,从 LPENet 中提取的 LPR 特征 [z] 通过 PIM 注入到 DHRNet 中。重建的 HDR 图像 [Hˆ] 由以下公式生成:
借鉴先前方法 [16, 41],我们使用色调映射后的逐像素损失和感知损失作为图像重建损失函数 Lr。这种双重损失策略优化了生成 HDR 结果中的像素级精度和高级特征表示:
其中 ϕi,j(·) 表示从 VGG19 网络中第 i 次最大池化操作后提取的第 j 个卷积特征,而 λ = 1e-2 是一个超参数,用于平衡每个组件的贡献。
4.2. 第二阶段:用于 HDR 成像的扩散模型
经过上述学习过程,我们现在拥有 LDR 图像及其对应的 LPR z。在第二阶段(图 2 (b, c)),我们的目标是有效地利用 DM 强大的分布估计能力。具体来说,我们利用第一阶段的 LPENet 来捕获 LPR 作为 DM 的去噪目标。DM 将学习如何从 LDR 输入中提取准确的 LPR,并与 DHRNet 进行联合优化。
Diffusion Model for LRP Learning. After capturing the LPR z ∈ R Hk × Wk ×N from the pretrained LPENet, we transform the clean LPR feature z into a noisy version zT using Eq.(2), which can be described as:
用于 LRP 学习的扩散模型。在从预训练的 LPENet 中捕获 LPR z ∈ R Hk × Wk ×N 后,我们使用公式 2 将干净的 LPR 特征 z 转换为噪声版本 zT,其可以描述为:
其中 T 代表总迭代次数,而 α¯t 和 α 表示预定义的方差调度。
在逆向过程中,我们从 zT 开始,向后移动到 z0,从纯高斯分布中迭代生成 LPR,该过程利用了公式 (3) 中描述的后验分布。遵循先前的工作 [24, 44],我们使用神经网络来估计每一步的 pθ(xt−1|xt, t) 而不是 q(xt−1|xt, x0)。具体来说,我们首先使用 LP EN etDM 从对齐的LDR特征中获得条件特征 :
其中 LPENetDM 保持与 LPENet 相似的架构,但其第一卷积层的输入维数有所修改,AM(·) 表示来自 [41] 的对齐模块。去噪神经网络根据 zt 和推导出的条件特征 D,即 ϵθ (Concat(zt, D), t) 来预测噪声。将此估计的噪声项代入控制逆过程的方程 (4),我们得到以下采样公式:
其中 ϵt ∼ N (0, I)。通过使用公式 (14) 迭代采样 zt T 次,我们逐步重建预测的 LPR 表示 z0。
训练策略。传统的 DMs 仅通过优化加权变分界限(公式 (5))来学习概率分布,导致预测先验与实际先验之间存在轻微偏差。将 DM 直接与 DHRNet 集成可能会导致对齐问题,从而阻碍整体图像处理性能。为了解决这个问题,我们联合训练了 DM 和 DHRNet。在每次训练迭代中,我们首先通过扩散过程(公式 (2))采样噪声样本 zt。鉴于我们的去噪神经网络很轻量级,我们使用基于 DDIM 策略 [27] 的反向过程进行 S 次迭代,以生成预测的先验特征 zˆ。该 zˆ 通过 PIM 指导 DHRNet。第二阶段的损失函数由重建损失 Lr(公式 (11))和扩散损失 Ldiff 组成:
4.3. 推断
在推理阶段,LP EN etDM 从对齐的 LDR 特征(公式 (13))中提取条件特征 D,并随机采样一个高斯噪声 zˆT。然后,去噪神经网络利用 zˆT 和 D,基于 DDIM [27] 在 S 次迭代后估计 LPR(公式 (14))。之后,DHRNet 利用 LPR 来恢复 HDR 图像,如公式 (10) 所示。有关 DM 训练和模型推理的更多详细信息,请参阅补充材料。
5. 实验
5.1. 实验设置
数据集。所有方法都使用两个公开可用的数据集进行训练,采用相同的训练设置:Kalantari 的数据集 [11] 和 Hu 的数据集 [10]。Kalantari 的数据集包含 74 个训练样本和 15 个测试样本,所有样本都在真实的环境条件下采集。每个样本包含三个 LDR 图像,曝光变化分别为 {-2, 0, +2} 或 {-3, 0, +3}。相比之下,胡的dataset是一个合成数据集,旨在模拟传感器真实性,通过游戏引擎生成。该数据集包含在三个不同曝光级别{-2, 0, +2}下捕获的图像,我们主要关注该集合中的动态场景图像。按照[10]中概述的设置,我们将最初的 85 个样本用于训练,并将剩余的 15 个样本用于测试。此外,为了进一步验证模型的泛化能力,我们纳入了 Sen 等人的数据集 [25] 和 Tursun 等人的数据集 [32],专门用于定性评估,因为这些数据集缺乏真实值。
评估指标。为了进行定量比较,我们使用五个客观指标:PSNR-μ、SSIM-μ、PSNR-L、SSIM-L 和 HDR-VDP-2 [20]。这里,下标 µ 和 L 分别表示这些指标是在色调映射域和线性域中计算的。
图 4. 对来自不同数据集的测试数据进行了视觉比较,重点关注我们方法和比较技术估计的 HDR 图像的局部区域放大视图。我们的模型展示了生成更高质量 HDR 图像的能力。
实现细节 我们的实现使用 PyTorch 完成,每个训练阶段在四块 NVIDIA A100 GPU 上经过 300 个 epoch 后收敛。我们采用 Adam 优化器,初始学习率为 1e-4,每 50 个 epoch 后衰减 0.1 倍。训练数据集通过裁剪步长为 64 的 128 × 128 补丁进行处理,批次大小设置为 64。对于 LF-Diff,我们采用 [19] 中常用的 U-Net 架构的变体作为去噪网络,具有 3 级块 {2, 2, 2}。在训练过程中,时间步长 T 设置为 200,隐式采样步长 S 设置为 10,用于训练和推理阶段,以实现高效的恢复。在 DHRNet 中,参数 Ni ∈ {L1, L2, L3} 设置为 { {3, 3, 3},通道 C 设置为 60。同一层级自注意力分支的注意力头数量设置为 { {6, 6, 6 },FFN 中的通道扩展因子为 2.66。PIM 和 FRM 中的 avgpool 内核分别设置为 4 和 2。对于 LPENet,它包含 4 个残差块,像素重排下采样因子为 4,输出通道为 3。
5.2. 与最先进方法的比较
在本节中,我们评估了所提出的 LF-Diff 方法的性能,并展示了实验结果以验证其重建性能与最先进技术的比较。具体来说,我们将 LF-Diff 与两种基于补丁的方法 [9, 25]、一种基于光流的方法 [11]、五种基于 CNN 的方法 [1, 15, 21, 38, 41]、两种基于 ViT 的方法 [16, 43] 以及一种基于扩散的方法 [44] 进行比较。值得注意的是,所有深度学习方法都使用相同的训练数据集和设置,以确保一致性。
带地面真值的 数据集。 表 1 展示了 LF-Diff 在两个数据集上的定量结果。 我们将该方法与各种最先进的方法进行了比较,使用来自 [11] 和 [10] 的测试数据,其中包括以饱和背景和前景运动为特征的具有挑战性的样本。所有定量结果是对测试图像的平均值。值得注意的是,LF-Diff 在其他领先方法中表现出显著的改进,在 PSNR-μ 和 PSNR-L 指标上分别超过了基于 DM 的方法 DiffHDR [44] 0.65 dB 和 0.86 dB,这是基于 Kalantari 的数据集 [11] 得出的。此外,LF-Diff 在性能方面优于亚军方法 HyHDR [43],在 Hu 的数据集 [10] 上,PSNR-μ 和 PSNRL 指标分别提高了 0.28 dB 和 0.19 dB。
如图 4 (a) 和 (b) 所示,由于 LDR 图像中的信息丢失,数据集呈现了一些具有挑战性的样本。大多数现有方法在这些区域难以处理,由于较大的运动和遮挡而产生重影伪影。Kalantari 的方法 [11] 和 DHDR [38] 由于易于出错的对齐(例如,光流)而难以处理背景运动,从而导致不希望的重影。虽然 HDR-GAN [21] 在阳台区域周围表现出明显的重影伪影并引入错误的颜色信息,但 AHDR [41] 使用卷积空间注意力对 LDR 图像进行对齐。然而,它无意中抑制了有价值的上下文信息,并在过度/曝光不足的场景中遇到重大运动的困难。基于块采样的 CA-ViT [16] 会产生明显的块状重影。相比之下,在 DM 的帮助下,Diff-HDR [44] 和我们的 LF-Diff 都能生成与人类感知一致的 HDR 图像。值得注意的是,我们的方法在推理速度和计算开销方面都优于 Diff-HDR。
无地面真值数据集。为了评估我们提出的 HDR 成像方法的泛化能力,我们通过在 Sen 等人 [25] 和 Tursun 等人 [33] 的数据集上测试,评估了在 Kalantari 等人数据集 [11] 上训练的模型的性能,这些数据集缺乏地面真值。在图 5 (a) 中,许多当前方法在恢复大饱和区域和大幅度运动方面遇到了困难。相反,在图 5 (b) 中,虽然任何方法都无法完全消除重影,但与之前的技术相比,我们的方法显着提高了图像清晰度和细节。
图 5. 无地面实况数据集上的视觉比较。
表 1. Kalantari 的 [11] 和 Hu 的 [10] 数据集上的评估结果。最佳结果以粗体突出显示。
计算预算。我们还对模型参数和推理时间与先前方法进行了比较。如表2所示,基于块匹配的方法[9,25]由于其基于 CPU 的计算,表现出明显更长的推理时间。Kalantari [11] 需要相当长的时间进行初始光流对齐。NHDRRNet [42] 采用 U 形网络架构,与其他方法相比,推理时间更短,但参数数量明显更多。CAViT [16] 拥有大量标准 Transformer 模块,尽管参数较少,但导致计算成本很高。DiffHDR [44] 由于从纯噪声重建 HDR,因此推理时间和参数数量都很高。相比之下,我们的方法有效地利用了 DM 强大的分布估计能力,参数和计算量减少了几个数量级。
5.3.消融研究
在本节中,我们研究了我们提出的方法中各种设计的的影响。所有实验均使用 Kalantari 的数据集 [11] 进行。
扩散先验的影响。如表 3 所示,我们建立了一个不生成 LPR 的基于回归的基线模型。在此配置中,DHRNet 中的 PIM 被 FRM 替换,HDR 图像通过基于回归的方法重建。LF-Diffs1 是第一阶段利用真实图像提供 LPR 的预训练模型。与基线相比,这带来了 8.7dB 的 PSNR-L 提升,表明准确的紧凑先验可以极大地提高结果。变体 LF-Diffs2 不使用 DM,而是直接使用 LPENet 学习 LPR。这比基线方法提高了 0.16dB 的 PSNR。当基于 DM 学习 LPR 时,变体 LF-Diffs2 与 DM 相比,比变体 LF-Diffs2 不使用 DM 进一步提高了 0.24dB 的 PSNR。这表明 DM 在准确估计 LPR 预测的分布方面具有优越的能力。此外,与需要超过 7000 万参数来估计完整图像的 DiffHDR 相比,LF-Diff 仅在基线基础上增加了 239 万参数。此外,我们在图 6 中展示了基线(没有先验特征)和 LF-Diff 变体的视觉比较。可以观察到,在紧凑的潜在空间中执行 DM 以预测 LPR 有效地缓解了鬼影问题。
表 2. 不同方法在 1000 × 1500 维度测试集上的平均运行时间性能。
联合训练策略的影响。我们对联合训练策略进行了消融研究。在这种策略下,仅在第二阶段优化 DM,称为 Split-Training。具体来说,我们首先利用预训练的 LPENet 从真实值生成先验特征 z,然后应用等式 (15) 中定义的训练目标独立训练 DM。随后,将训练好的 DM 直接与 DHRNet 集成进行评估。值得注意的是,第二阶段的 DHRNet 利用了第一阶段的预训练权重,无需额外训练。很明显,LF-Diff 在 PSNR 值方面比 Split-Training 高出 1.51 dB。这种比较突出了联合训练策略相对于 Split-Training 的有效性。
采样步骤。除了轻量级 DM 结构和紧凑的特征维度外,我们的方法通过在基于 DDIM [27] 的逆过程中采用更小的采样步长 S 来实现更高的计算效率。我们的方法的性能在 Tab. 4 中展示了从 5 到 100 的不同 S 值。当 S 设置为小于训练配置的值时,采样步骤的变化会导致明显的性能下降。另一方面,当 S 大于训练集时,对性能的影响很小,特别是 SSIM 指标始终保持不变。虽然较大的采样步长已知可以提高基于扩散方法的图像视觉质量 [24, 44],但在我们的案例中,它主要增加了推理时间。该观察结果表明,当使用我们提出的框架时,较大的采样步长(例如 DiffHDR [44] 和 SR3 [24] 中的 S = 1000)对于基于扩散的 HDR 重建和其他相关的低级视觉任务可能并非必要。
表 3. 扩散先验和联合训练的消融研究。
图 6. 消融研究的定性结果。
表 4. 逆向过程中采样步骤不同设置的消融研究。时间(s)仅表示 DM 在对应设置下的时间消耗。
6. 结论
扩散模型在 HDR 去重影方面的潜力已展现出令人鼓舞的结果,特别是在实现视觉上可感知的结果方面。与从头开始生成每个像素的图像合成不同,HDR 成像提供多个 LDR 图像作为参考。因此,从纯高斯噪声开始重建完整的 HDR 图像效率低下。本文提出了一种名为 LF-Diff 的高效扩散模型,它由 LPENet、DHRNet 和一个去噪网络组成。具体来说,我们在紧凑的潜在空间中应用 DM 来预测 HDR 图像的低频先验。这些先验特征为图像重建过程提供了明确的指导,从而增强了重建的 HDR 图像的细节。与传统的基于DM的方法相比,LF-Diff在重建图像中实现了更准确的估计,并减少了伪影,同时计算成本显著降低。