【论文笔记】Contrastive Learning for Compact Single Image Dehazing(AECR-Net)

在这里插入图片描述

文章目录

问题
创新
网络
主要贡献
- Autoencoder-like Dehazing Network
- - - - Adaptive Mixup for Feature Preserving
      - Dynamic Feature Enhancement
      - 1. 可变形卷积的使用
        2. 扩展感受野
        3. 减少网格伪影
        4. 融合空间结构信息
- Contrastive Regularization
- - 1. 核心思想
  - 2. 正样本对和负样本对的构建
  - 3. 潜在特征空间
  - 4.对比损失函数
  - 4. 对比正则化的数学表示
  - 5. 对比正则化的作用
  - 6. 与感知损失的对比
  - 7. 实现细节
  - 8. 总结

问题

现有的基于深度学习的去雾方法只采用清晰的图像作为正样本来指导去雾网络的训练，而没有利用负信息。
它们大多侧重于增强去雾网络，增加深度和宽度，导致对计算和内存的需求很大。

创新

一种基于对比学习的对比正则化（CR）方法，分别利用模糊图像和清晰图像作为负样本和正样本的信息。
开发了一种基于类自编码器（AE）框架的紧凑型除雾网络

网络

在这里插入图片描述

将这种带有自编码器和对比正则化的去雾网络称为AECR-Net。

主要贡献

提出了一种新的ACER-Net，通过对比正则化和高度紧凑的基于自编码器的去雾网络有效地生成高质量的无雾图像。与最先进的方法相比，AECR-Net实现了最佳的参数-性能权衡。
提出的对比正则化作为一种通用正则化可以进一步提高各种最先进的除雾网络的性能。
提出的类自编码器（AE）消雾网络中的自适应混合模块和动态特征增强模块分别有助于消雾模型自适应地保持信息流和增强网络的变换能力

Autoencoder-like Dehazing Network

在这里插入图片描述

编码器-解码器的对称结构。
- 编码器部分：
  通过下采样操作（如卷积层）将输入图像压缩到低分辨率空间，提取高层次的特征表示。在你的网络中，编码器部分使用了 4 倍下采样操作（例如，一个步幅为 1 的常规卷积和两个步幅为 2 的卷积层）。
- 解码器部分：
  通过上采样操作（如反卷积或插值）将低分辨率特征图恢复到原始分辨率，生成去雾后的图像。在你的网络中，解码器部分使用了 4 倍上采样和一个常规卷积。
通过下采样和上采样操作实现低维特征学习和图像重建。
- 自编码器的核心目标是将输入数据压缩到一个低维潜在空间，从而学习到数据的高效表示。在这个网络中，下采样操作将输入图像压缩到低分辨率空间，FA 模块在这些低分辨率特征上进行学习，提取去雾任务所需的关键特征。
- 自编码器的最终目标是从低维表示中重建原始数据。在这个网络中，解码器部分通过上采样操作将低分辨率特征图恢复到原始分辨率，生成去雾后的图像。
引入自适应混合和动态特征增强模块，改善特征保留和重建质量。
- 自编码器通常面临的一个问题是特征丢失，尤其是在深层网络中。为了解决这个问题，该网络引入了自适应混合（Adaptive Mixup）和动态特征增强模块（DFE），通过动态融合下采样层和上采样层的特征，保留更多的细节信息。
通过减少 FA 模块数量，实现紧凑模型设计。
- 自编码器通常被设计为紧凑模型，以减少计算和存储开销。该网络通过显著减少 FA 模块的数量（从 57 个减少到 6 个），实现了模型的轻量化。

Adaptive Mixup for Feature Preserving

在这里插入图片描述

动态特征融合：通过可学习因子动态调整特征融合的权重。
- 核心思想：自适应混合通过可学习因子动态调整下采样层和上采样层特征的融合权重，而不是使用固定的权重（如简单的加法或拼接）。
- 公式表示：
特征保留：自适应混合通过融合下采样层和上采样层的特征，保留了浅层特征中的细节信息。解决了浅层特征丢失的问题，保留了边缘、轮廓等细节信息。
可学习因子 σ(θi)：通过训练学习的参数，用于动态调整特征融合的权重。σ(θi)的值由 sigmoid 函数计算，范围在 (0, 1) 之间。
多层级融合：在不同尺度上融合特征，提升网络的表达能力。自适应混合操作应用于多个层级（如两个下采样层和两个上采样层），从而在不同尺度上融合特征。

Dynamic Feature Enhancement

在这里插入图片描述

1. 可变形卷积的使用

可变形卷积通过以下步骤实现：

偏移量预测：首先，通过一个额外的卷积层预测每个采样点的偏移量（offset）。这些偏移量表示卷积核的采样位置相对于固定网格位置的偏移。
动态采样：根据预测的偏移量，卷积核的采样位置会动态调整，从而能够更好地捕捉图像中的结构化信息。
特征融合：通过动态调整后的卷积核进行卷积操作，生成新的特征图。

核心思想：
动态特征增强模块（DFE）通过 可变形卷积（Deformable Convolution） 实现。可变形卷积允许卷积核的采样位置根据输入数据的局部结构动态调整，从而捕捉更多重要信息。
与传统卷积的对比：
- 传统卷积使用固定网格核，采样位置是规则的、均匀分布的。
- 可变形卷积通过可学习的偏移量（offset）调整采样位置，使其能够适应输入数据的几何变换和局部结构变化。

2. 扩展感受野

感受野（Receptive Field）：
感受野是指卷积神经网络中某一层的一个神经元能够“看到”的输入图像的区域大小。
DFE 的作用：
DFE 通过可变形卷积扩展了感受野，并使其具有自适应形状，从而提升了网络的特征表达能力。

3. 减少网格伪影

网格伪影（Gridding Artifacts）：
空洞卷积（Dilated Convolution）虽然可以扩大感受野，但可能会导致网格伪影。
DFE 的优势：
DFE 通过可变形卷积的动态采样机制，避免了网格伪影的产生，从而提升了图像质量。

4. 融合空间结构信息

空间结构信息（Spatially Structured Information）：
指图像中与空间位置相关的特征信息，如边缘、纹理、形状等。
DFE 的作用：
DFE 通过可变形卷积动态调整采样位置，使网络能够更有效地融合空间结构信息。

Contrastive Regularization

在这里插入图片描述

对比正则化（Contrastive Regularization, CR） 是一种基于对比学习思想的正则化方法，旨在通过拉近正样本对的表示并推远负样本对的表示，约束模型的解空间，从而提升模型的性能。以下是对对比正则化的详细理解：

1. 核心思想

对比正则化的核心思想来源于对比学习（Contrastive Learning），其目标是通过学习一种表示，使得：

正样本对（相似的样本）在特征空间中尽可能接近。
负样本对（不相似的样本）在特征空间中尽可能远离。

在图像去雾任务中，对比正则化的具体目标是：

将恢复图像 ( \hat{J} ) 拉近清晰图像 ( J )（正样本对）。
将恢复图像 ( \hat{J} ) 推离雾霾图像 ( I )（负样本对）。

2. 正样本对和负样本对的构建

正样本对：
由清晰图像 ( J ) 和恢复图像 ( \hat{J} ) 组成。目标是让恢复图像尽可能接近清晰图像。
负样本对：
由恢复图像 ( \hat{J} ) 和雾霾图像 ( I ) 组成。目标是让恢复图像尽可能远离雾霾图像。

3. 潜在特征空间

为了进行对比，需要将图像映射到一个潜在特征空间。在这里，潜在特征空间是通过一个固定的预训练模型（如 VGG-19）提取的中间特征表示的。这些特征能够捕捉图像的语义信息（如边缘、纹理、形状等）。

4.对比损失函数

对比正则化的目标是最小化恢复图像与清晰图像之间的距离，同时最大化恢复图像与雾霾图像之间的距离。具体来说，对比正则化的损失函数可以表示为：
在这里插入图片描述

4. 对比正则化的数学表示

对比正则化的目标函数可以表示为：
在这里插入图片描述
通过最小化正样本对的距离并最大化负样本对的距离，约束模型的解空间。

5. 对比正则化的作用

拉近正样本对：
通过最小化清晰图像和恢复图像在特征空间中的距离，使恢复图像尽可能接近清晰图像。
推远负样本对：
通过最大化雾霾图像和恢复图像在特征空间中的距离，使恢复图像尽可能远离雾霾图像。
约束解空间：
通过对比正样本对和负样本对，约束模型的解空间，避免过拟合，提升泛化能力。

6. 与感知损失的对比

感知损失（Perceptual Loss）：
仅通过清晰图像和恢复图像在特征空间中的距离来约束模型（仅使用正样本）。
对比正则化（CR）：
不仅使用清晰图像和恢复图像（正样本对），还使用雾霾图像和恢复图像（负样本对）来约束模型。

优势：
对比正则化通过引入负样本对，进一步约束解空间，从而提升模型的去雾效果。

7. 实现细节

特征提取：
从预训练模型（如 VGG-19）的不同层中提取特征，以捕捉多尺度的语义信息。
距离度量：
使用 L1 距离度量特征空间中的距离。
权重系数：
不同层的特征可能对任务的重要性不同，因此引入权重系数 ( $ \omega_i $ )来平衡各层的贡献。

8. 总结

对比正则化（CR）通过引入对比学习的思想，利用正样本对和负样本对约束模型的解空间，从而提升去雾效果。其核心思想是：

拉近恢复图像和清晰图像的距离（正样本对）。
推远恢复图像和雾霾图像的距离（负样本对）。

通过这种方式，CR 不仅能够提升恢复图像的质量，还能避免过拟合，增强模型的泛化能力。

⭐感谢你的阅读，希望本文能够对你有所帮助。如果你喜欢我的内容，记得点赞关注收藏我的博客，我会继续分享更多的内容。⭐