TPAMI 2023 | 无监督域适应语义分割新视角：统一图像和特征层次的对齐

©PaperWeekly 原创 · 作者 | 陈超奇

单位 | 香港大学

研究方向 | 迁移学习

论文标题：

I2F: A Unified Image-to-Feature Approach for Domain Adaptive Semantic Segmentation

论文链接：

https://arxiv.org/abs/2301.01149（预印版）

https://ieeexplore.ieee.org/abstract/document/9984933/（IEEE TPAMI版）

摘要

本文研究用于语义分割任务的无监督域自适应（UDA）算法。我们观察到图像低层统计量和高层语义中的域差异显著地影响目标域上的分割性能。因此，解决这个问题的一个关键是同时执行图像级别和特征级别的域适应。然而，已有的文献中缺乏这种统一的结构，特别是针对语义分割任务。

本文提出了一种新颖的用于语义分割的 UDA 框架，它将图像级别和特征级别自适应统一起来。具体而言，针对图像级别的域偏移，我们提出了全局光度对齐模块和全局纹理对齐模块，以图像级属性对齐源域和目标域中的图像。对于特征级别的域偏移，我们通过将来自两个域的像素特征投影到源域的特征流形上来执行全局流形对齐；并且我们通过面向类别的三元损失正则化源域中的类别中心，并在增强的目标域图像上执行目标域一致性正则化。

实验结果表明，我们的方案明显优于以前的方法。例如，在 GTA5→Cityscapes 这一经典任务中使用 Deeplab V3+ 作为主干网络，我们提出的方法超过了先前最好的方法 8 个点，在 mIoU 方面达到了 58.2%。

背景

尽管现有的语义分割模型在深度神经网络浪潮中的性能得到了显著提高，但训练语义分割模型通常需要大量带有像素级注释的图像，这个收集过程既费力又耗时。无监督域适应（UDA）用于语义分割是避免数据注释问题的一种替代方法：通过共同利用来自不同源数据集（两个数据集的标签空间必须兼容）的带标签图像，从未标注的目标数据集中学习一个性能良好的模型。

然而，不同数据集之间存在域偏移。最明显的差异是与颜色、纹理甚至光照条件有关的低级图像统计数据。这些差异可以通过图像级适应来部分缓解。然而，不同数据集之间还存在物体级别的差异，如物体姿态和空间分布，这导致了不同的特征分布。所有这些域偏移都对语义分割模型的最终性能产生了不利影响。因此，对于无监督域适应语义分割，学习能够克服图像级和特征级域偏移的特征表示至关重要。

域偏移的原因在以前的研究中得到了广泛的研究。一般而言，主要原因可以分为图像级别的域转移和特征级别的域转移。图像级别的域转移是指成像条件的差异，例如相机成像管道中的照明和设置。它们影响图像的整体外观，对特征级别的分布产生微妙的影响。

现有的解决图像级别域转移的工作通常基于图像级别风格转换，这利用了深度模型，如生成模型或图像到图像转换模型 [1]，或傅里叶变换 [2]。我们将这些方法称为图像级别适应方法。这些方法已经证明了通过转移图像风格或对齐特征分布可以使两个域更加接近。然而，生成方法通常需要计算昂贵的训练过程，其不稳定性是众所周知的。生成模型还容易出现模式坍塌，使得生成特征的范围异常小。另一方面，基于傅里叶变换的方法 [2] 产生的风格转换图像质量较差。

我们观察到以前的域自适应语义分割研究主要集中在图像级别的域对齐 [3]，通常与采用更完整的流程的最近研究 [4,5] 相比，其最终分割性能较差。这样的最近研究进一步表明，用图像级别的域对齐图像替换原始源域图像可以进一步提高特征级别适应技术的最终性能。这表明前述的图像级别适应方法只能部分缓解域差异，特征级别的对齐仍然需要额外的图像转换模块来提升性能。因此，在图像级别自适应后仍需要进行特征级别自适应。

对于特征级别的自适应，以前的研究中常用的做法是采用对抗性方法 [5, 6]，即在训练鉴别器无法区分源域和目标域特征的情况下认为两个域的特征已经对齐。但是，对抗性方法往往会生成一些狭窄的特征分布，以欺骗鉴别器。当不同的图像共享相似的特征分布时，训练模型的泛化性能会变差。

另一方面，为了进行类别级别的特征自适应，一些现有方法使用在源域中计算的类别锚点来对齐两个域 [7, 8]，这可以被视为对类别级别特征分布施加硬约束的方法。该方法忽略了不同类别之间的特征距离，而在源域中具有类似特征分布的类别在目标域中仍可能具有类似的特征分布，在目标域没有监督信号的情况下，会导致错误的伪标签。我们的实验表明，通过调整类间和类内特征距离的相对大小，对类别级别特征分布施加软正则化可以提高模型的性能。

根据以上分析，仅进行图像级别适应或特征级别适应均无法充分解决域转移问题。此外，现有的面向语义分割的 UDA 工作缺乏统一的方法来最小化域转移。因此，我们从两个角度来解决问题，并提出了一种新颖而高效的流程，将图像级别和特征级别的适应统一起来。对于图像级别的域转移，我们提出了两种新颖且无需训练的图像级别操作，称为全局光度对齐和全局纹理对齐，以将源域中的图像适应到目标域。

然而，仅进行图像级别适应不能保证特征空间中的域对齐。因此，我们设计了一个全局流形对齐模块，用一组原子表示源域特征流形，源域和目标域的任何像素特征都可以投影到这个流形上。通过最小化输入特征和流形之间的投影误差，所有源域和目标域特征都对齐到同一个流形上。

为了进行类别级别的特征自适应，我们还引入了两种类别级别特征分布正则化方法：提出了一种面向源域的类别导向三元组损失来通过扩大类间和类内特征距离之间的间隔来软化规范化类别中心。该方法仅应用于源域，因为测量类间和类内距离需要可靠的注释，这些注释仅存在于源域中。

应用于目标域的类别级别特征自适应方法是自监督一致性正则化。该正则化使增强的目标图像的预测与相应的未增强图像的伪标签保持一致，从而强制相似语义内容的类别标签在目标域中保持一致。通过同时从所有角度解决域转移问题，实验结果表明，我们提出的方法能够显著提高性能。

方法描述

如图所示，我们的方法流程可以分为两个阶段：一是图像级适应，二是特征级适应（多次循环迭代）。首先，我们利用两个域之间的光度差异，将源域图像与目标域图像进行粗略的适应，以最小化图像级别的域偏移，同时将目标域的高频分布也随机地转移到源域图像中；然后，我们通过将两个域的像素特征与粗略适应模型生成的特征流形对齐，来执行特征级别的适应，而不考虑其类别；最后，我们对类间中心距离和类内特征变化施加软约束，以规范类别级别的特征分布。

2.1 图像级适应

全局光度对齐（Global Photometric Alignment）：由于全局域偏移主要与低级图像属性有关，我们的工作中提出了全局光度对齐方法，将目标域的低级图像属性转移到源域图像中。观察到在不同场景中，图像的空间亮度分布可能非常复杂。还需要注意的是，直接操作 RGB 通道可能会导致严重的伪影和假颜色。相比之下，a 和 b 色彩通道的空间色彩分布总是具有类似的钟形直方图。

因此，我们对亮度和颜色采用不同的处理方式：我们通过仅在颜色通道 a 和 b 上执行经典的直方图匹配，而在亮度通道 L 上运用 gamma 校准的方式将源域图像与目标域参考图像进行匹配，以避免引入常见的直方图匹配结果中的伪影。下图展示了全局光度对齐的具体流程：（a）输入源域图像和（b）随机选择的目标域图像在（c）Lab通道上对齐，生成（d）对齐后的图像。

2.2 特征级适应

全局纹理对齐（Global Texture Alignment）：根据先前的研究表明，基于 CNN 的模型对高频信息敏感。我们观察到，合成图像与现实世界图像相比，具有不同且通常更强的高频信息，这会影响我们的模型在目标域中的泛化性能。尽管所提出的 GPA 模块对齐了图像的全局光度属性，并保持了源域数据集的多样性，但它并没有对齐高频纹理。

为了缓解这个问题，我们提出了一个全局纹理对齐模块作为辅助数据增强方案。这个想法很简单：我们修改源域中随机图像子集的高频分量，使每个图像中的分布与相应的参考图像更一致，而参考图像是从目标域中抽样的。该过程在图 1 中进行了说明。

具体而言，我们的方法可以分为四个步骤：（1）在源域图像上应用双边滤波器过滤高频纹理但保留图像结构，（2）在滤波后的源域图像和原始目标域图像上分别应用拉普拉斯算子获取它们的高频分量，（3）获取上述拉普拉斯算子响应的直方图，（4）用最小化直方图对齐损失来优化双边滤波器参数：

全局流形对齐（Global Manifold Alignment）：诸如局部线性嵌入（LLE）和Isomap等方法通常用于描述流形，但它们对基于梯度反向传播的训练来说计算成本太高。在这里，我们使用 K - 均值算法简化计算。由于 LLE 使用分段线性模型来逼近高维特征流形，K - 均值可以被视为流形的分段常数逼近。通过 K - 均值获得的每个质心都是局部区域的常数逼近。

通过用一组代表性特征向量逼近流形，我们可以进一步对齐源域和目标域的特征。我们提出的全局流形对齐的动机很简单：最小化源域投影误差使特征流形更加平滑，最小化目标域投影误差减小了源域和目标域特征分布之间的距离（即改善了对齐）。具体而言，我们采用注意力机制来计算原子向量的线性系数。流形投影误差和重构特征向量可以使用以下方程计算，

类别三元组损失：尽管前述的 GPA 和 GMA 模块在一定程度上可以学习到域不变特征，但之前训练中使用的损失函数并未明确地控制类别特征分布，而且一些类别敏感的域偏移被忽视了。不同类别的像素特征自然地分布不均匀，有些类别中心彼此靠近。

为了解决这个问题，我们提出了一个面向类别的三元组损失，旨在将像素特征进一步靠近所属类别的中心，同时远离其他类别中心。请注意，为了使面向类别三元组损失的计算变得实际可行，我们有意引入了类别中心。如果我们在没有类别中心的情况下使用传统的三元组损失，我们需要存储所有像素对之间的距离，这会导致巨大的 GPU 内存负担。具体公式如下：

目标域一致性正则化：在源域中，我们提出的面向类别的三元组损失对类别特征进行了正则化，其中用了真实类别标签。然而，在目标域中没有具有真实标签的数据，监督信号较弱。一致性正则化是许多最近最先进的自监督学习算法的重要组成部分，它利用无标签数据，依赖于这样一个假设：当输入是同一图像的扰动版本时，模型应该输出相同的预测标签。受此启发，我们提出了一种目标域一致性正则化方法，具体公式如下：

使用经过训练的上一次迭代的模型而不是本次迭代正在训练的模型生成伪标签至关重要。这是因为本次迭代模型仍在训练过程中，且不稳定。由本次迭代模型生成的带波动的伪标签将对训练过程产生灾难性影响。实验结果表明，这种一致性正则化方法简单而有效。它强化了目标域中的监督信号，并提高了最终性能。

实验结果

Table 1 和 Table 2 分别展示了在两个主流 UDA 分割任务上的结果，可以观察到我们的方法显著优于之前的方案。

下图定性比较我们的方法与 CAG [16] 在 GTA5→Cityscapes 任务上的表现。具体来说，（a）输入图像，（b）CAG [7]，（c）我们的方法，（d）标签。

下图展示了全局光度对齐（GPA）模块的定性分析。（a）输入图像，（b）参考图像，（c）BDL-GAN [5]，（d）傅立叶适应 [2]，（e）全局光度对齐。

参考文献

[1] Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2223-2232.

[2] Yang Y, Soatto S. Fda: Fourier domain adaptation for semantic segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 4085-4095.

[3] Wu Z, Han X, Lin Y L, et al. Dcan: Dual channel-wise alignment networks for unsupervised scene adaptation[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 518-534.

[4] Pan F, Shin I, Rameau F, et al. Unsupervised intra-domain adaptation for semantic segmentation through self-supervision[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 3764-3773.

[5] Li Y, Yuan L, Vasconcelos N. Bidirectional learning for domain adaptation of semantic segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 6936-6945.

[6] Wang H, Shen T, Zhang W, et al. Classes matter: A fine-grained adversarial approach to cross-domain semantic segmentation[C]//Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part XIV. Cham: Springer International Publishing, 2020: 642-659.

[7] Zhang Q, Zhang J, Liu W, et al. Category anchor-guided unsupervised domain adaptation for semantic segmentation[J]. Advances in neural information processing systems, 2019, 32.

[8] Wang Z, Yu M, Wei Y, et al. Differential treatment for stuff and things: A simple unsupervised domain adaptation method for semantic segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 12635-12644.

更多阅读