论文速读：多源域自适应目标检测中的目标相关知识保存(CVPR2022)

原文标题：Target-Relevant Knowledge Preservation for Multi-Source Domain Adaptive Object Detection

中文标题：多源域自适应目标检测中的目标相关知识保存

论文地址： https://arxiv.org/pdf/2204.07964

代码地址：无官方实现？我有点纳闷顶会不公布代码，这么复杂的训练流程别人怎么复现。

这篇文章是由北京航空航天大学、中科院深圳先进研究院、商汤科技研究院等机构发布的。

1、Abstract

领域自适应目标检测（DAOD）是一种很有前途的方法，可以缓解检测器在新场景下的性能下降。尽管在单源域适应方面做出了巨大努力，但由于组合过程中的知识退化，具有多个源域的更通用的任务仍未得到很好的探索。为了解决这个问题，作者提出了一种新的无监督多源DAOD方法，即目标相关知识保存（target relevant knowledge preservation，TRKP）。具体而言，TRKP采用师生框架，构建多头教师网络，从已标记的源域数据中提取知识，引导学生网络学习未标记的目标域的检测器。教师网络进一步配备了对抗多源解纠缠（AMSD）模块，以保留源领域特定知识并同时进行跨领域对齐。此外，提出了一种整体目标相关挖掘（HTRM）方案，根据源域-目标域相关性对源域图像进行重新加权；通过这种方式，教师网络被强制捕获与目标相关的知识，从而有利于减少在目标域中指导目标检测时的领域漂移。在各种广泛使用的基准上进行了广泛的实验，取得了sota效果，突出了有效性。

2、Introduction

2.1、跨域自适应目标检测的起源与发展

在过去的十年中，卷积神经网络（CNN）取得了巨大的进步，并在视觉目标检测方面取得了显着的进步。不幸的是，当应用于模型未曾见过的场景时，由于域转移，精心构建的检测器会遭受显着的性能下降。由于对新收集的数据进行标注相当昂贵且耗时，因此域自适应目标检测（DAOD）已受到越来越多的关注。它源于无监督领域自适应(UDA)，被证明能有效地将知识从学习领域(称为源域)转移到仅使用用于分类的未标记图像的新领域(称为目标域)。与UDA相比，DAOD更具挑战性，因为它可以同时定位和分类具有域偏移的图像中不同目标的所有实例，它需要生成域不变表示来减少存在复杂前景和背景变化时的差异。

2.2、跨域自适应目标检测主流的研究方法

已经有很多文献对 DAOD 做出了许多努力，这些方法主要在对抗性特征对齐或半监督学习的范式中解决它。前者通过梯度反转层（gradient reversal layer）混淆的对抗性判别器直接源域和目标域的特征进行对齐，并可在图像级、实例级或类别级实现。后者根据源域训练的模型预测伪标签，并将其作为对目标域的指导，通过加强模型一致性来弥合领域差距。对于单对源-目标域适应检测，这两种方法都显示出令人满意的DAOD结果。

2.3、多源域自适应目标检测的方法和局限

多源域自适应（MSDA）被认为是UDA中更实用的场景，因为它假设学习多种源域可以更好地适应目标域。除了源域和目标域之间的差异外，MSDA还处理不同源域之间的差异，以避免负迁移。尽管多源问题在分类中很普遍，但在检测中却很少被研究。据我们所知，最近唯一的尝试是由DMSN给出的；它遵循了MSDA中首先为多个源域分配动态权重进行对齐，然后将复合源域适应于目标域，并说明了不同领域知识对DAOD的必要性。然而，它存在两大局限性：(1)分割和合并的纺锤网络（divide-and-merge spindle network）进行早期对齐；它将来自不同源域的数据分开处理，然后将它们合并；这种早期对齐意味着在合并不同源域的数据之前，就尝试对它们进行某种形式的对齐或调整，以便它们在特征层面更加一致；然而，这样做可能会导致从各个单独源域中学到的领域特定知识的退化，因为不同源域之间存在差异（gaps），在早期对齐时可能会忽略或削弱这些差异。(2)损失记忆库（loss memory bank）通过临时差异衡量源域中与目标相关的知识；损失记忆库是一种机制，它通过比较源域和目标域之间的临时差异来评估源域中与目标域相关的知识；这种方法可能会导致只找到一个局部最优解（local optimum），而不是全局最优解；局部最优解意味着模型可能只在当前的训练阶段表现良好，但可能无法很好地泛化到目标域。

2.4、本文提出的方法

为了解决上述问题，本研究提出了一种新的多源 DAOD 目标相关知识保存（TRKP）方法，旨在增强来自不同来源域的目标相关知识学习，并减少适应目标域时的领域知识退化。具体来说，TRKP 在师生框架中执行多源 DAOD，构建了多头教师网络来从各个已标记的源域中提取知识，并指导学生网络在未标记的目标域中构建检测器；为了抑制知识退化，教师网络嵌入了对抗性多源解缠(AMSD)模块，以在跨域对齐过程中尽可能地保存相应独立检测头获取的源域特定知识。在此基础上，还提出了一种整体目标相关挖掘（HTRM）方案，根据源域-目标域相关性对源图像进行加权。通过这种方式，教师网络被强制在全局层面捕获和高亮目标相关知识，从而有利于减少领域差异，以便检测器在目标领域适应。在公共基准上进行了广泛的实验，并报告了最新的性能，证明了TRKP的优势。

2.5、本文贡献

本研究的贡献有三个方面：

1）提出新颖的教师-学生网络结构；用于多源领域自适应目标检测（MSDAOD）。这个网络结构通过使用多头教师结构和对抗性源解耦模块来减轻在对齐过程中目标相关源域知识的退化。这意味着该方法能够更有效地整合来自多个源域的知识，同时减少不同源域之间可能存在的干扰，从而提高模型在目标域上的适应性和性能。

2）提出了一种新的目标相关挖掘过程（target-relevant mining procedure），用于在全局层面上测量源域和目标域之间的相关性。这种方法可以显著增强从不同源域获取与目标域相关的知识。通过在全局层面上评估源域和目标域之间的相似性和差异性，能够更准确地识别和利用对目标域有用的知识，从而提高跨域检测的准确性。

3）在现有研究中取得显著性能提升，并在更复杂的场景中建立良好的基线：研究不仅在现有的评估协议中通过大幅度的性能提升超越了最先进的方法，而且在包含更多源域的更复杂场景中也取得了良好的基线性能。这表明该方法不仅在理论上是有效的，而且在实际应用中也具有很高的实用价值。通过在更复杂的多源领域自适应场景中进行测试，该研究证明了其方法的鲁棒性和适应性。

3、Related Work

3.1、Domain Adaptive Object Detection（领域自适应目标检测）

由于经过良好调优的检测器应用在新场景时会出现性能下降，无监督域自适应（UDA）是解决这一困境的有效方法。域自适应目标检测 (DAOD) 通过减少已见场景和未见场景之间的域转移来解决该问题。最近的大多数研究可以分为两类：(1)基于特征对齐的方法，通过对齐检测器中的差异特征来解决域迁移问题；(2)基于半监督学习的方法，直接将UDA描述为半监督学习问题。然而，这些研究都是基于单一源域的假设而设计的，没有涉及多个源域。在这里，我们提出了一种新的基于半监督学习的方法，专门针对多源DAOD。

3.2、Multi-Source Domain Adaptation（多源域自适应）

对UDA的研究一般集中在单对源域和目标域之间的对齐。多源域适应(MSDA)则考虑了更一般的情况，即有多个源域可用；由于包含更多不同的数据，这有利于模型的泛化能力，但由于源域之间也存在域迁移，因此更具挑战性。有几个早期的研究通过加权源域组合来处理这个问题，以实现与目标域相关的预测，并进行严格的理论分析。最近的尝试在对抗性适应中进行了这一重新加权过程。此外，许多研究的目的是减少多个源域之间的域漂移问题，动态对齐由源域-目标域对和源域对组成的特征分布；与显式特征对齐不同，使用伪标记的目标域样本进行隐式对齐。而以上所有这些方法都侧重于分类，而据我们所知，DMSN是第一个将MSDA引入目标检测的方法；除了一般的DAOD方法外，它还开发了源域之间的特征对齐和伪子网学习，用于源域之间的加权组合。然而，它的特征对齐受到知识退化的限制，其临时域差异度量导致局部最优。相比之下，我们的TRKP旨在保留更多来自不同源域的目标相关知识，以促进多源DAOD。