《Learning To Count Everything》CVPR2021

摘要

论文提出了一种新的方法来解决视觉计数问题，即在给定类别中仅有少量标注实例的情况下，对任何类别的对象进行计数。将计数问题视为一个少样本回归任务，并提出了一种新颖的方法，该方法通过查询图像和查询图像中的少量示例对象来预测图像中所有感兴趣对象的存在密度图。此外，还提出了一种新颖的适应策略，使网络能够在测试时仅使用新类别中的少量示例对象来适应任何新的视觉类别。为了支持这一任务，作者还引入了一个包含147个对象类别、超过6000张图像的数据集，并在该数据集上进行了实验，证明了他们的方法优于现有的一些最先进的对象检测器和少样本计数方法。

概述

拟解决的问题：现有的视觉计数研究主要集中在单一特定类别上，如人、动物和细胞。而本文的目标是能够对任何类别的对象进行计数，即使只有该类别的少量标注实例。这包括处理大规模视觉类别的计数系统设计难题，以及缺乏足够大的、包含多个视觉类别的无约束计数数据集的问题。

创新之处：

问题重新定义：将计数问题重新定义为少样本回归任务。
FamNet架构：提出了一个名为Few Shot Adaptation and Matching Network (FamNet)的新架构，用于处理少样本计数任务。
少样本适应策略：开发了一种新颖的少样本适应方案，在测试时使用梯度下降更新来适应新类别。
FSC-147数据集：引入了一个包含147个视觉类别、超过6000张图像的中等规模数据集，适合少样本计数任务。

方法

FamNet包括两个关键组件：

特征提取模块：使用预训练的网络来处理大量视觉类别。
密度预测模块：设计为与视觉类别无关，通过相关性图作为输入来预测密度图。

训练时，使用带有边界框和点注释的训练图像，通过最小化预测密度图和真实密度图之间的均方误差来进行。测试时，使用提出的少样本适应方案来进一步提高计数精度。

2.1 方法部分

特征提取：多尺度特征提取模块由预训练的 ResNet-50 主干的前四个块组成（这些块的参数在训练期间被冻结）。我们通过第三个和第四个块的卷积特征图来表示图像。我们还通过对来自第三个和第四个Resnet-50块的卷积特征映射执行ROI池来获得样本的多尺度特征。

密度预测：为了使密度预测模块与视觉类别无关，不使用直接从特征提取模块获得的特征进行密度预测。相反，我们只使用样本特征和图像特征之间的相关性图作为密度预测模块的输入。为了解决不同尺度的感兴趣的对象，我们将样本特征缩放到不同的尺度，并将缩放的样本特征与图像特征相关联，以获得多个相关图，每个尺度一个。对于我们所有的实验，我们使用 0.9 和 1.1 的尺度以及原始尺度。相关图被连接起来并输入到密度预测模块中。密度预测模块由五个卷积块和三个上采样层组成，放置在第一个、第二个和第三个卷积层之后。最后一层是一个 1×1 卷积层，用于预测 2D 密度图。预测密度图的大小与输入图像的大小相同。