TCFormer：通过标记聚类Transformer实现视觉识别

摘要

Transformer在计算机视觉领域得到了广泛应用，并取得了显著成功。大多数最先进的方法将图像分割成规则网格，并用视觉标记表示每个网格区域。然而，固定的标记分布忽略了不同图像区域的语义含义，导致性能次优。为了解决这个问题，我们提出了标记聚类Transformer（TCFormer），它基于语义含义生成动态视觉标记。我们的动态标记具有两个关键特性：（1）使用相同的视觉标记表示具有相似语义含义的图像区域，即使这些区域不相邻；（2）专注于具有有价值细节的区域，并使用精细的标记来表示它们。我们通过在包括图像分类、人体姿态估计、语义分割和对象检测在内的各种应用上进行广泛实验，证明了TCFormer的有效性。本工作的代码和模型可在https://github.com/zengwang430521/TCFormer上获得。

索引术语：视觉Transformer，动态标记，图像分类，人体姿态估计，语义分割，对象检测

1 引言

视觉Transformer在各种任务中均取得了最先进的性能，包括图像分类[1,2,3,4]、目标检测[6,6,7,8]、语义分割[9,10,11,12]、姿态估计[13,14,15]等。视觉Transformer在图像块之间具有长距离注意力的能力，使其能够更有效地建模图像区域之间的关系，从而相对于传统的卷积神经网络能够获得更鲁棒的表示。

视觉Transformer将图像视为特征向量的序列，这些特征向量被称为视觉标记，每个标记代表图像的一个特定区域。然后，这些标记通过Transformer块进行处理。尽管对视觉Transformer的架构[1,16,8]、块结构[4]和注意力机制[16,8,17]进行了广泛的研究，但视觉标记的生成仍然是一个有待深入探索的领域。迄今为止，大多数先前的研究都依赖于基于网格的视觉标记。如图1所示，等距视觉Transformer[1,2]使用固定网格对图像进行划分，并将每个网格块视为一个视觉标记。这种设计简单且高效，但缺乏在不同尺度上考虑图像特征的能力。为了解决这个问题，具有金字塔架构的视觉Transformer[4,8,16,18]在不同阶段采用不同网格分辨率。虽然基于网格的标记生成在广泛的任务中取得了令人印象深刻的结果，但它忽略了图像的语义含义，并将所有区域视为等同，从而导致次优结果。

为了应对这一挑战，我们引入了一种新颖的视觉Transformer——标记聚类Transformer（TCFormer），它根据图像的语义含义动态生成视觉标记。TCFormer采用了广泛使用的金字塔架构。如图1©所示，我们从高分辨率特征图开始，并将特征图中的每个像素视为一个视觉标记。随后，我们通过标记特征聚类逐步合并这些标记，以生成后续阶段的动态标记。为了避免过大的复杂度，我们在早期阶段进行局部聚类，并在最终阶段执行全局聚类。与之前的分层视觉Transformer不同，TCFormer在下采样过程中根据标记特征的相似性对标记进行整合，而不是根据它们的空间位置。

我们的动态标记具有三个关键优势。首先，它们与图像中的对象更好地对齐，从而增强了对象关系的学习。其次，通过将更多的标记分配给有价值的图像区域，我们的动态标记可以专注于重要区域并学习图像的更全面表示。最后，动态标记可以通过使用精细标记来表示图像细节来更有效地捕获详细信息。

先前的研究[18,19,6]已经证明了在各种任务中多尺度特征聚合的优势。对于传统的基于网格的视觉标记，先前的工作[20,8]首先将它们转换为特征图，并使用卷积神经网络进行特征聚合。然而，将我们的动态标记转换为特征图并非易事。如果转换为低分辨率特征图，则会丢失动态标记中的详细信息；而如果转换为高分辨率特征图，则会导致计算负担过重。
为了解决这个问题，我们基于Transformer提出了一个多阶段标记聚合（MTA）模块。MTA模块将上一阶段的标记视为初始标记，并逐渐聚合来自前一阶段的特征。在每一步中，MTA模块对上采样的视觉标记进行处理，并将其与前一阶段的标记特征合并。最后，将每一步的视觉标记组合起来，创建一个特征金字塔以供后续处理。为了充分利用我们动态标记的优势，我们提出了一个新的Transformer块，该块利用聚类结果来指导注意力过程。我们将这个新的Transformer块集成到MTA模块中，形成了新颖的聚类缩减MTA（CR-MTA）模块。CR-MTA模块以视觉标记的形式实现标记特征聚合，在保持详细信息的同时，保持可接受的复杂度水平。

本工作的主要贡献可以概括如下：

我们引入了一种新颖的视觉Transformer，名为TCFormer，它采用标记特征聚类来生成动态视觉标记。
我们提出了一个局部CTM模块，该模块通过在早期阶段对标记进行局部聚类，减轻了标记聚类的过重负担。
我们提出了一种基于Transformer的多尺度特征聚合模块，称为MTA，该模块以视觉标记的形式有效且高效地融合多尺度特征。
我们通过引入一个新的Transformer块来进一步改进MTA模块，该块利用聚类结果来指导注意力过程，从而形成了CR-MTA模块。
在包括图像分类、人体姿态估计、语义分割和对象检测在内的各种计算机视觉任务上进行了广泛的实验，结果表明我们提出的TCFormer优于其他同类方法。

这项工作在初步版本[15]的基础上进行了以下增强：1) 我们提出了一种局部标记聚类方法，该方法在不牺牲性能的情况下显著降低了计算成本。局部聚类方法使我们的TCFormer能够更高效地处理高分辨率图像。2) 我们提出了CRMTA，通过利用聚类结果来指导注意力过程，从而改进了原始的MTA模块。这一增强充分利用了我们动态视觉标记的优势，并改进了对象关系的学习。3) 我们将TCFormer扩展到更多任务中，如对象检测和语义分割，以证实我们TCFormer的通用性。

图2：我们的标记聚类Transformer（TCFormer）的架构。TCFormer采用广泛使用的金字塔结构，由四个阶段组成。初始阶段的视觉标记是从高分辨率特征图中的像素生成的。在连续阶段之间，基于聚类的标记合并（CTM）模块合并视觉标记，以为后续阶段创建动态标记。多阶段标记聚合（MTA）模块以标记格式集成多尺度标记特征，并输出一个标记金字塔以供进一步处理。

2 相关工作
2.1 视觉Transformer

受Transformer在自然语言处理中取得成功的启发[22-24]，Transformer已被扩展到计算机视觉领域，并在广泛的任务中取得了最先进的成果[1, 7, 10, 18, 8]。大多数最先进的视觉Transformer将图像划分为基于网格的块，并将每个块表示为视觉标记。然后，视觉标记序列通过多个堆叠的Transformer块进行处理。根据视觉标记的尺度，视觉Transformer可以分为两类。

第一类采用等距结构，并在整个过程中使用具有统一尺度的视觉标记。ViT[1]将等距视觉Transformer应用于图像分类，通过处理视觉标记以及一个分类标记来预测分类得分。DeiT[2]进一步基于分类标记引入了蒸馏方法。MAE[21]通过重建随机掩码的图像块，将ViT扩展为自监督学习者。ViTPose[14]利用ViT结构进行姿态估计，并取得了最先进的性能。

第二类采用金字塔结构并生成多尺度的视觉标记。第二类也采用金字塔结构并生成多尺度的视觉标记。CVT[4]通过将卷积层融入Transformer块中，构建多尺度的视觉标记，从而扩展了ViT。PVT[20]引入了一种具有金字塔结构的视觉Transformer，用于密集预测，它在早期阶段采用高分辨率网格划分，并在每个阶段后降低网格分辨率。Swin[8]具有与PVT相似的结构，但在其Transformer块中采用了基于移动窗口的注意力机制。PVT和Swin在各种任务中都取得了出色的成绩，如对象检测[7,16]和语义分割[10,26]。

我们的TCFormer属于第二类，并生成多尺度的视觉标记。与常规模型不同，TCFormer中的视觉标记不受固定网格结构的限制。相反，TCFormer通过标记特征聚类生成具有可适应形状和大小的动态标记，这反映了图像的语义含义并专注于重要区域。TCFormer还通过精细标记捕捉图像细节。动态视觉标记有助于学习对象关系并捕获详细信息。

2.2 动态视觉标记

基于固定网格的视觉标记忽略了图像的语义含义，并将所有区域视为等同，这不是最优的。为了解决这个问题，动态视觉标记越来越受到关注。生成动态视觉标记的关键在于区分信息丰富和信息贫乏的图像区域，并专注于信息丰富的区域。

标记剪枝是一种常用的生成动态标记的技术，它通过消除无信息的标记来降低计算复杂度。DynamicViT[22]和AdaViT[17]为每个视觉标记预测分数，并仅保留分数高的信息丰富的标记。PnP-DETR[23]也根据预测的分数选择信息丰富的标记。然而，分数低的标记由粗略的特征向量表示。Evo-ViT[24]根据分类标记的注意力权重区分信息丰富的标记，并用单个代表性标记表示无信息的标记。

标记剪枝方法旨在减少背景图像区域的计算成本，而其他方法则旨在增强图像特征的学习。DVT[25]根据输入图像的分类难度确定标记的分辨率，从而使更精细的标记能够表示复杂的图像。PS-ViT[26]逐渐调整图像块的中心，以使视觉标记集中在信息丰富的区域，并改善图像特征。

与先前的方法相比，我们TCFormer中的动态标记生成更加灵活。先前的方法仍然局限于基于网格的标记，其中标记剪枝调整网格块的数量，DVT调整网格尺度，而PS-ViT调整网格块中心。相反，我们的TCFormer不受基于网格的图像块的限制，并且在标记的形状和大小上都具有适应性。首先，TCFormer生成具有灵活形状的标记。我们的动态视觉标记根据语义含义对图像进行划分，并且不受空间关系的限制，允许甚至非相邻区域由单个标记表示。这种标记形状的灵活性增强了与图像中对象的对齐，改善了对象关系的学习。其次，TCFormer动态调整标记密度，为信息丰富的区域分配更多标记，以学习更具代表性的图像特征。第三，TCFormer为不同区域使用不同尺度的标记，能够通过精细标记表示图像细节来捕获详细信息。

最近，也出现了基于聚类的动态标记生成方法。[27]通过逐渐合并最相似的标记对来生成动态标记，而[28]则提出使用迭代局部聚类进行标记合并。这些工作与我们的TCFormer有相同的理念，即图像区域应根据语义含义而不是空间位置进行划分。虽然[27]和[28]都旨在通过减少标记数量来降低计算复杂度，但相比之下，我们的目标是通过动态标记来增强图像特征。
3 标记聚类Transformer

Token Clustering Transformer（TCFormer）的总体架构如图2所示。TCFormer采用流行的金字塔结构，由四个阶段组成。每个阶段由几个堆叠的Transformer块组成。在相邻阶段之间交错布置了一个基于聚类的标记合并（CTM）模块，以动态合并标记，并使每个阶段能够处理不同尺度的标记。第一阶段的视觉标记从高分辨率特征图初始化，特征图中的每个像素都被视为一个标记。在最终阶段之后，一个多阶段标记聚合（MTA）模块以视觉标记的形式集成多尺度特征，并输出一个图像特征金字塔，用于特定任务的处理。我们将在第3.1节中介绍初步版本（TCFormerV1），并在第3.2节中介绍新版本（TCFormerV2）。

3.1 TCFormerV1

3.1.1 Transformer块

图3展示了TCFormerV1中Transformer块的结构。由于视觉Transformer中通常存在大量标记，传统Transformer块中的全局注意力处理会导致不可接受的计算成本。为了解决这个问题，我们在注意力处理之前引入了一个标记减少层，以减少标记的数量。如图3(b)所示，空间标记减少（SR）层将视觉标记转换为特征图，然后使用卷积层降低特征图的分辨率。下采样的特征图随后被展平以形成键和值标记，从而减少标记的数量。在注意力处理之后，我们结合了一个深度卷积层来捕获局部信息，这在先前的工作如[4, 29, 13]中已被证明是有益的。
3.1.2 基于聚类的标记合并（CTM）模块

如图4所示，我们TCFormer中的基于聚类的标记合并（CTM）模块包括一个标记聚类和合并过程。给定前一阶段的视觉标记，CTM模块首先通过对标记特征应用聚类算法将标记分组为聚类，然后将同一聚类内的标记合并以生成后续阶段的新视觉标记。

标记聚类。对于标记聚类过程，我们利用了基于k最近邻（DPC-kNN）的密度峰值聚类算法的一个变体[30]，因为它简单且易于并行化。给定一组视觉标记 $X$ ，我们首先计算每个标记与其他标记之间的距离。然后，我们根据标记与其k最近邻之间的距离来估计局部密度 $\rho$ ：

$\rho_{i}=\exp \left(-\frac{1}{k} \sum_{x_{j} \in \operatorname{kNN}\left(x_{i}\right)}\left\|x_{i}-x_{j}\right\|_{2}^{2}\right)$

其中， $\operatorname{kNN}\left(x_{i}\right)$ 表示标记 $i$ 的k最近邻。 $x_{i}$ 和 $x_{j}$ 是它们对应的标记特征。

然后，对于每个标记，我们收集它与局部密度较高的标记之间的距离，并使用最小距离作为距离指标。距离指标较大的标记往往是局部密度峰值，并被认为是聚类中心的合适候选者。对于局部密度最高的标记，我们将其与其他标记之间的最大距离设置为其距离指标，以确保它具有最大的距离指标。

$\delta_{i}=\left\{\begin{array}{l} \min _{j: \rho_{j}>\rho_{i}}\left\|x_{i}-x_{j}\right\|_{2}, \text { 如果存在 } j \text { 使得 } \rho_{j}>\rho_{i} \\ \max _{j}\left\|x_{i}-x_{j}\right\|_{2}, \text { 否则 } \end{array}\right.$

其中， $\delta_{i}$ 表示距离指标， $\rho_{i}$ 表示局部密度。

最后，我们通过将每个标记的局部密度与其距离指标相乘来确定其得分，即 $\rho_{i} \times \delta_{i}$ 。得分较高的标记更有可能成为聚类中心。然后，选择得分最高的标记作为聚类中心，并将其余标记分配给最近的中心。

标记合并。标记合并过程旨在为每个聚类生成一个代表性的标记。一个简单的方法是直接计算聚类内标记特征的平均值。然而，这忽略了每个标记的不同重要性。受先前工作[22, 17, 23]的启发，我们根据标记的特征预测其重要性得分 $P$ ，以反映其重要性，并使用预测的重要性得分来指导标记特征的平均计算：

$y_{i}=\frac{\sum_{j \in C_{i}} e^{p_{j}} x_{j}}{\sum_{j \in C_{i}} e^{p_{j}}}$

其中， $C_{i}$ 表示第 $i$ 个聚类的集合， $x_{j}$ 和 $p_{j}$ 分别是原始标记特征和对应的重要性得分。 $y_{i}$ 是合并后标记的特征。

如图4所示，原始标记和合并后的标记被输入到后续的Transformer块中，其中合并后的标记作为查询（queries），原始标记作为键（keys）和值（values）。Transformer块旨在将特征从原始标记转移到合并后的标记上，同时将重要性得分 $P$ 融入注意力机制中以引导特征转移过程。

$\text {Attention }(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{d_{k}}+P\right) V$

其中， $d_{k}$ 是查询的通道维度。为了清晰起见，我们省略了多头设置和空间降维层。通过将标记重要性得分融入特征平均和注意力过程，我们确保了对输出动态标记有更大影响的关键视觉标记。

3.1.3 多阶段标记聚合（MTA）模块

多尺度特征的融合已被证明对各种任务有益[18, 19, 6]。先前的视觉Transformer[20, \underline{8}, \underline{13}]将视觉标记转换为特征图，并使用传统的卷积神经网络聚合多尺度特征。

然而，基于CNN的特征聚合模块不适用于我们的动态视觉标记。如图\underline{5}所示，TCFormer生成的视觉标记没有网格结构，并将精细的标记分配给包含复杂细节的图像区域。将我们的动态标记转换为低分辨率特征图（如先前工作[18, 19, 6]所做的那样）会导致细节丢失。相反，将标记转换为高分辨率特征图虽然保留了细节，但会产生不可接受的复杂性和内存开销。为了缓解这个问题，我们提出了一种新的基于Transformer的多阶段标记聚合（MTA）模块。

遵循流行的FPN[19]，我们的MTA模块逐步从更深阶段向更浅阶段聚合特征。我们首先对动态视觉标记进行上采样处理。如图\underline{6}(\mathrm{a})所示，在CTM模块中，我们将标记分组为多个聚类，并将每个聚类内的标记合并为一个单一标记。聚类结果被记录下来，用于标记上采样过程，其中合并标记的特征会根据记录的聚类结果复制到相应的上采样标记上。

通过标记上采样过程，我们可以系统地按阶段聚合特征。我们没有将视觉标记转换为特征图，而是引入了一个基于Transformer的多阶段标记聚合（MTA）模块，该模块旨在以标记格式聚合特征。如图\underline{6}(b)所示，最终阶段的视觉标记作为初始标记。在每一步中，MTA模块首先对标记进行上采样，确保上采样后的标记与前一阶段的标记具有相同的分布。随后，MTA模块将前一阶段的标记特征集成到上采样后的标记中，并将结果输入到Transformer块中。这个迭代过程持续进行，直到有效聚合了所有阶段的特征。最终，每一步的标记都被转换为金字塔特征图以供后续处理。

与将视觉标记转换为特征图的FPN不同，我们的MTA模块以标记格式聚合特征。这种方法在每个阶段都保留了细节，同时避免了处理高分辨率特征图，从而在性能和效率之间实现了和谐平衡。

3.2 TCFormerV2

TCFormerV1产生了灵活的动态标记，并在以人为中心的任务中取得了令人印象深刻的结果[15]。然而，原始的CTM模块在处理高分辨率输入图像时存在显著的复杂性。因此，我们通过引入一个新的局部CTM模块（第3.2.1节）来进一步增强TCFormerV1。为了充分挖掘动态标记的潜力，我们进一步提出了一个基于聚类减少的多阶段标记聚合（CR-MTA）模块（第3.2.2节）。

3.2.1 局部CTM

如第3.1.2节所述，原始CTM模块中使用的DPC-kNN算法[30]涉及计算每对标记之间的距离。这个过程产生的内存成本和计算复杂度与标记数量的平方成正比。因此，对于高分辨率的输入图像，早期阶段的原始CTM模块会导致不可接受的复杂度和内存使用量。

如图8所示，CTM模块在不同阶段表现出不同的效果。在早期阶段，它倾向于将视觉标记与其附近的标记合并，并将动态标记与物体边缘（如树枝和热气球）对齐。在深层阶段，CTM模块基于高级语义含义合并远处的标记，例如墙壁和天空区域。利用CTM模块的这一特性，我们引入了一个名为局部CTM模块的新模块，该模块在不牺牲性能的情况下降低了复杂度。为了参考，在后续部分中，原始CTM模块被称为全局CTM模块。

如图\mathbf{7}所示，局部CTM模块在早期阶段将动态标记分为多个部分，并对每个部分单独进行标记聚类过程。这种方法允许输出标记与物体边缘对齐，同时只需要计算相邻标记对之间的距离。假设我们将输入标记分为 $P$ 部分，输入标记的数量为 $N$ ，特征通道维度为 $C$ ，则全局聚类方法的计算复杂度为 $N^{2}C$ ，而局部聚类方法的复杂度为 $N^{2}C/P$ 。与前者相比，后者的复杂度降低了 $P$ 倍。

随着我们向更深的阶段推进，我们减少了局部CTM模块中使用的部分数量，以便于合并更远的标记。在最终阶段，我们将部分数量减少到1，并在该模块中执行原始的全局标记聚类。部分数量的逐渐减少使得在空间上相距较远但在语义上相似的图像区域可以由相同的标记来表示。我们将局部CTM模块集成到我们的TCFormerV2中。具体来说，我们在前两个局部CTM模块中分别使用了16和4个部分，在最后一个局部CTM模块中使用了1个部分。

在图8中，我们对比了全局CTM模块和局部CTM模块生成的动态标记。在早期阶段，即使部分数量相对较大，局部CTM模块也能生成与物体边缘对齐良好的动态标记。在深层阶段，我们局部CTM模块中的小部分数量能够实现长距离标记合并，生成与语义含义对齐良好的动态标记。总之，我们的局部CTM模块生成的标记分布与全局CTM模块相似，但复杂度显著降低。

3.2.2 基于聚类减少的MTA

如第3.1.3节所述，MTA模块采用Transformer块进行特征聚合，确保在我们动态标记内有效且高效地保留详细信息。然而，原始MTA模块中使用的普通Transformer块未能充分利用我们动态标记的优势，并需要进一步改进。

如第3.1.1节所述，我们的Transformer块在注意力过程之前包含一个空间标记减少（SR）层，以减少计算复杂度。虽然SR层简单且有效，但它破坏了视觉标记与图像中物体之间的对齐。具体来说，如图10(b)所示，我们的动态标记与输入图像中的物体对齐良好。这种对齐促进了对视觉标记更清晰的语义理解，并简化了物体关系的学习。然而，如图\underline{9}(d)所示，SR层的输出标记保持固定的基于网格的分布，从而导致对齐丢失。

CR Transformer块。为了解决这个问题，我们引入了一种专门为MTA模块定制的新型Transformer块。我们的提议以一个聚类标记减少（CR）层开始。如图\underline{9}(b)所示，CR层通过根据先前CTM模块生成的标记聚类结果合并它们来减少标记数量。CR层的输出与最终阶段的动态标记具有相同的分布，从而保持了标记与图像中物体之间的对齐。通过重用CTM模块的聚类结果，CR层不会增加额外的计算负担，并且比SR层更高效。如图9(a)所示，我们通过将普通Transformer块中的SR层替换为新的CR层来构建新的CR Transformer块。

CR-MTA模块。我们通过将普通的SR Transformer块替换为CR Transformer块来引入新的CR-MTA模块，并将CR-MTA模块集成到TCFormerV2中。由于CR块依赖于聚类结果，我们将其应用限制在MTA模块中，并在之前的阶段保留SR块。图10展示了CR-MTA模块和原始MTA模块（在后续部分中称为SR-MTA模块）中注意力权重的视觉对比。如图10©所示，CR层的输出标记在输入图像中的人物和飞机之间展示了令人称赞的对齐。因此，如图10(e)所示，CR-MTA模块中的注意力权重与人体轮廓的清晰轮廓对齐，包括手指等详细部分。相比之下，如图\underline{g}(f)所示，SR-MTA模块中的注意力权重仅对应于粗略的人体轮廓。

3.3 TCFormer变体的比较

TCFormerV1与TCFormerV2之间的差异概述如下：

TCFormerV1：TCFormerV1利用全局CTM模块生成动态标记，并使用SR-MTA模块聚合标记特征。该模型用于初步论文[15]中。

TCFormerV2：TCFormerV2是TCFormerV1的改进版本，通过引入局部CTM模块和CR-MTA模块来实现。与TCFormerV1相比，TCFormerV2更高效，并且能更有效地学习物体关系。

4 实验

在本节中，我们将TCFormerV1和TCFormerV2应用于多种计算机视觉任务，包括图像分类、人体姿态估计、语义分割和对象检测。在图像分类方面，TCFormerV1和TCFormerV2均优于其同类模型。然而，TCFormerV2的复杂度更低。在人体姿态估计方面，TCFormerV1取得了令人印象深刻的性能，而TCFormerV2进一步将性能提升至新的最先进水平。在语义分割方面，TCFormerV1超越了基于网格的视觉Transformer，但涉及过多的复杂度。相反，TCFormerV2以显著较低的复杂度实现了更好的性能。对于对象检测，我们仅应用了TCFormerV2，因为TCFormerV1的内存成本过高，无法接受。TCFormerV2在对象检测方面，特别是小对象检测方面，表现出优于同类模型的性能。详细结果如下。

4.1 图像分类

设置。我们在ImageNet-1K数据集[40]上训练我们的TCFormer，该数据集包含1280万张训练图像和50,000张验证图像，跨越1000个类别。实验设置与PVT[20]一致。我们采用了随机裁剪、随机水平翻转[41]、标签平滑[42]、Mixup[43]、CutMix[44]和随机擦除[45]等数据增强方法。所有模型均从头开始训练300个周期，批量大小为128。模型使用AdamW[46]优化器进行优化，动量为0.9，权重衰减为 $\times 10^{-2}$ 。初始学习率设置为 $\times 10^{-3}$ ，并遵循余弦调度[47]进行衰减。我们在验证集上使用 $224 \times 224$ 的中心裁剪区域来评估我们的模型。

结果。我们在表!中展示了在ImageNet1K验证集上，我们提出的TCFormer与最先进方法的比较。TCFormerV1在传统卷积骨干和Transformer骨干上均表现出优越性。具体而言，TCFormerV1达到了 $82.4\%$ 的top-1准确率，这比ResNet50[32]高出 $6.3$ 个百分点，比Swin-T[8]高出 $1.1\%$ ，比PVT[20]高出 $2.6\%$ 。这证明了我们的动态标记的有效性。然而，由于全局聚类过程，尽管TCFormerV1的参数数量与其他最先进模型相当，但其计算复杂度相对较高。相反，TCFormerV2在保持与TCFormerV1相似性能的同时，显著降低了计算复杂度。例如，TCFormerV2-Small的性能与TCFormerV1相同，但GFLOPs减少了 $23.7\%$ 。在其他模型规模中也观察到了类似的趋势，这突出了我们在TCFormerV2中新提出的局部CTM模块的高效性和有效性。

与集成了增强Transformer块的方法（如iFormer[39]）相比，TCFormer达到了可比的性能。我们的动态标记与更先进的Transformer块的结合可能为实现卓越性能提供了一条有前景的途径。尽管局部CTM模块降低了计算复杂度，但TCFormer的吞吐量仍低于具有固定网格结构的方法。这一局限性源于我们的动态标记与现有基于网格的卷积层之间的固有不兼容性。TCFormer中使用的卷积层导致了动态标记和特征图之间耗时的转换。要解决这一挑战，需要开发对动态标记友好的新Transformer模块或引入新的硬件支持。
4.2 人体姿态估计

人体姿态估计旨在在输入图像中定位预定义的关键点，也称为身体关节。当前的方法可以分为两类：基于热图的方法和基于回归的方法。为了全面评估TCFormer的性能，我们将TCFormer骨干网络应用于基于热图和基于回归的算法中。

4.2.1 基于热图的方法

设置。我们在COCO-WholeBody V1.0数据集[55, 56]上进行实验。COCO-WholeBody数据集是一个基于广为人知的COCO数据集[57]构建的大规模二维全身姿态估计基准，包含超过20万个实例标注，针对133个预定义的关键点，其中包括17个身体关键点、6个脚部关键点、68个面部关键点和42个手部关键点。遵循[57, 55, 56]，我们使用基于OKS（对象关键点相似度）的平均精度（AP）和平均召回率（AR）来评估模型性能。我们采用MMPose[48]的默认训练和评估设置，仅将Adam优化器[58]替换为具有0.9动量和 $\times 10^{-2}$ 权重衰减的AdawW优化器[46]。

结果。表 $KaTeX parse error: Undefined control sequence: \Perp at position 12: \underline{\̲P̲e̲r̲p̲}$ 展示了在COCO-WholeBody V1.0数据集[56]上的结果。我们将TCFormer与之前的最先进方法进行了比较，如HRNet[18]和ZoomNet[55]。TCFormerV1以较大优势超越了之前的最先进方法，而TCFormerV2进一步提高了性能并降低了计算复杂度。在输入分辨率为 $256 \times 192$ 的情况下，TCFormerV2-Small达到了 $57.5\% \mathrm{AP}$ 和 $68.2\% \mathrm{AR}$ 的性能，分别比HRNet-w32高出 $2.2\% \mathrm{AP}$ 和 $5.6\% \mathrm{AR}$ 。在更高的输入分辨率和更大的模型下，TCFormerV2-Base达到了新的最先进性能，即 $65.1\% \mathrm{AP}$ 和 $74.2\% \mathrm{AR}$ ，分别比HRNet48高出 $2.0\% \mathrm{AP}$ 和比SBL-Res152[54]高出 $4.1\% \mathrm{AP}$ 。TCFormer的改进归功于其卓越的细节捕捉能力。人手具有复杂的结构，但在输入图像中通常占据较小的区域，这对模型重建手部关键点构成了挑战。如表 $\underline{\|}$ 所示，大多数模型在手部关键点估计上的表现远逊于其他部位。相比之下，我们的TCFormer能够更好地捕捉图像细节，因为它使用更精细的视觉标记来表示细节，从而在手部关键点估计上取得了显著改进。具体而言，TCFormerV2-Small在手部关键点上的 $\mathrm{AP}$ 比HRNet-w32高出 $6.2\%$ ，而TCFormerV2-Base则比HRNet-w48高出 $3.9\%$ 。我们在图11中展示了TCFormer的一些定性结果，展示了TCFormer-Base的一些定性结果。

4.2.2 基于回归的方法

设置。我们选择COCO[57]数据集来评估TCFormer在基于回归的人体姿态估计中的性能。COCO是一个大规模的人体姿态估计数据集，包含超过25万个实例标注，针对17个预定义的人体关键点。我们将TCFormer骨干网络应用于RLE[63]框架，并遵循MMPose[48]的默认训练和评估设置。所有比较的方法都使用在ImageNet1K[40]数据集上预训练的权重。由于RLE是基于回归的方法，因此它不需要密集输出。因此，我们在实验中不使用MTA模块。相反，我们直接从最后一阶段的平均标记特征中回归关键点位置，这与图像分类的设置类似。

结果。我们在图12中展示了TCFormer的一些定性结果。表 $\underline{I}$ 展示了在COCO验证集上TCFormer与其他最先进方法的比较。TCFormer在基于卷积的模型（RLE[63]+ResNet[32]）和基于Transformer的模型（TransPose[62]）上都有很大的优势。在相似的计算复杂度下，RLE+TCFormerV2-Base比RLE+ResNet152高出 $2.9\% \mathrm{AP}$ ，比TransPose-R-A4高出 $3.4\% \mathrm{AP}$ 。在更高的输入分辨率下，RLE+TCFormerV2-Base达到了 $77.1\% \mathrm{AP}$ 的新最先进性能。我们还在表 $\underline{I V}$ 中报告了TCFormer在COCO测试集上的性能。RLE+TCFormerV2-Base以 $76.1\% \mathrm{AP}$ 的成绩超越了其他最先进的基于回归的方法。值得注意的是，虽然RLE+HRNet使用密集特征图和更复杂的预测头，但RLE+TCFormer仅使用简单的回归头。

4.3 语义分割

设置。我们在ADE20K数据集[72]上进行实验，该数据集是语义分割领域的一个大规模基准。ADE20K包含25K张带有150个类别标注的图像，并分别划分为20K、2K和3K张图像用于训练、验证和测试。我们的方法TCFormer应用于两个不同的框架：传统的基于卷积的框架Semantic FPN[73]和更近的基于Transformer的框架Mask2Former[10]。在所有情况下，我们都使用在ImageNet-1K上预训练的权重来初始化骨干网络。对于Semantic FPN框架，我们使用TCFormer作为骨干网络，并用我们提出的MTA模块替换FPN[19]模块。我们遵循PVT[16]的实验设置。在训练过程中，图像被随机调整大小和裁剪到 $512 \times 512$ 。而在评估时，图像被调整大小，使得较短的边有512个像素。我们以批量大小为16训练我们的模型40k次迭代，并使用AdamW优化器进行模型优化。初始学习率设置为 $\times 10^{-4}$ ，并按照幂为0.9的多项式衰减计划进行衰减。对于Mask2Former框架，我们将TCFormer实现为骨干网络，并用我们的MTA模块替换像素解码器。我们遵循[10]的实验设置。所有模型都使用AdamW优化器进行160k次迭代优化，初始学习率为 $\times 10^{-4}$ ，权重衰减为0.05。我们使用多项式计划来衰减学习率。
结果。图 $\underline{13}$ 展示了TCFormer与Semantic FPN框架的定性结果。在表 $\underline{v}$ 中，我们将TCFormer与其他基于Semantic FPN框架的最先进方法进行了比较。我们的方法TCFormer在CNN模型（ResNet[32]）和Transformer模型（PVT[20]）上都有显著优势。具体来说，TCFormerV2-Small的mloU比ResNet50高出11.1个百分点，比PVTV2-B2[16]高出2.6个百分点。然而，当输入分辨率为 $512 \times 512$ 时，TCFormerV1中使用的全局令牌聚类方法会导致不可接受的计算复杂度，这从表 $\underline{v}$ 中TCFormerV1模型的巨大GFLOPs值可以反映出来。通过使用局部CTM模块，TCFormerV2在所有模型规模下都实现了更好的性能，同时节省了大量的计算复杂度。与TCFormerV1相比，TCFormerV2-Small在仅使用 $\%$ GFLOPs的情况下，实现了 $\%$ 的mloU性能提升。

在表VI中，我们展示了基于Mask2Former框架的TCFormer的结果。在所有模型规模下，TCFormer在ResNet和Swin模型上都有很大的优势。TCFormer中使用的动态视觉令牌使模型能够根据图像的语义意义分配计算成本，从而使TCFormer比传统的视觉Transformer更加高效。具体来说，在 $640 \times 640$ 的分辨率下，TCFormerV2-Base比Swin-B高出 $\%$ 。

4.4 目标检测

设置。我们在知名的COCO 2017基准数据集[57]上进行目标检测实验。COCO 2017数据集包含118K张训练图像和5K张验证图像，并为80个对象类别提供了标注。为了评估TCFormer的有效性，我们将其用作RetinaNet[77]和Mask-RCNN[65]的骨干网络。此外，我们还用我们的MTA模块替换了RetinaNet和Mask-RCNN框架中的FPN模块，以充分利用我们动态令牌的优势。我们遵循MMDetection[78]的大多数默认设置，但使用AdamW优化器优化模型，初始学习率为 $\times 10^{-4}$ 。我们采用常见的 $\times$ 和 $\times$ 设置以进行公平比较。

结果。TCFormer与Mask R-CNN的定性结果如图14所示。如表VII所示，TCFormer在RetinaNet框架上的表现优于其他模型。具体而言，TCFormerV2-Small的mAP比Swin-T[8]高3.5个百分点，比PVT-Small[20]高4.6个百分点。与生成基于网格的视觉令牌的视觉转换器相比，TCFormer在检测小对象方面的优势尤为显著。例如，在检测小对象的度量（ $\mathrm{AP}_{\mathrm{S}}$ ）上，TCFormerV2-Small比PVTV2-B2[16]高出 $\%\mathrm{AP}$ ，而在整体度量上的改进为 $\%\mathrm{AP}$ 。这表明TCFormer中使用的动态视觉令牌在捕获小尺寸图像细节方面非常有效，符合我们的目标。

在表VII中，我们报告了在Mask R-CNN框架下目标检测和实例分割的结果。结果表明，TCFormer的性能优于其同类方法。例如，在 $\times$ 设置下，TCFormerV2-Small在目标检测上的AP（平均精度）比Swin-T高出 $3.9\%$ ，在实例分割上的AP高出 $2.8\%$ 。同样，与PVTv2-B2相比，TCFormerV2-Small在目标检测上的AP提升了 $0.8\%$ ，在实例分割上的AP提升了 $0.7\%$ 。在RetinaNet和Mask R-CNN框架中观察到的一致改进，证明了我们TCFormer的普遍优势和有效性。

5 分析
5.1 消融研究

模型组件。我们使用ADE20K基准数据集对语义分割任务进行了消融分析。我们将TCFormerV2-Small集成到Semantic FPN框架中，并在表VIII中展示了结果。实验设置与第4.3节中概述的保持一致。

全局CTM模块（mloU增加 $0.9\%$ ）和局部CTM模块（mloU增加 $0.5\%$ ）的显著提升，证实了我们动态视觉标记在图像特征学习中的优势。然而，全局CTM模块涉及的高复杂度（ $42.1$ GFLOPs）使其在实际应用中并不切实际。相比之下，局部CTM模块要高效得多，仅涉及 $5.6$ GFLOPs，比全局CTM模块少了 $86.7\%$ 。

如第3.13节所述，传统的基于CNN的特征聚合模块无法充分利用我们动态视觉标记捕获的细节。为了证明我们的观点，用我们的MTA模块替换FPN模块后，进一步提升了性能，这证明了MTA模块设计的有效性。与原始的SR-MTA模块相比，CRMTA模块既更有效也更高效。CR-MTA模块减少了参数和复杂度，但在使用全局CTM模块时比SR-MTA模块的性能提升了 $0.5\% \mathrm{mloU}$ ，在使用局部CTM模块时提升了 $0.7\% \mathrm{mloU}$ 。实验结果证明，CR-MTA模块能够充分利用我们动态标记的优势，如第3.2.2节所示。

聚类方法。我们通过将不同的聚类方法集成到TCFormerV2-Small模型中，并在ImageNet验证集上评估它们的性能，来评估这些聚类方法的影响。结果详见表\underline{IX}。对于K-means算法，我们遵循[28]中的方法，使用特征图上的自适应平均池化来初始化聚类中心，然后通过10次迭代更新聚类结果。二分软匹配（BSF）方法[27]将标记分为两组，并合并这两组之间相似度最高的标记对。由于单个BSF步骤无法将标记数量减少到原始数量的四分之一，我们在每个阶段的末尾采用5个BSF步骤，以实现与其他方法相同的标记减少量。重要的是要注意，在更改聚类方法后，我们没有对模型进行进一步的微调。

如表\underline{X}所示，我们的模型对不同聚类方法表现出鲁棒性。在没有额外微调的情况下，使用局部DPC-kNN算法训练的模型能够很好地适应其他聚类方法，表现出可忽略不计的性能下降。最终，我们选择局部DPC-kNN算法，因为它更高效。
5.2 标记分布

图15展示了TCFormer在不同任务（包括图像分类、人体姿态估计、语义分割和目标检测）中生成的动态视觉标记的一些示例。这些示例展示了我们的动态视觉标记的优势。

首先，如图15所示，TCFormer生成的动态标记与输入图像中的对象很好地对齐。这种对齐相比传统的基于固定网格的标记提供了更清晰的语义意义，从而有助于学习标记特征和对象关系。其次，TCFormer利用精细的标记来表示小尺寸中的复杂细节，如图15(b)中的人手和图15(d)中的风筝。使用精细标记来表示这些细节使得TCFormer能够更有效地捕获详细信息。

第三，TCFormer根据当前任务调整标记分布，并将更多标记分配给关键区域，从而使模型能够专注于这些区域并学习更好的图像表示。对于图像分类和人体姿态估计任务，输入图像中通常有一个明确的主体。如图15(a)和图15(b)所示，TCFormer将背景区域与属于主体的区域区分开来，并将大部分标记分配给后者。相反，背景区域仅由少数视觉标记表示。在语义分割和目标检测任务中，由于通常没有明确的主体，TCFormer根据图像区域中的信息量来调整标记分布。如图15©和图15(d)所示，TCFormer用较少的标记表示简单区域，并将更多标记分配给复杂区域。值得注意的是，即使在图像分类和人体姿态估计任务中，复杂的背景也不会消耗更多标记，如图15(b)中的示例所示，因为这些任务不需要背景信息。为了进一步支持我们的结论，我们训练了两个模型来分别估计人手和人脸关键点。这两个模型生成的动态标记如图16所示。任务特定的动态标记表明，TCFormer能够自动为不同任务调整标记分布，并关注关键区域。
6 结论

在本文中，我们提出了标记聚类Transformer（TCFormer），这是一种新颖的基于Transformer的架构，适用于广泛的视觉任务。TCFormer生成动态标记，这些标记增强了模型关注关键区域并保留复杂细节的能力，同时忽略不必要的背景信息。我们在多个视觉任务上进行了广泛的实验，包括图像分类、人体姿态估计、语义分割和对象检测，实验结果表明，TCFormer在保持相当参数数量的同时，优于最先进的基于Transformer的主干网络。我们认为TCFormer具有应用于多种领域的潜力。我们希望我们的研究能够激发对动态视觉标记领域的进一步探索，推动更先进架构的发展。