GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model

1.介绍
2.相关工作
3.方法
- 3.1预备知识
- 3.2整体架构
- 3.3调制组Mamba层
- - 3.3.1视觉单一选择性扫描（Visual Single Selective Scan，简称VSSS）块
  - 3.3.2分组Mamba操作
  - 3.3.3通道亲和调制（Channel Affinity Modulation，简称CAM）
- 3.4蒸馏损失函数
4.实验
- 4.1图像分类
- 4.2目标检测和实例分割
- 4.3语义分割
- 4.4消融研究
5.结论

GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model
GroupMamba: 高效参数且准确的群体视觉状态空间模型
(还没整理完成，未完待续，公式待编辑。。。。。。。。。。。。。。。。。。。。。。)
在这里插入图片描述

论文地址：官方论文
代码地址：官方代码
摘要近期状态空间模型（SSMs）的发展展示了在建模长距离依赖性方面具有有效性能，并且具有次二次复杂度。然而，基于纯SSM的模型仍然面临稳定性和在计算机视觉任务上实现最优性能的挑战。我们的论文针对将基于SSM的模型扩展到计算机视觉的挑战，特别是大型模型尺寸的不稳定性与效率问题。为了解决这些问题，我们引入了一种调制的GroupMamba层，它将输入通道分为四组，并对每组独立应用我们提出的基于SSM的高效视觉单一选择性扫描（VSSS）块，每个VSSS块在一个四个空间方向中的一个方向上进行扫描。调制的GroupMamba层还将四个VSSS块封装到一个通道调制操作符中，以改善跨通道通信。此外，我们引入了一种基于蒸馏的训练目标，以稳定大型模型的训练，从而实现一致的性能提升。我们全面的实验展示了所提出贡献的优势，实现了在ImageNet-1K图像分类、MS-COCO目标检测、实例分割以及ADE20K语义分割上超越现有方法的卓越性能。我们的小型变体，拥有2300万个参数，在ImageNet-1K上达到了83.3%的分类top-1准确率，与相同模型大小的最佳现有Mamba设计相比，在参数效率方面提高了26%。

解释：1.“建模长距离依赖性方面”：意思模型能够理解和利用数据中相隔较远的信息点之间的关系，比如很远距离或者很长时间之前信息的情况。在很多情况下，数据中的某些特征或者事件可能会对后续很远的特征或者事件产生影响，这种影响可以跨越大量的数据点。比如，在自然语言处理中，一个句子的开头的词可能对句子末尾的词有影响，尽管它们之间隔着很多其他词。在这种情况下，一个能够建模长距离依赖性的模型就能够捕捉到这种跨越整个句子的联系。
在时间序列分析中，比如股票价格的预测，今天的股价可能受到很久以前某一天股价变动的影响。一个能够建模长距离依赖性的模型就能够识别并利用这种历史信息来做出更准确的预测。
状态空间模型（State Space Models，简称SSMs）是一种用于描述系统随时间变化的数学模型。这种模型特别适用于那些我们能够观测到的数据（称为观测数据）和系统内部状态之间存在关系的情况。通俗来说，状态空间模型就像是给系统拍了一系列快照，每张快照都捕捉了系统在特定时间点的状态。2.“状态空间模型”：通常包含两个主要部分：**状态方程（State Equation）**：这部分描述了系统状态如何随时间变化。状态可以是任何东西，比如一个物体的位置和速度，或者一个经济模型中的各种经济指标。状态方程告诉我们，当前状态是如何从前一个状态演变而来的。**观测方程（Observation Equation）**：这部分描述了我们如何从系统状态中得到观测数据。在实际应用中，观测数据可能因为测量误差而不完全准确，观测方程就包含了这种不确定性。举个例子，假设我们正在跟踪一个在直线上移动的物体。在状态空间模型中：- 状态方程可能会告诉我们，物体的下一个位置（状态）是基于它当前的位置和速度，再加上一个加速度（可能受到外力影响）。
- 观测方程可能会描述我们如何通过测量设备来观测物体的位置，这个测量可能会有一些误差。状态空间模型的一个关键优势是它们可以处理噪声和不确定性。在现实世界中，我们很少能获得完美无缺的数据，状态空间模型通过数学方法来估计系统的真实状态，即使观测数据中存在噪声。在机器学习和数据科学领域，状态空间模型被用来预测时间序列数据，如股票价格、天气变化、用户行为模式等。它们也可以用于控制系统，比如自动驾驶汽车的导航系统，或者工业自动化中的机器人运动控制。3.蒸馏"蒸馏"（Distillation）通常指的是一种模型压缩技术，它用于简化复杂模型（通常称为"教师模型"）的知识，并将这些知识转移到一个更小、更高效的模型（通常称为"学生模型"）。这种方法可以帮助我们在保持模型性能的同时，减少模型的计算资源需求，使其更适合在资源受限的环境中使用，比如移动设备或嵌入式系统。蒸馏的过程通常包括以下几个步骤：训练教师模型：首先，训练一个大型且复杂的模型，这个模型能够学习到数据中的复杂特征和模式。生成软标签：教师模型不仅输出最终的预测结果（硬标签），还会输出每个类别的置信度分布（软标签）。软标签包含了更多的信息，因为它反映了模型对每个类别的不确定性。训练学生模型：接着，使用教师模型的软标签来训练一个更小的模型。学生模型学习模仿教师模型的输出，而不是直接学习原始数据。优化和调整：在训练过程中，可能会对教师模型和学生模型进行一些调整，以确保学生模型能够有效地学习教师模型的知识。

1.介绍

在语言和视觉理解领域，出现了各种上下文建模方法。这些方法包括卷积、注意力机制，以及最近的状态空间模型。具有多头自注意力机制的Transformer一直是语言模型（如GPT-3）和视觉模型（如Vision Transformers）的核心。然而，由于注意力机制的计算复杂度是二次方的，特别是在处理较长序列时，这导致了计算复杂度的挑战，进而催生了像S4这样的状态空间模型的出现。

尽管S4在处理扩展输入序列方面有效，因为它在序列长度方面的复杂度是线性的，但它在全局上下文处理方面遇到了限制，尤其是在信息密集的数据中，如计算机视觉领域，这是由于模型与数据无关的特性。作为替代，已经提出了基于全局卷积的状态空间模型和Liquid S4等方法来减轻上述限制。最近提出的Mamba引入了S6架构，旨在增强状态空间模型有效处理长距离依赖的能力。Mamba引入的选择性扫描算法使用依赖于输入的状态空间参数，这允许在保持计算效率的同时，更好地进行上下文学习，与自注意力相比。

然而，Mamba，特别是S6算法，被认为在例如图像分类等任务中不稳定，尤其是当扩展到大型尺寸时。此外，通常用于图像分类的Mamba模型变体，通常称为VSS（视觉状态空间）块，可以根据输入通道的数量，在参数和计算需求方面更加高效。VSS块包括广泛的输入和输出投影以及深度卷积，其参数和计算复杂度与输入通道的数量直接成比例。为了解决这个问题，我们提出了一种调制的Group Mamba层，以计算和参数高效的方式缓解上述问题。我们论文的主要贡献是：

我们引入了一种受组卷积启发的调制Group Mamba层，通过使用多方向扫描方法实现全面的空域覆盖和有效建模局部及全局信息，从而增强状态空间模型的计算效率和交互性。
我们引入了一种通道亲和调制（Channel Affinity Modulation, CAM）操作符，它增强了跨通道的通信以改善特征聚合，解决了分组操作中固有的有限交互问题。
我们采用基于蒸馏的训练目标，进一步稳定了具有大量参数的模型训练。
我们构建了一系列基于提出的调制Group Mamba层的参数高效通用分类模型，称为“GroupMamba”。我们的小型变体在ImageNet-1k[9]上实现了83.3%的top-1准确率，参数量为2300万，计算量为4.6G FLOPs。此外，我们的基准变体在参数量为5700万，计算量为14G FLOPs的情况下，达到了84.5%的top-1准确率，超越了所有最近的SSM方法（见图1）。

图1：左侧：在ImageNet-1k上参数量与top-1准确率的比较。我们的GroupMamba-B在减少36%的参数量的同时，实现了优于VMamba的top-1分类准确率。右侧：GroupMamba-T在语义分割（右上角）以及目标检测和实例分割（右下角）上的定性结果。更多的定性示例在图3和图4中展示。

2.相关工作

卷积神经网络（ConvNets）自从AlexNet引入以来，一直是计算机视觉任务的热门选择。随着多个具有里程碑意义的ConvNet架构的出现，这个领域迅速发展。除了这些架构上的进步，还对单个卷积层进行了显著的改进，包括深度卷积、组卷积和可变形卷积。最近，ConvNeXt变体通过结合宏观设计、高级设置和训练方法，朝着现代化传统2D ConvNets迈出了具体步骤，以实现与最先进模型相当的性能。

近年来，开创性的Vision Transformer（ViT）对计算机视觉领域产生了显著影响，包括图像分类、目标检测和分割等任务。ViT引入了一种单一设计，它将图像视为一系列展平的2D块，而不依赖于图像特定的归纳偏置。ViT在计算机视觉任务上的卓越性能及其可扩展性，激发了众多后续努力去设计更好的架构。早期基于ViT的模型通常需要大规模数据集（例如，JFT-300M）进行预训练。后来，DeiT提出了先进的训练技术，并在架构中整合了一个蒸馏标记，使得在较小的数据集（例如，ImageNet-1K）上也能有效地训练。从那时起，后续研究设计了层次化和混合架构，通过结合CNN和ViT模块来提高不同视觉任务的性能。另一条研究线路是为了减轻自注意力固有的二次复杂度，这是ViTs的主要瓶颈。这一努力带来了显著的改进和更高效、更近似的变体，在保持有效性的同时降低了复杂度。

最近，状态空间模型（SSMs）作为ViTs的替代方案出现，捕捉语言序列中的复杂动态和相互依赖性。在这个领域中，一个值得注意的方法是结构化的状态空间序列模型（S4），旨在处理长距离依赖性的同时保持线性复杂度。沿着这个方向，已经提出了几种模型，包括S5、H3和GSS。最近，Mamba引入了一个依赖于输入的SSM层，并利用了并行的选择性扫描机制（S6）。

在视觉领域，各种研究工作已经将状态空间模型（SSMs）应用于不同的任务。特别是对于图像分类，VMamba 使用Mamba在层次化的Swin-Transformer 风格设计中进行双向扫描，以高效构建全局感受野。同时进行的工作，Vision Mamba（Vim），提出了一个单一的双向扫描的整体设计，超越了像DeiT这样的传统视觉Transformer。LocalVMamba 通过引入在不同窗口内（受Swin-Transformer 启发）的扫描方法，并结合跨网络层的动态扫描方向，解决了捕获详细局部信息的挑战。EfficientVMamba 整合了基于空洞的有选择性扫描和双路径模块，用于高效的全局和局部特征提取，实现了在降低计算复杂度的同时具有竞争力的结果。这些模型已经被应用于图像分类，以及图像分割、视频理解和其他各种任务。它们的广泛应用显示了SSMs ，特别是Mamba 在视觉领域的有效性。在本文中，我们提出了一种调制的Group Mamba层，它缓解了默认视觉Mamba块的缺点，例如稳定性不足以及相对于通道数量参数数量的增加。

3.方法

动机：我们的方法是基于对现有视觉状态空间模型局限性的观察而受到启发的。
• 大型模型稳定性不足：我们从中观察到，基于Mamba的图像分类模型在参数数量增加到较大规模时，使用MLP通道混合器时会表现出不稳定。这种不稳定性可以在SiMBA-L (MLP)中看到，导致分类准确率仅为49%的次优结果。我们通过引入调制的Group Mamba设计以及蒸馏目标（如第3.4节所述）来缓解这个问题，这样可以在不修改通道混合器的情况下稳定Mamba SSM的训练。
在这里插入图片描述图2：所提方法的概述。顶行：我们框架的整体架构，包括四个阶段的一致层次化设计。底行：我们展示了 (b) 调制组Mamba层的设计。输入通道被分成四组，每个VSSS块有一个单一的扫描方向。与标准Mamba层相比，这显著降低了计算复杂度，同时保持了类似的性能。引入了通道亲和调制机制，以解决VSSS块内部交互有限的问题。（c）VSSS块的设计。它由Mamba块、1D选择性扫描块和FFN组成。 (d) 为四个VSSS块使用的四种扫描方向进行了说明。

• 高效改进的交互：鉴于基于Mamba的设计对通道数量的计算影响，所提出的调制组Mamba层在计算上是经济的，并且在参数上比默认的Mamba更高效，能够通过多方向扫描从输入令牌中建模局部和全局信息。在这项工作中，为了补偿由于分组操作导致的有限通道交互，我们提出了一个额外的通道亲和调制操作符。

3.1预备知识

状态空间模型：状态空间模型（SSMs），如S4和Mamba，是由循环神经网络（RNNs）和卷积神经网络（CNNs）的结合启发的结构化序列架构，它们在序列长度上具有线性或近乎线性的扩展性。SSMs源自连续系统，通过一个隐藏状态h(t) ∈ R^N，为输入x(t) ∈ R^L定义了一个从1维函数到1维函数的映射y(t) ∈ R^L。更正式地说，SSMs由方程1中的连续时间常微分方程（ODE）描述。
在这里插入图片描述
其中 h(t) 是当前的隐藏状态， h’(t) 是更新后的隐藏状态， x(t) 是当前输入，y(t) 是输出，A ∈ R^N×N 是SSM的演化矩阵，B ∈ R^N*1，C ∈ R^N*1分别是输入和输出投影矩阵。

离散状态空间模型：为了使这些模型能够在深度学习中的序列建模任务中使用，它们需要被离散化，将SSM从连续时间的函数到函数的映射转换为离散时间的序列到序列的映射。S4和Mamba是连续系统的离散适应之一，它们引入了一个时间尺度参数∆，将连续参数A, B转换为它们的离散等效物A, B。这种离散化通常是通过方程2中给出的零阶保持（Zero-Order Hold，ZOH）方法来完成的。
在这里插入图片描述
虽然S4和Mamba都使用了如上所述的方程2中的类似离散化步骤，但Mamba通过S6选择性扫描机制，将参数∆ ∈ R^B×L×D, B ∈ R^B×L×N 和 C ∈ R^B×L×N 与输入x ∈ R^B×L×D 相关联，从而与S4有所区别，其中B是批量大小，L是序列长度，D是特征维度。

3.2整体架构

如图2(a)所示，我们的模型使用了类似于Swin Transformer的层次化架构，通过四个阶段高效处理不同分辨率的图像。假设有一个输入图像 I ∈ R^H×W×3，我们首先应用一个Patch Embedding层将图像划分为不重叠的4×4大小的块，并将每个块嵌入到一个 C1 维的特征向量中。Patch embedding层使用两个步长为2的3×3卷积实现。这在第一阶段产生了大小为 $\frac{H}{4}$ × $\frac{W}{4}$ × C1的特征图。这些特征图被传递到我们的调制分组Mamba块的堆叠中（详见第3.3节）。在每个后续阶段，一个下采样层合并2×2区域内的块，然后是另一个我们的调制分组Mamba块的堆叠。因此，第二、第三和第四阶段的特征大小分别是 $\frac{H}{8}$ × $\frac{W}{8}$ × C2, $\frac{H}{16}$ × $\frac{W}{16}$ × C3，和 $\frac{H}{32}$ × $\frac{W}{32}$ × C4

3.3调制组Mamba层

我们展示了所提出的调制组Mamba层（图2 (b)）对输入序列 Xin 的整体操作，输入序列的维度为 (B, H, W, C) ，其中 B 是批量大小，C 是输入通道数， H/W 是特征图的宽和高，如方程3所示。
在这里插入图片描述
在这里，== XGM 是方程6的输出， XCAM 是方程9的输出，LN 是层归一化（Layer Normalization）[1]操作， FFN 是前馈网络（Feed-Forward Network），如方程5所述，Xout 是调制组Mamba块的最终输出。各个操作，即分组Mamba操作符、分组Mamba操作符内使用的VSSS块，以及CAM操作符，分别在第3.3.1节、第3.3.2节和第3.3.3节中介绍。==

3.3.1视觉单一选择性扫描（Visual Single Selective Scan，简称VSSS）块

VSSS块（图2 ©）是基于Mamba操作符的令牌和通道混合器。在数学上，对于输入令牌序列 Zin ，VSSS块执行方程4中描述的操作。
在这里插入图片描述
其中 ( Zout ) 是输出序列，Mamba 是如方程2中描述的Mamba SSM操作符的离散化版本。

其中 GELU [24] 是激活函数，( W1 )、( W2 )、( b1 ) 和 ( b2 ) 是线性投影的权重和偏置。

3.3.2分组Mamba操作

考虑到第3节前面提出的动机，我们旨在设计一种既计算效率高又能有效模拟输入序列空间依赖性的Mamba变体。鉴于Mamba在处理大量通道C的输入序列时计算效率不高，我们提出了一种受分组卷积启发的操作符变体。分组Mamba操作是第3.3.1节中介绍的VSSS块的变体，其中输入通道被分成组，并且VSSS操作符分别应用于每个组。具体来说，我们将输入通道分成四组，每组大小为 $\frac{C}{4}$ ，并分别对每组应用一个独立的VSSS块。为了更好地模拟输入中的空间依赖性，这四组中的每组都在令牌序列中沿着四个方向之一进行扫描：从左到右、从右到左、从上到下、从下到上，如图2 (d)所示。

设 $G = 4$ 代表四个扫描方向：从左到右、从右到左、从上到下、从下到上。我们从输入序列 $X in$ 形成四个序列，即 $X L R$ ， $XR L$ ， $XTB$ ，和 $XBT$ ，每个序列的形状为 $\frac{C}{4})$ ，分别代表前面指定的四个方向之一。然后将这些序列展平，形成一个形状为 $\frac{C}{4})$ 的单个令牌序列，其中 ( N = W \times H ) 是序列中的令牌数量。每个组的参数可以分别由 $\theta_{LR}$ ， $\theta_{RL}$ ， $\theta_{TB}$ ，和 $\theta_{BT}$ 指定，分别代表四个组的VSSS块的参数。
根据上述定义，分组Mamba操作符的总体关系可以写成方程6所示。
在这里插入图片描述

3.3.3通道亲和调制（Channel Affinity Modulation，简称CAM）

分组Mamba操作符本身可能存在一个缺点，即跨通道的信息交换有限，这是因为组中的每个操作符仅在 ( \frac{C}{4} ) 个通道上操作。为了促进跨通道的信息交换，我们提出了一个通道亲和调制操作符，它重新校准通道级特征响应以增强网络的表示能力。在这个块中，我们首先对输入进行平均池化以计算通道统计，如方程7所示。
在这里插入图片描述
其中 ( Xin ) 是输入张量，而 ( \text{AvgPool} ) 代表全局平均池化操作。接下来是亲和力计算操作，如方程8所示。

其中 ( \delta ) 和 ( \sigma ) 代表非线性函数，( W1 ) 和 ( W2 ) 是可学习的权重。( \sigma ) 的作用是为每个通道分配一个重要性权重以计算亲和力。亲和力计算的结果用于重新校准分组Mamba操作符的输出，如方程9所示。
在这里插入图片描述
其中 ( XCAM ) 是重新校准后的输出，( XGM ) 是来自方程6的四个VSSS组的连接输出，( Xin ) 是输入张量，而 ( \text{Affinity}(Xin) ) 是从方程8中的通道亲和力计算操作获得的通道级注意力分数。

3.4蒸馏损失函数

如第3节动机中提到的，当Mamba模型扩展到大型模型时，训练会变得不稳定[45]。为了缓解这个问题，我们提议使用蒸馏目标与标准交叉熵目标一起。知识蒸馏涉及训练一个学生模型，通过最小化分类损失和蒸馏损失的组合，从教师模型的行为中学习。蒸馏损失是使用教师和学生模型的logits之间的交叉熵目标计算的。给定来自学生模型的logits ( Zs )，来自教师模型（在我们的例子中是RegNetY-16G [47]）的logits ( Zt )，真实标签 ( y )，以及教师的硬决策 ( yt = \arg\max_c Zt© )，联合损失函数定义如方程10所示。
在这里插入图片描述
其中 ( L_{CE} ) 是交叉熵目标，( \alpha ) 是权重参数。我们在第4节的实验中展示，使用这种蒸馏目标进行训练可以稳定训练过程，从而在更大的模型变体上获得一致的性能提升。

4.实验

4.1图像分类

设置：图像分类实验基于ImageNet-1K [9]，包含超过128万张训练图像和50K验证图像，涵盖1000个类别。遵循[35]，我们使用AdamW [38]优化器和余弦衰减学习率调度器训练我们的模型300个周期，包括20周期的预热。总批量大小设置为1024，模型在8个A100 GPU上训练，每个GPU拥有80GB的CUDA内存。优化器beta设置为(0.9, 0.999)；动量设置为0.9，初始学习率设为1 × 10^-3，权重衰减为0.05。标签平滑度为0.1，与蒸馏目标一起使用（见第3.4节）。

结果：表1展示了我们提出的GroupMamba模型（T, S, B）与各种最新方法的比较。GroupMamba模型展现了显著的准确性和计算效率的平衡。GroupMamba-T在拥有2300万参数和4.5 GFLOPs的情况下，达到了83.3%的top-1准确率，分别比ConvNeXt-T [37]和Swin-T [36]高出1.2%和2.0%，同时参数更少。此外，GroupMamba-T超过了最近引入的SSM模型，分别比VMamba-T [34]和LocalVMamba-T [26]高出0.8%和0.6%，同时比VMamba-T少用26%的参数。GroupMamba-S拥有3400万参数和7.0 GFLOPs，准确率达到83.9%，超过了VMamba-S [34]、Swin-S [36]和EfficientVMamba-B [46]。性能比LocalVMamba-S [26]高出0.2%，参数少了32%。此外，GroupMamba-B在只有5700万参数和14 GFLOPs的情况下，准确率达到了84.5%，比VMamba-B [34]高出0.6%，同时参数少了36%。

4.2目标检测和实例分割

设置：我们在MS-COCO 2017数据集[32]上评估GroupMamba-T在目标检测方面的性能[21]。我们的方法基于Mask-RCNN[21]检测器，使用与Swin[36]相同的超参数。我们使用AdamW[38]优化器，并训练带有GroupMamba-T骨干的Mask-RCNN共12个周期。骨干网络从ImageNet-1K[9]初始化并微调。我们使用初始学习率1 × 10^-4，并在第9和11周期以10倍的因子衰减。

结果：表2显示了GroupMamba-T的结果，将其与使用MS-COCO数据集上的Mask R-CNN框架进行目标检测和实例分割的各种最新模型进行比较。我们的模型实现了边界框平均精度（APb）47.6和遮罩平均精度（APm）42.9。它超过了ResNet-50[22]、Swin-T[35]、ConvNeXt-T[37]。此外，GroupMamba-T与VMamba-T[34]和LocalVMamba-T[26]相比具有竞争力，与VMamba-T相比参数少了20%。在图3中，我们展示了GroupMamba-T在COCO验证集[32]样本上的定性结果，展示了其在实例分割和目标检测方面的性能。我们的模型能够准确定位对象，并在不同场景和不同尺度下正确分割它们。
表1：GroupMamba模型与基于卷积、基于注意力以及基于SSM的最新模型在ImageNet-1K[9]上的性能比较。我们的模型展现了更优越的性能，并在准确性与模型参数之间实现了更好的平衡。
在这里插入图片描述

4.3语义分割

设置：我们还在ADE20K[69]数据集上评估了GroupMamba-T在语义分割方面的性能。该框架基于UperNet[64]架构，我们遵循与Swin[36]骨干网络相同的超参数。更具体地说，我们使用AdamW[38]优化器，总共进行160k次迭代，初始学习率为6 × 10^-5。我们实验中使用的默认输入分辨率为512 × 512。

结果：GroupMamba-T模型在语义分割方面的性能优于多种最新方法，如表3所示。GroupMamba-T在单尺度评估中实现了48.6的mIoU，在多尺度评估中实现了49.2的mIoU，拥有4900万参数和955G FLOPs。这超过了ResNet-50[22]、Swin-T[36]和ConvNeXt-T[37]。此外，GroupMamba-T的性能还超过了最近的SSM方法，包括ViM-S[70]、VMamba-T[34]和LocalVMamba[26]，同时参数数量更少。在图4中，我们展示了GroupMamba-T在ADE20K[69]验证集样本上进行语义分割的定性结果。第一行显示了真实标签掩码，第二行显示了预测的掩码。值得注意的是，我们的模型能够准确描绘掩码，突显了语义分割的有效性。GroupMamba的定量和定性结果证明了我们的GroupMamba骨干网络在多种下游任务中，包括语义分割、目标检测和实例分割，具有强大的泛化能力。
表2：使用Mask R-CNN[21]在MS-COCO[32]上进行目标检测和实例分割的性能比较：APb和APm分别表示边界框AP和遮罩AP。FLOPs是针对1280 × 800的输入尺寸计算的。

在这里插入图片描述

图3：GroupMamba-T在COCO验证集上进行目标检测和实例分割的定性结果。

4.4消融研究

表4展示了我们每项贡献与VMamba-T相比的效果。在第二行中，没有CAM模块的提出的GroupMamba-T实现了82.2%的top-1准确率。
第三行展示了整合了所提出的CAM模块，性能提高了0.3%，同时参数和FLOPs相当。在第四行中，我们将通道数量扩展以匹配VMamba-T的参数数量（不使用蒸馏）。我们的GroupMamba-T*以等同数量的参数超过了VMamba-T的0.6%。在最后一行中，我们在不扩展通道的情况下纳入了所提出的蒸馏损失，与VMamba-T相比性能提高了0.8%，同时使用了26%更少的参数。
表3：使用UperNet[64]在ADE20K[69]上进行语义分割的性能比较。术语“SS”和“MS”分别指在单尺度和多尺度水平上进行的评估。FLOPs是针对512 × 2048输入尺寸计算的。
在这里插入图片描述

图4：GroupMamba-T在ADE20K验证集上进行语义分割的定性结果。第一行显示了掩码的真实情况，第二行显示了我们模型的相应预测。

表4：对GroupMamba-T提出的CAM模块和蒸馏损失进行的消融研究。

在这里插入图片描述

5.结论

在本文中，我们通过引入一种名为调制组Mamba的新层，解决了视觉SSMs在计算机视觉任务中的计算效率和稳定性挑战。我们还提出了一种多方向扫描方法，通过在四个空间方向上扫描并利用通道亲和调制（Channel Affinity Modulation, CAM）操作符来增强跨通道的特征聚合，从而提高参数效率。为了稳定训练，特别是对于更大的模型，我们采用了基于蒸馏的训练目标。我们的实验结果表明，所提出的GroupMamba模型在需要更少参数的情况下，性能超过了最近的SSMs。