1. 解决了什么问题？

目标检测是计算机视觉中一个重要任务。在边缘设备上，大模型很难取得实时的效果。而使用大量深度可分离卷积的模型则很难取得高准确率。如下图，深度可分离卷积的缺点就是：输入图像的通道信息在计算时被分隔开了。这使得深度可分离卷积（DSC）的特征提取能力和融合能力要比标准卷积（SC）差不少。
在这里插入图片描述

MobileNets 使用大量的 $1\times 1$ 卷积，融合单独计算出的通道信息。ShuffleNets 使用 channel shuffle 让通道信息相互交流。GhostNet 则使用一半的标准卷积操作，保持通道间的信息交流。但是， $1\times 1$ 卷积的计算量很高，channel shuffle 没有触及标准卷积的结果，GhostNet 则退回到了标准卷积。

2. 提出了什么方法？

为了让深度可分离卷积的结果尽可能地近似标准卷积，作者认为，标准卷积和深度可分离卷积可以合作使用。于是将 SC、DSC、shuffle 混合起来，得到 GSConv。GSConv 平衡了模型的准确率和速度，既能轻量化模型，也能保持准确率。如下图，使用 shuffle 操作将 SC 输出的信息充满 DSC 输出的信息。该 shuffle 是一个均匀混合的策略。这样 SC 的信息就能完全混入 DSC 的输出，在不同的通道上均匀地交换局部的特征信息。
在这里插入图片描述

如下图，GSConv 的特征图要比 DSC 更接近 SC 的特征图。用 GSConv 构造的 slim-neck 能够将 DSC 的缺陷降至最低，充分发挥 DSC 的优势。
在这里插入图片描述

2.1 Why GSConv?

为了加速推理预测，输入图像在主干网络都要经历相似的变换过程：空间信息逐步迁移到通道上。特征图的空间维度缩小、通道变大，会造成语义信息的丢失。通道密集的卷积（SC）计算会最大限度地保留各通道间的隐藏联系，但通道稀疏的卷积（DSC）会完全割断这些联系。

SC、DSC 和 GSConv 的时间复杂度是：

$Time_{sc}\sim O(W\times H\times K_1\times K_2\times C_1\times C_2)$
$Time_{DSC}\sim O(W\times H\times K_1\times K_2\times 1\times C_2)$
$Time_{GSConv}\sim O\left[W\times H\times K_1\times K_2\times \frac{C_2}{2}(C_1+1)\right]$

$W, H$ 是输出特征图的宽度和高度。 $K_1\times K_2$ 是卷积核的大小。 $C_1$ 是每个卷积核的通道数，也是输入特征图的通道数。 $C_2$ 是输出特征图的通道数。

GSConv 对于轻量级模型效果更明显，将 DSC 层和 shuffle 结合能增强非线性表示能力。但如果 GSConv 贯穿模型使用，模型层数会变得很深，深网络层会阻碍数据流动，增加推理时间。于是作者只在 neck 里面使用 GSConv，neck 接收的特征图通道数最大、空间维度最小。这时的特征图包含的冗余信息较少，无需压缩，注意力模块更能发挥作用。

2.2 Slim-neck

2.2.1 Element Modules

GSConv 的计算复杂度约是 SC 的一半，但它的学习能力却与后者相近。作者提出了 GS bottleneck，如下图 (a) 所示。然后作者使用单阶段聚合方法设计了跨阶段局部网络（GSCSP）模块，VoV-GSCSP。下图 (b) 结构简单、直接，对硬件友好，推理速度快。图 © 和 (d) 则有着更高的特征复用率。
在这里插入图片描述

2.3 Improvement tricks for free

作者使用了一些局部特征增强方法，结构简单、计算量低。这些增强方法（注意力机制）能极大地提高模型准确率，但计算成本远低于 neck。这些方法要么在通道信息上计算，要么在空间信息上计算。SPP 关注在空间信息，将 4 个并行分支的结果 concat：3 个最大池化（池化核大小是 $5\times 5,9\times 9$ 和 $13\times 13$ ）以及 1 个从输入过来的短路连接。它通过融合输入的局部和全局特征，解决目标尺度变化的问题。YOLOv5 的 SPPF 大幅提升了计算效率，计算效率 $\eta_c$ 增长了 $277.8\%$ 。 $\eta_c=\left[(k_1^2+k_2^2+k_3^2+...+k_i^2-i)-(k_1^2-1)\times i\right]\times 100\%$ ， $k_i$ 是 SPPF 模块中最大池化的第 $i$ 个分支的核大小。下图展示了 SPP 和 SPPF 的结构。
在这里插入图片描述

SE 是一个通道注意力模块，包括 2 个操作：squeeze 和 excitation。该模块使网络更多关注在信息丰富的特征通道上。CBAM 是一个空间-通道注意力模块。CA 模块避免了由全局池化操作引起的位置信息损失，将注意力放在输入特征图的宽度和高度维度上，有效地利用特征图的空间坐标信息。下图展示了 SE、CBAM 和 CA 模块的结构。注意力模块通常放在主干网络的末尾，取得更好的效果。SPPF 模块可直接放在 head 的开始位置。
在这里插入图片描述

2.4 Loss 函数和激活函数

$L_{iou}=1-IoU, IoU=\frac{A\cap B}{A\cup B}$
$L_{ciou}=1-IoU+\frac{\rho^2(b,b^{gt})}{d^2}+\alpha v,\quad \alpha=\frac{v}{1-IoU+v},\quad v=\frac{4}{\pi^2}(\arctan\frac{w^{gt}}{h^{gt}}-\arctan \frac{w}{h})^2$
$L_{eiou}=1-IoU+\frac{\rho^2(b,b^{gt})}{d^2}+\frac{\rho^2(w,w^{gt})}{C_w^2}+\frac{\rho^2(h,h^{gt})}{C^2_h}$

$A$ 和 $B$ 表示 ground truth 框和预测框的像素区域。 $C$ 是这俩框的最小包围框。 $d$ 是最小包围框的对角线的欧式距离。 $\rho$ 表示 ground truth 框和预测框中心点的欧式距离。 $v$ 用于评价 ground truth 框和预测框的宽高比是否一致。CIoU 具有一些问题：

$\frac{\partial v}{\partial w}=\frac{8}{\pi^2}(\arctan \frac{w^{gt}}{h^{gt}}-\arctan \frac{w}{h})\times \frac{h}{w^2+h^2},\\\frac{\partial v}{\partial h}=-\frac{8}{\pi^2}(\arctan \frac{w^{gt}}{h^{gt}}-\arctan \frac{w}{h})\times \frac{w}{w^2+h^2}$

根据 CIoU 损失的定义，如果 $\lbrace(w=k\cdot w^{gt}, h=k\cdot h^{gt})| k\in \mathcal{R}^+\rbrace$ ，CIoU 就退化为了 DIoU 损失， $\alpha v$ 就失效了。此外， $\partial v / \partial w$ 和 $\partial v / \partial h$ 符号相反， $\partial v / \partial w=-(h/w)\times (\partial v/\partial h)$ 。因此， $w$ 和 $h$ 中一个增长，另一个就会下降。当 $w<w^{gt}$ 并且 $h<h^{gt}$ ，或者 $w>w^{gt}$ 并且 $h>h^{gt}$ 时就不合理了。

EIoU 就不会有这样的问题，它直接用预测框的 $w$ 和 $h$ 作为惩罚项。

Swish 和 Mish 激活函数要比 ReLU 好，它们具有无上界、有下界、平滑、非单调的特性。
$\text{swish}(x)=x\cdot \text{sigmoid}(\beta\cdot x), \quad \text{mish}(x)=x\cdot \tanh(\log(1+e^x))$