Slim-neck by GSConv 论文学习

news/2024/10/30 15:26:38/

1. 解决了什么问题?

目标检测是计算机视觉中一个重要任务。在边缘设备上,大模型很难取得实时的效果。而使用大量深度可分离卷积的模型则很难取得高准确率。如下图,深度可分离卷积的缺点就是:输入图像的通道信息在计算时被分隔开了。这使得深度可分离卷积(DSC)的特征提取能力和融合能力要比标准卷积(SC)差不少。
在这里插入图片描述

MobileNets 使用大量的 1 × 1 1\times 1 1×1卷积,融合单独计算出的通道信息。ShuffleNets 使用 channel shuffle 让通道信息相互交流。GhostNet 则使用一半的标准卷积操作,保持通道间的信息交流。但是, 1 × 1 1\times 1 1×1卷积的计算量很高,channel shuffle 没有触及标准卷积的结果,GhostNet 则退回到了标准卷积。

2. 提出了什么方法?

为了让深度可分离卷积的结果尽可能地近似标准卷积,作者认为,标准卷积和深度可分离卷积可以合作使用。于是将 SC、DSC、shuffle 混合起来,得到 GSConv。GSConv 平衡了模型的准确率和速度,既能轻量化模型,也能保持准确率。如下图,使用 shuffle 操作将 SC 输出的信息充满 DSC 输出的信息。该 shuffle 是一个均匀混合的策略。这样 SC 的信息就能完全混入 DSC 的输出,在不同的通道上均匀地交换局部的特征信息。
在这里插入图片描述

如下图,GSConv 的特征图要比 DSC 更接近 SC 的特征图。用 GSConv 构造的 slim-neck 能够将 DSC 的缺陷降至最低,充分发挥 DSC 的优势。
在这里插入图片描述

2.1 Why GSConv?

为了加速推理预测,输入图像在主干网络都要经历相似的变换过程:空间信息逐步迁移到通道上。特征图的空间维度缩小、通道变大,会造成语义信息的丢失。通道密集的卷积(SC)计算会最大限度地保留各通道间的隐藏联系,但通道稀疏的卷积(DSC)会完全割断这些联系。

SC、DSC 和 GSConv 的时间复杂度是:

T i m e s c ∼ O ( W × H × K 1 × K 2 × C 1 × C 2 ) Time_{sc}\sim O(W\times H\times K_1\times K_2\times C_1\times C_2) TimescO(W×H×K1×K2×C1×C2)
T i m e D S C ∼ O ( W × H × K 1 × K 2 × 1 × C 2 ) Time_{DSC}\sim O(W\times H\times K_1\times K_2\times 1\times C_2) TimeDSCO(W×H×K1×K2×1×C2)
T i m e G S C o n v ∼ O [ W × H × K 1 × K 2 × C 2 2 ( C 1 + 1 ) ] Time_{GSConv}\sim O\left[W\times H\times K_1\times K_2\times \frac{C_2}{2}(C_1+1)\right] TimeGSConvO[W×H×K1×K2×2C2(C1+1)]

W , H W,H W,H是输出特征图的宽度和高度。 K 1 × K 2 K_1\times K_2 K1×K2是卷积核的大小。 C 1 C_1 C1是每个卷积核的通道数,也是输入特征图的通道数。 C 2 C_2 C2是输出特征图的通道数。

GSConv 对于轻量级模型效果更明显,将 DSC 层和 shuffle 结合能增强非线性表示能力。但如果 GSConv 贯穿模型使用,模型层数会变得很深,深网络层会阻碍数据流动,增加推理时间。于是作者只在 neck 里面使用 GSConv,neck 接收的特征图通道数最大、空间维度最小。这时的特征图包含的冗余信息较少,无需压缩,注意力模块更能发挥作用。

2.2 Slim-neck

2.2.1 Element Modules

GSConv 的计算复杂度约是 SC 的一半,但它的学习能力却与后者相近。作者提出了 GS bottleneck,如下图 (a) 所示。然后作者使用单阶段聚合方法设计了跨阶段局部网络(GSCSP)模块,VoV-GSCSP。下图 (b) 结构简单、直接,对硬件友好,推理速度快。图 © 和 (d) 则有着更高的特征复用率。
在这里插入图片描述

2.3 Improvement tricks for free

作者使用了一些局部特征增强方法,结构简单、计算量低。这些增强方法(注意力机制)能极大地提高模型准确率,但计算成本远低于 neck。这些方法要么在通道信息上计算,要么在空间信息上计算。SPP 关注在空间信息,将 4 个并行分支的结果 concat:3 个最大池化(池化核大小是 5 × 5 , 9 × 9 5\times 5,9\times 9 5×5,9×9 13 × 13 13\times 13 13×13)以及 1 个从输入过来的短路连接。它通过融合输入的局部和全局特征,解决目标尺度变化的问题。YOLOv5 的 SPPF 大幅提升了计算效率,计算效率 η c \eta_c ηc增长了 277.8 % 277.8\% 277.8% η c = [ ( k 1 2 + k 2 2 + k 3 2 + . . . + k i 2 − i ) − ( k 1 2 − 1 ) × i ] × 100 % \eta_c=\left[(k_1^2+k_2^2+k_3^2+...+k_i^2-i)-(k_1^2-1)\times i\right]\times 100\% ηc=[(k12+k22+k32+...+ki2i)(k121)×i]×100% k i k_i ki是 SPPF 模块中最大池化的第 i i i个分支的核大小。下图展示了 SPP 和 SPPF 的结构。
在这里插入图片描述

SE 是一个通道注意力模块,包括 2 个操作:squeeze 和 excitation。该模块使网络更多关注在信息丰富的特征通道上。CBAM 是一个空间-通道注意力模块。CA 模块避免了由全局池化操作引起的位置信息损失,将注意力放在输入特征图的宽度和高度维度上,有效地利用特征图的空间坐标信息。下图展示了 SE、CBAM 和 CA 模块的结构。注意力模块通常放在主干网络的末尾,取得更好的效果。SPPF 模块可直接放在 head 的开始位置。
在这里插入图片描述

2.4 Loss 函数和激活函数

L i o u = 1 − I o U , I o U = A ∩ B A ∪ B L_{iou}=1-IoU, IoU=\frac{A\cap B}{A\cup B} Liou=1IoU,IoU=ABAB
L c i o u = 1 − I o U + ρ 2 ( b , b g t ) d 2 + α v , α = v 1 − I o U + v , v = 4 π 2 ( arctan ⁡ w g t h g t − arctan ⁡ w h ) 2 L_{ciou}=1-IoU+\frac{\rho^2(b,b^{gt})}{d^2}+\alpha v,\quad \alpha=\frac{v}{1-IoU+v},\quad v=\frac{4}{\pi^2}(\arctan\frac{w^{gt}}{h^{gt}}-\arctan \frac{w}{h})^2 Lciou=1IoU+d2ρ2(b,bgt)+αv,α=1IoU+vv,v=π24(arctanhgtwgtarctanhw)2
L e i o u = 1 − I o U + ρ 2 ( b , b g t ) d 2 + ρ 2 ( w , w g t ) C w 2 + ρ 2 ( h , h g t ) C h 2 L_{eiou}=1-IoU+\frac{\rho^2(b,b^{gt})}{d^2}+\frac{\rho^2(w,w^{gt})}{C_w^2}+\frac{\rho^2(h,h^{gt})}{C^2_h} Leiou=1IoU+d2ρ2(b,bgt)+Cw2ρ2(w,wgt)+Ch2ρ2(h,hgt)

A A A B B B 表示 ground truth 框和预测框的像素区域。 C C C是这俩框的最小包围框。 d d d是最小包围框的对角线的欧式距离。 ρ \rho ρ表示 ground truth 框和预测框中心点的欧式距离。 v v v用于评价 ground truth 框和预测框的宽高比是否一致。CIoU 具有一些问题:

∂ v ∂ w = 8 π 2 ( arctan ⁡ w g t h g t − arctan ⁡ w h ) × h w 2 + h 2 , ∂ v ∂ h = − 8 π 2 ( arctan ⁡ w g t h g t − arctan ⁡ w h ) × w w 2 + h 2 \frac{\partial v}{\partial w}=\frac{8}{\pi^2}(\arctan \frac{w^{gt}}{h^{gt}}-\arctan \frac{w}{h})\times \frac{h}{w^2+h^2},\\\frac{\partial v}{\partial h}=-\frac{8}{\pi^2}(\arctan \frac{w^{gt}}{h^{gt}}-\arctan \frac{w}{h})\times \frac{w}{w^2+h^2} wv=π28(arctanhgtwgtarctanhw)×w2+h2h,hv=π28(arctanhgtwgtarctanhw)×w2+h2w

根据 CIoU 损失的定义,如果 { ( w = k ⋅ w g t , h = k ⋅ h g t ) ∣ k ∈ R + } \lbrace(w=k\cdot w^{gt}, h=k\cdot h^{gt})| k\in \mathcal{R}^+\rbrace {(w=kwgt,h=khgt)kR+},CIoU 就退化为了 DIoU 损失, α v \alpha v αv就失效了。此外, ∂ v / ∂ w \partial v / \partial w v/w ∂ v / ∂ h \partial v / \partial h v/h符号相反, ∂ v / ∂ w = − ( h / w ) × ( ∂ v / ∂ h ) \partial v / \partial w=-(h/w)\times (\partial v/\partial h) v/w=(h/w)×(v/h)。因此, w w w h h h中一个增长,另一个就会下降。当 w < w g t w<w^{gt} w<wgt并且 h < h g t h<h^{gt} h<hgt,或者 w > w g t w>w^{gt} w>wgt并且 h > h g t h>h^{gt} h>hgt时就不合理了。

EIoU 就不会有这样的问题,它直接用预测框的 w w w h h h作为惩罚项。

Swish 和 Mish 激活函数要比 ReLU 好,它们具有无上界、有下界、平滑、非单调的特性。
swish ( x ) = x ⋅ sigmoid ( β ⋅ x ) , mish ( x ) = x ⋅ tanh ⁡ ( log ⁡ ( 1 + e x ) ) \text{swish}(x)=x\cdot \text{sigmoid}(\beta\cdot x), \quad \text{mish}(x)=x\cdot \tanh(\log(1+e^x)) swish(x)=xsigmoid(βx),mish(x)=xtanh(log(1+ex))

在深度网络,Mish 函数要比 Swish 函数略好一些,Mish 计算量大了,故而需要更多的训练时长。


http://www.ppmy.cn/news/945178.html

相关文章

RocketMQ实战疑问和原理解答(更新至Q9)

Q1&#xff1a;怎么解决remote too much exception的问题呢&#xff1f; A&#xff1a;主要是的客户端发送的TPS太高&#xff0c;达到了broker的瓶颈。 Q2: broker无法写入store.log的日志报错&#xff0c;报异常如下&#xff1a; 2018-12-17 14:09:37 WARN StoreScheduledTh…

G3,是塔克和阿德巴约的热火队

这一场&#xff0c;是塔克和阿德巴约的热火队 G2的比赛&#xff0c;波斯顿人的数据如下 G3的比赛&#xff0c;波斯顿人的数据如下 如果说田忌赛马可以用在篮球场上&#xff0c;那这场堪称经典 热火和波斯顿人的第三场比赛&#xff0c;火队是客场作战&#xff0c;客场作战的热火…

阿宁前往沙城

题目 思路 显而易见我们能走过一条路后&#xff0c;直接将其毁灭&#xff0c;然后将下一条要走的路变为1&#xff0c;用BFS走最短路径&#xff0c;这样就能最快到达&#xff0c;但一开始我们没有走过的路可以毁灭&#xff0c;因此要分情况讨论。第一&#xff0c;至少有一条有多…

838. 推多米诺

一行中有 N 张多米诺骨牌&#xff0c;我们将每张多米诺骨牌垂直竖立。 在开始时&#xff0c;我们同时把一些多米诺骨牌向左或向右推。 每过一秒&#xff0c;倒向左边的多米诺骨牌会推动其左侧相邻的多米诺骨牌。 同样地&#xff0c;倒向右边的多米诺骨牌也会推动竖立在其右侧…

Q9头和BNC头的区别

应该是Q9头与BNC像DB9公母头一样的一对关系.用于像示波器,信号发生器等. Q9和NBC的口径稍微有点不同&#xff0c;BNC的母头中间的缝隙比Q9得稍微大一些&#xff0c;一般示波器都是BNC的&#xff0c;用Q9也能插进去&#xff0c;但是时间长了会插坏的&#xff0c;另外一半头上都…

分治法解骑士巡游问题(Knight‘s Tour)

问题描述 国际象棋的棋盘为 m n m\times n mn的方格棋盘&#xff0c;现将“马”放在任意指定的方格中&#xff0c;按照“马”走棋的规则&#xff08;与中国象棋规则一样&#xff0c;马走“日”字&#xff09;将“马”进行移动。要求每个方格只能进入一次&#xff0c;最终使得…

Q9.9 N queens

Q: Write an algorithm to print all ways of arranging eight queens on a chess board so that none of them share the same row, column or diagonal. A: 经典的8皇后问题。DFS #include <iostream> #include <string> #include <vector> using namespa…

洛谷-P1462-通往奥格瑞玛的道路

题目背景 在艾泽拉斯大陆上有一位名叫歪嘴哦的神奇术士&#xff0c;他是部落的中坚力量。 有一天他醒来后发现自己居然到了联盟的主城暴风城。 在被众多联盟的士兵攻击后&#xff0c;他决定逃回自己的家乡奥格瑞玛。 题目描述 在艾泽拉斯&#xff0c;有 n 个城市。编号为 …