每天一篇《目标检测》文献（一）

今天看的是《改进 YOLOv8 的轻量化密集行人检测方法》。

一、摘要

二、背景介绍

YOLOv8%E4%BB%8B%E7%BB%8D-toc" name="tableOfContents" style="margin-left:0px">三、YOLOv8介绍

四改进结构介绍

4.1 双卷积内核（DualConv）

4.2 RS-C2f模块

4.3 空间金字塔池化改进（SPPELAN_BiFPN）

4.4 损失函数优化（Focal_Shap-IoU）

五、实验结果

5.1 实验环境

5.2 对比实验

5.3 消融实验

一、摘要

针对密集行人检测存在小目标检测精度低、模型复杂的问题,提出一种改进 YOLOv8 的轻量化密集行人检测方法。引入 DualConv 模块替换原始 Conv 模块,帮助更深的卷积层更有效地提取信息,减少计算冗余并提高检测精度;通过融合 RepViTBlock 结构和分离与增强注意力机制 SEMA(Separated and Enhancement Attention)改进 C2f,构建 RS-C2f 结构,提升模型的泛化和特征融合能力,并降低参数量;设计全新的空间金字塔模块 SPPELAN_BiFPN,使模型对小目标行人检测精度显著提高,同时优化计算效率;采用 Focal_Shape-IoU 作为边界框回归损失函数,加快网络的收敛速度,提高对小目标的检测准确率。实验结果表明,改进模型的 mAP@0.5、Precision 和 Recall 在 CrowdHuman 数据集上提升 2.4%、1.1%和 2.1%,在 WiderPerson 数据集上提升 1.3%、1.0%和 1.7%,同时参数量下降 39.6%。在嵌入式设备上单帧图像平均运行时间为 55.1ms,平均精度为 90.7%,召回率为 82.9%,表明改进模型在保证轻量化的同时提升了检测精度和速度。

二、背景介绍

行人检测是计算机视觉的一项关键技术，随着技术进步，检测技术也不断发展。传统检测主要依靠特征提取和分类器设计，虽然取得不错的成果，但实际应用仍存在问题。近些年，随着深度学习的发展，卷积神经网络（CNN）、区域卷积神经网络（R-CNN）及其衍生模型（Fast R-CNN和Faster R-CNN）都促进了行人检测技术的增长。SSD和YOLO这类实时检测的算法也满足了动态和复杂环境下的检测需求，但在复杂背景且聚集的情况下，检测变得更加困难。

为了解决这些问题，也有许多研究者做出了贡献。尽管效果良好，但仍存在以下的问题：

模型参数较大，复杂度高，不适合资源受限的设备
行人等小尺寸目标分布密集且像素面积小，容易漏检
行人信息容易丢失或特征冗余
数据集目标尺度差异大，边框可能标注不准确，增加低质量样本对锚框回归的干扰

针对以上问题，本文进行了如下的改进：

采用DualConv模块替换Conv模块，减少计算冗余
融合RepViTBlock结构和分离与增强注意力机制SEMA改进C2f，构建RS-C2f结构，降低模型参数量和计算量，实现轻量化
设计SPPELAN_BiFPN空间金字塔模块，避免信息丢失或特征冗余，提升重要特征的表达能力
采用Focal_Shape-IoU作为边界框回归损失函数，减少低质量样本对锚框回归的影响

YOLOv8%E4%BB%8B%E7%BB%8D" name="%E4%B8%89%E3%80%81YOLOv8%E4%BB%8B%E7%BB%8D">三、YOLOv8介绍

YOLOv8是对YOLOv5的改进，网络结构如下：

相对于yolov5的改进主要有以下几点：

用C2f替代C3模块，减少冗杂参数，具有更少参数量和更强的特征提取能力
引用自适应NMS算法，调整阈值，减少误检和漏检
采用基于Anchor-Free的检测方式，直接预测目标中心和宽高，减少Anchor框的超参数

四改进结构介绍

针对上述的不足，本文对YOLOv8进行了改进，改进的结构如下：

可以看到，相比于原结构，改进的YOLOv8结构中，将Backbone中的第二三四个C2f模块替换成了RS-C2f模块，第四和第五个CBS模块替换成DualConv模块，输出SPPF替换成了SPPELAN_BiFPN。Neck中第一和第三四个C2f模块也被替换成RS-C2f模块，第二个CBS模块替换成了DualConv模块。在Head中没有修改，都是对三个模块产生的结果进行检测任务。

4.1 双卷积内核（DualConv）

双卷积内核配置激活函数和归一化层，增强了网络的非线性表达能力。我们这里假设输出特征图大小为D×D×N，输入特征映射在卷积层通过了N个大小为K×K×M的卷积滤波器进行滤波，则计算量 $FL_{Conv}$ 定义如下：

$FL_{Conv}=K^{2}\times D^{2}\times M\times N$

K×K是卷积核的大小，D是输出特征图的宽、高的维度，M是输入通道数（输入特征图的深度），N是卷积滤波器数量和输出通道数（输出特征图的深度）。

有了这个公式，我们再来看双卷积内核，其中采用群卷积和对偶卷积中的组数G调节卷积核K×K在卷积滤波器中的占比。对于一个指定的G，带线啊哦为（K×K+1×1）的组合卷积核在通道中的比例为 $\frac{1}{G}$ ，而剩余1×1的卷积核比例则为（1- $\frac{1}{G}$ ）。所以G个卷积滤波器构成的双卷积层中，组合卷积核计算量则为：

$FL_{K+1}=\frac{\left ( K^{2}+1 \right )\times D^{2}\times M\times N}{G}$

剩余1×1的卷积核计算量为：

$FL_{1}=\frac{D^{2}\times M\times N\times \left ( G -1 \right )}{G }$

总计算量为：

$FL_{ALL}=FL_{K+1}+FL_{1}=\frac{\left ( K^{2}+G \right )\times D^{2}\times M\times N}{G }$

比较一下卷积层和标准卷积层的计算成本（FLOPs）：

$R=\frac{FL_{ALL}}{FL_{Conv}}=\frac{1}{G}+\frac{1}{K^{2}}$

双卷积内核结构如下：

它结合了1×1 和3×3卷积核同时处理相同的输入特征图通道，利用组卷积技术排列卷积滤波器，减少计算成本和参数量。

采用DualConv代替标准卷积，能够使更深的卷积层更有效地提取信息，降低模型参数量和计算量，并在最大程度上减少特征信息丢失。

4.2 RS-C2f模块

分离与增强注意力模块（SEAM）和RepViTBlock的结构如下图所示：

左图中左边是CSMM（通道和空间混合模块），右边是SEAM的体系结构。右图中的模块通过结构重新参数化技术将分词混频器和通道混频器分开，SE层在RepViT中是可选的。

整个RS-C2f模块的网络结构图如下所示：

行人检测中目标通常较小，为有效提高对小目标的检测能力，作者提出在RepViTBlcok模块的输出操作前面加入了分离与增强注意力模块，融合成RVB-SEAM模块，同时将C2f模块中所有的Bottleneck改为RVB-SEAM，得到了全新的RS-C2f。这样，模型运算效率提升，参数量也减小，行人相应损失也更好地补偿，检测能力得到提升。

4.3 空间金字塔池化改进（SPPELAN_BiFPN）

空间金字塔池化是经典的特征提取方法，通过对输入特征图进行不同尺度的池化操作，可以获取更加丰富和具有代表性的特征信息。然而，在YOLOv8中，空间金字塔池化模块SPPF侧重于加速池化操作，未考虑定位的准确性，对特征的选择关注较少。

本文结合了BiFPN与Concat组成的Concat_BiFPN替换了SPPLELAN中的Concat，形成了新的空间特征金字塔池化模块SPPELAN_BiFPN。结构如下所示：

SPPELAN充分利用SPP的空间金字塔池化能力和ELAN的高校特征聚合能力。同时BiFPN通过改进特征融合路径来提升效率。BiFPN特征融合和SPPELAN_BiFPN结构图如下：

融合过后的模块可以确保各尺度特征之间的平衡，避免信息丢失或特征的冗余，提升重要特征表达能力。

4.4 损失函数优化（Focal_Shap-IoU）

小目标检测在训练期间前景类和背景类之间存在极端不平衡的问题，有人提出一种新的动态缩放的交叉熵损失函数（Focal Loss）,通过一个动态缩放因子，以达到动态降低训练过程中易区分样本的权重，公式如下：

$FL\left ( P_{t} \right )=-\left ( 1-P_{t} \right )^{\gamma }\times log\left ( P_{t} \right )$

$P_{t}$ 代表模型对真实样本的预测概率，γ是控制异常值抑制程度的参数，γ=0时，Focal Loss退化为交叉熵损失，γ>0时，Focal Loss降低易分类样本的权重，使难分类样本得到关注。

同时考虑边框回归样本自身形状与尺度对回归结果产生的影响，有人提出了回归准确性的边界框回归损失函数Shape-IoU，对应损失为：

$L_{Shape-IoU}=1-IoU+d^{Shape}+0.5\times \Omega ^{Shape}$

IoU为交并比，用于衡量预测框与真实框之间的重叠程度； $d^{Shape}$ 是形状距离，用于衡量预测框与真实框之间的距离； $\Omega ^{Shape}$ 是惩罚项，用于惩罚预测框与真实框之间的形状差异。其定义如下：

$d^{Shape}=\frac{HH\times \left ( x_{c}-x^{gt}_{c} \right )^{2}}{c^{2}}+\frac{WW\times \left ( y_{c}-y^{gt}_{c} \right )^{2}}{c^{2}}$

$\Omega ^{Shape}=\sum_{t=H,W}\left ( 1-e^{-\omega _{t}} \right )^{4}$

$\left\{\begin{matrix} \omega _{W}=HH\times \frac{\left | W-W^{gt} \right |}{max\left ( W,W^{gt} \right )} \\ \omega_{H}=WW\times \frac{\left | H-H^{gt} \right |}{max\left ( H,H^{gt} \right )} \end{matrix}\right.$