【YOLOv8】YOLOv8改进系列（3）----替换主干网络之ConvNeXt V2

主页：HABUO🍁主页：HABUO

🍁YOLOv8入门+改进专栏🍁

🍁如果再也不能见到你，祝你早安，午安，晚安🍁

【YOLOv8改进系列】：

【YOLOv8】YOLOv8结构解读

YOLOv8改进系列（1）----替换主干网络之EfficientViT

YOLOv8改进系列（2）----替换主干网络之FasterNet

💯一、ConvNeXt V2介绍

1. 简介

2. ConvNeXt V2架构

2.1 全卷积掩码自编码器（FCMAE）

2.2 全局响应归一化（GRN）

3. 实验结果

3.1 ImageNet分类

3.2 COCO目标检测和分割

3.3 ADE20K语义分割

4. 关键结论

💯二、具体添加方法

第①步：创建convnextv2.py

第②步：修改task.py

(1)引入创建的convnextv2文件

(2)修改_predict_once函数

(3)修改parse_model函数

第③步：yolov8.yaml文件修改

第④步：验证是否加入成功

💯一、ConvNeXt V2介绍

论文题目：《ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders》
论文地址：2301.00808

1. 简介

论文提出了一个全卷积掩码自编码器框架和一个新的全局响应归一化（Global Response Normalization, GRN）层，用于增强 ConvNeXt 架构中通道间的特征竞争。这种自监督学习技术和架构改进的结合，形成了新的模型家族 ConvNeXt V2。

2. ConvNeXt V2架构

ConvNeXt V2 是在 ConvNeXt V1 的基础上改进而来，主要引入了以下两个关键创新：

2.1 全卷积掩码自编码器（FCMAE）

FCMAE 是一种全卷积的自监督学习框架，用于预训练 ConvNeXt V2 模型。其核心思想是随机掩盖输入图像的一部分，并让模型根据剩余的上下文预测被掩盖的部分。FCMAE 的主要组件包括：

掩码策略：随机掩盖输入图像的60%。
编码器设计：使用 ConvNeXt 模型作为编码器，并引入稀疏卷积（sparse convolution）来处理被掩盖的图像，防止信息从被掩盖区域泄露。
解码器设计：使用轻量级的 ConvNeXt 块作为解码器，简化了整体架构。
重建目标：计算重建图像与目标图像之间的均方误差（MSE），仅在被掩盖的区域计算损失。

2.2 全局响应归一化（GRN）

GRN 是一种新的归一化层，旨在增强通道间的特征竞争，解决 ConvNeXt V1 在掩码自编码器预训练时出现的特征坍塌问题。GRN 的工作流程包括：

全局特征聚合：通过全局函数聚合特征图。
特征归一化：对聚合后的特征进行归一化处理。
特征校准：将归一化后的特征重新校准到原始输入中。

GRN 的引入显著提高了模型在掩码自编码器预训练下的性能，且无需额外的参数开销。

3. 实验结果

论文通过一系列实验验证了 ConvNeXt V2 的性能提升，主要体现在以下几个方面：

3.1 ImageNet分类

ConvNeXt V2 在 ImageNet 分类任务上表现出色，尤其是在使用 FCMAE 预训练后，性能提升显著。例如：

Atto模型（3.7M 参数）在 ImageNet 上达到了 76.7% 的 top-1 准确率。
Huge模型（650M 参数）达到了 88.9% 的 top-1 准确率，刷新了使用公开数据的最高记录。

3.2 COCO目标检测和分割

在 COCO 数据集上，使用 Mask R-CNN 进行微调时，ConvNeXt V2 的性能优于 ConvNeXt V1 和其他基于 Swin Transformer 的模型。例如：

Base模型的 AP box 提升到 52.9%，AP mask 提升到 70.0%。
Huge模型的 AP box 提升到 55.7%，AP mask 提升到 72.8%。

3.3 ADE20K语义分割

在 ADE20K 数据集上，使用 UperNet 进行微调时，ConvNeXt V2 的性能也优于 ConvNeXt V1 和其他基于 Swin Transformer 的模型。例如：

Base模型的 mIoU 提升到 52.1%。
Huge模型的 mIoU 提升到 55.0%。