YOLOv8改进,YOLOv8检测头融合DiverseBranchBlock,并添加小目标检测层(四头检测),适合目标检测、分割等

ops/2025/1/21 18:47:22/

在这里插入图片描述


摘要

一种卷积神经网络(ConvNet)的通用构建模块,以在不增加推理时间成本的情况下提高性能。该模块被命名为多样分支块(Diverse Branch Block,DBB),通过结合不同尺度和复杂度的多样分支来丰富特征空间,包括卷积序列、多尺度卷积和平均池化,从而增强单个卷积的表示能力。在训练后,DBB可以等效地转换为一个单独的卷积层以进行部署。与新型ConvNet架构的进步不同,DBB在保持宏观架构的同时复杂化了训练时的微观结构,因此它可以作为任何架构的常规卷积层的替代品。通过这种方式,模型可以训练到更高的性能水平,然后转换为原始推理时的结构进行推理。DBB在图像分类(ImageNet上最高提高1.9%的top-1准确率)、目标检测和语义分割方面提高了ConvNet的性能。

DiverseBranchBlock介绍

多样分支块(DiverseBranchBlock)的代表性设计如下图所示(摘自论文):
在这里插入图片描述
1.DiverseBranchBlock(DBB)采用多分支拓扑结构,包括多尺度卷积、顺序1×1 - K×K卷积、平均池化和分支相加。这些具有不同感受野和复杂度的路径操作可以丰富特征空间,就像Inception架构一样。
2.DiverseBranchBlock(DBB)可以在推理时等效地转换为单个卷积。给定一个架构,可以用DBB替换一些常规卷积层,以构建更复杂的训练微观结构,并将其转换回原始结构,这样在推理时不会有额外的成本。

理论详解可以参考链接:论文地址
代码可在这个链接找到:代码地址


小目标理论

YOLOv8 中,输入图像的尺寸为 640x640x3,经过 8 倍、16 倍和 32 倍下采样后分别得到 80x80、40x40 以及 20x20 大小的特征图,网络最终在这三个不同尺度的特征图上进行目标检测。在这三个尺度的特征图中,局部感受野最小的是 8 倍下采样特征图,即如果将该特征图映射到原输入图像,则每个网格对应原图 8x8 的区域。对于分辨率较小的目标而言,8 倍下采样得到的特征图感受野仍然偏大,容易丢失某些小目标的位置和细节信息。为了改善目标漏检现状,对 YOLOv8 的 Head 结构进行优化,在原有的三尺度检测头的基础之上,新增一个针对微小目标检测的检测头 ,YOLOv8 原有 P3、P4 和 P5 这 3 个输出层,分别用于检测小、中、大目标,增加 P2 检测层后,网络能在4个不同尺度的特征图上做检测,P2 能检测到最小目标分辨率为 4x4。通过增加小尺度检测头的方式,整个网络能在 4 倍、8 倍、16 倍和 32 倍下采样特征图上预测不同尺度的目标,大幅度提高了算


http://www.ppmy.cn/ops/151976.html

相关文章

【优选算法篇】2----复写零

---------------------------------------begin--------------------------------------- 这道算法题相对于移动零,就上了一点点强度咯,不过还是很容易理解的啦~ 题目解析: 这道题如果没理解好题目,是很难的,但理解题…

20250118 PPT画的论文插图如何导出高分辨率图片:修改电脑注册表

在PowerPoint中导出高分辨率图片的步骤如下: 1. 调整幻灯片尺寸: 打开PowerPoint,点击“设计”选项卡。 在“自定义”区域选择“幻灯片大小”。 选择“自定义幻灯片大小”。 在弹出的对话框中,将幻灯片的尺寸设置为更大的数值&a…

HTML格式

HTML格式也叫网页格式。本以为像我这样的单机爱好者不会用到,但没有想到,两个我喜欢的东西居然也是这个格式的,所以多多少少还是与网页联席会议了。 第一个是EPUB电子书。开始接触EPUB电子书时用的是Calibre这个软件。这个软件没有很清楚地显…

机器人传动力系统介绍

以下是对机器人驱动系统的分析、最新科技应用以及世界顶级公司机器人型号使用的技术: 机器人驱动系统分析 液压驱动:利用液体压力来传递动力,通过液压泵将液压油从油箱抽出,送至液压缸,推动活塞运动,进而…

电池预测 | 第22讲 基于GRU-Attention的锂电池剩余寿命预测

电池预测 | 第22讲 基于GRU-Attention的锂电池剩余寿命预测 目录 电池预测 | 第22讲 基于GRU-Attention的锂电池剩余寿命预测预测效果基本描述程序设计参考资料 预测效果 基本描述 电池预测 | 第22讲 基于GRU-Attention的锂电池剩余寿命预测 锂电池作为现代电子设备的重要动力…

Linux应用编程(五)USB应用开发-libusb库

一、基础知识 1. USB接口是什么? USB接口(Universal Serial Bus)是一种通用串行总线,广泛使用的接口标准,主要用于连接计算机与外围设备(如键盘、鼠标、打印机、存储设备等)之间的数据传输和电…

C# OpenCvSharp Yolov8 Face Landmarks 人脸特征检测

目录 介绍 效果 模型信息 项目 代码 下载 介绍 github地址:https://github.com/derronqi/yolov8-face yolov8 face detection with landmark 效果 模型信息 Model Properties description:Ultralytics YOLOv8-lite-t-pose model trained on w…

C语言内存之旅:从静态到动态的跨越

大家好,这里是小编的博客频道 小编的博客:就爱学编程 很高兴在CSDN这个大家庭与大家相识,希望能在这里与大家共同进步,共同收获更好的自己!!! 本文目录 引言正文一 动态内存管理的必要性二 动态…