YOLO V5 和 YOLO V8 对比学习

news/2024/10/25 5:25:38/

参考文章:
1、YOLOv5 深度剖析
2、如何看待YOLOv8,YOLOv5作者开源新作,它来了!?
3、anchor的简单理解

完整网络结构

YOLOv5-l-P6

YOLO v8

YOLO v5和YOLO v8的Head部分

在这里插入图片描述
YOLO v8的Head 部分相比 YOLOv5 改动较大,换成了目前主流的解耦头结构,将分类和检测头分离,同时也从 Anchor-Based 换成了 Anchor-Free。anchor-based和anchor-free方法的本质区别,就是如何定义正负样本
Anchor-Based:事先通过手工或聚类方法设定好的具有不同尺寸、宽高比的方框anchor_boxes。这些方框覆盖了整张图像,目的是为了防止漏检。在模型训练过程中,根据anchor_boxes与ground truth的IoU(交并比)损失对anchor_boxes的长宽以及位置进行回归,使其越来越接近ground truth,在回归的同时预测anchor_boxes的类别,最终输出这些回归分类好的anchors。目前主流的目标检测算法多是anchor-based这一类,其中有two-stage也有one-stage。two-stage方法要筛选和优化的anchors数量要远超one-stage方法,筛选步骤较为严谨,所以耗费时间要久一些,但是精度要高一些。在常用的检测基准上,SOTA的方法一般都是anchor-based的。
Anchor-Free:由于FPN和Focal Loss的出现,有效解决了特征语义信息不足和正负样本不均衡的问题,又涌现出了一批anchor-free的算法。anchor-free检测器以两种不同的方式检测物体,一种是首先定位到多个预定义或自学习的关键点,然后约束物体的空间范围,称为Keypoint-based方法;另一种是利用中心点或中心目标区域来定义正样本,然后预测其到目标四个边的距离,称为Center-based方法。anchor-free的方法使得目标检测的流程进一步精简,减少了相关超参数,使得网络搭建训练更简便,泛化能力也更强。

YOLOv5的C3结构 和 YOLOv8的C2f结构

在这里插入图片描述
YOLO v8将 YOLOv5 的 C3 结构换成了梯度流更丰富的 C2f 结构,并对不同尺度模型调整了不同的通道数,不过这个 C2f 模块中存在 Split 等操作对特定硬件部署没有之前那么友好了。

YOLO v5和YOLO v8的loss

1、YOLO v5在类别的损失函数中,使用的是二元交叉熵损失函数,而不是softmax损失函数。因为softmax损失函数对于每个类别的处理是互斥的。而yolo考虑到了类别不互斥的情况,例如,一个类别可以是车,但也可以是汽车或货车,如果用softmax,是车就不可以是汽车,但二元交叉熵既可以是车也可以是汽车。
2、YOLO v8采用了 TaskAlignedAssigner 正样本分配策略,并引入了 Distribution Focal Loss。Loss 计算包括 2 个分支: 分类和回归分支,没有了之前的 objectness 分支。分类分支依然采用 BCE Loss。回归分支需要和 Distribution Focal Loss 中提出的积分形式表示法绑定,因此使用了 Distribution Focal Loss, 同时还使用了 CIoU Loss。3 个 Loss 采用一定权重比例加权即可。
TaskAlignedAssigner 正样本分配策略核心思想是在候选框与真实目标之间建立正确的对应关系,以便在训练过程中能够准确地学习目标检测模型,即根据分类与回归的分数加权的分数选择正样本。在目标检测中,类别不平衡是指不同类别的目标数量差异很大,这可能会导致模型在训练过程中对少数类别的预测效果较差。Focal Loss 通过在损失函数中引入一个可调节的因子,来减小易分类样本的权重,从而集中训练模型在困难样本上。Distribution Focal Loss是 Focal Loss 的一个变体,专门用于应对类别不平衡问题。其主要思想是将 Focal Loss 与样本分布信息相结合,从而更好地处理不平衡的类别。具体而言,分布 Focal 损失会根据每个类别的样本分布情况来调整 Focal Loss 中的因子,以便更有效地关注罕见类别。

YOLO v5和YOLO v8训练数据增强

YOLO v8数据增强方面和 YOLOv5 差距不大,只不过引入了 YOLOX 中提出的最后 10 个 epoch 关闭 Mosaic 的操作。假设训练 epoch 是 500,其示意图如下所示:
在这里插入图片描述
Mosaic是YOLOV4中提出的新方法,适用于目标检测,主要思想是将四张图片进行拼接到一张图上作为训练样本。由于Mosaic用于目标检测,进行拼接时目标框的坐标也要做相应的变化。Mosaic的主要操作如下:

  • 对每一张图进行随机裁剪得到A;crop的目标是选择原图的某一块区域,而不是全图进行后续的拼接;
  • 将A进行resize到输出图大小得到B;目标是统一坐标系尺寸,方便后续拼接;坐标框会进行相应的缩放
  • 将B随机裁剪一块指定大小的区域C;
  • 将C粘贴到输出图相应的位置;此时只需要坐标平移就可以调整坐标框

http://www.ppmy.cn/news/1076035.html

相关文章

iOS - 资源按需加载 - ODR

一、瘦身技术大图 二、On-Demand Resources 简介 将其保存管理在苹果的服务器,按需使用资源、优化包体积,实现更小的应用程序。ODR 的好处: 应用体积更小,下载更快,提升初次启动速度资源会在后台下载操作系统将会在磁…

学习使用Scrapy框架进行高效的爬取,了解其基本结构和使用方法

Scrapy是一个用Python编写的开源网络爬虫框架,它可以帮助开发者快速高效地从网页中提取数据。下面是使用Scrapy进行爬取的基本结构和使用方法的概述: 安装Scrapy:首先,确保你已经安装了Python和pip。然后可以通过运行以下命令来安…

KVM中的四种简单网络模型

KVM中的四种简单网络模型,分别如下: 1、隔离模型(QEMU内置的用户模式网络(user mode networking)):虚拟机之间组建网络,该模式无法与宿主机通信,无法与其他网络通信&…

EOCR-SE2/EOCRSE2在数控技术行业的应用

EOCR-SE2电动机保护器是施耐德EOCR系列中一款以低成本、高性能著称的产品,其广泛应用于各种机床设备中。 EOCRSE2-05RS品牌:施耐德,产地:韩国益山工厂,型号:EOCR-SE2,电流范围:3-30A&#xff0…

DP358 11MHz 增益带宽轨到轨输出运算放大器

DP358、DP321、DP323、DP324是一款低噪声、低压、低 功耗轨到轨输出运放大器,该系列放大器的增益带宽为 11MHz,压摆率为 8.5V/uS,其中DP323 在掉电工作模式下待机电流小于1uA。该系列放大器可以广泛应用于各种电子产品领域。 主要特性: 轨到轨最大输入输出失调电压…

【Java】基础入门(十五)--- 接口

Java接口 定义 在现实生活中,接口是某些企业和组织指定的一种约定或标准,规定了接口的大小、形状等,按照该约定设计各种设备。 java中的接口作用和生活类似,它提供一种约定,使实现接口的类在形式上保持一致。 描述规…

ELK安装、部署、调试(五)filebeat的安装与配置

1.介绍 logstash 也可以收集日志,但是数据量大时太消耗系统新能。而filebeat是轻量级的,占用系统资源极少。 Filebeat 由两个主要组件组成:harvester 和 prospector。 采集器 harvester 的主要职责是读取单个文件的内容。读取每个文件&…

利用条件竞争突破优惠券仅能使用一次逻辑限制

Portswigger练兵场之条件竞争 目录 Portswigger练兵场之条件竞争🦄条件竞争-突破一次逻辑限制🚀实验前置必要知识点🏆实验要求⚡️渗透开始1. 站点分析2. 登录3.日志探查4.功能点探究5.完成实验 修复方案 🦄条件竞争-突破一次逻辑…