关于yolov7的一些理解

news/2024/12/5 5:22:28/

在这里插入图片描述论文: https://arxiv.org/abs/2207.02696
Github: https://github.com/WongKinYiu/yolov7
在这里插入图片描述

YOLOV7的一些理解

    • 1.摘要
    • 2.创新点
    • 3.具体工作
      • 3.1.网络结构优化
      • 3.2.辅助头训练
      • 3.3.标签分配策略
      • 3.4.重参数结构
      • 3.5.其它

1.摘要

Yolov7是Yolov4团队的作品,受到了yolo原作者的认可,论文发布后就引起了较大的关注;Yolov7通过一系列优化和技巧的组合,截止至论文发布时间[2022年7月],在5FPS到160FPS的范围内,无论是速度或是精度,都超过了已知的检测器,并且在GPU V100上进行测试, 精度为56.8% AP的模型可达到30 FPS(batch=1)以上的检测速率,与此同时,这是目前唯一一款在如此高精度下仍能超过30FPS的检测器。

2.创新点

  • 高效的网络结构 : 修改网络组件,引入ELAN结构
  • 动态标签分配策略 : 结合yolov5的跨网格匹配策略及yolox的动态网格策略SimOTA
  • 提出了一些Bag-of-Freebies方法:不增加推理时间的前提下,提高检测精度
    • 辅助头训练策略
    • 模型重参数化

3.具体工作

3.1.网络结构优化

yolov7整体的网络架构还是延用yolov5,只是对部分组件进行了修改或替换;

Modify-1: 3层conv代替stem模块,实现两倍下采样
- Conv仍然是:卷积 + BN + SiLU三件套
在这里插入图片描述

Modify-2: 引入ELAN模块代替CSP模块
- ELAN的这种结构的一个优势就是每个branch的操作中,输入通道都是和输出通道保持一致的[网络设计的一个高效准则]
- 仅仅是最开始的两个1x1卷积是有通道变化的
在这里插入图片描述在这里插入图片描述

Modify-3: 下采样模块(Maxpling + Conv)
- 下采样的实现目前主要两种方法: 最大池化、步长为2的卷积,而yolov7下采样模块秉持着”大人全都要”的原则,同时包含两者;
- 左边的分支主要采用maxpooling(MP)来实现空间降采样,并紧跟一个1x1卷积压缩通道;
- 右边先用1x1卷积压缩通道,再用步长为2的3x3卷积完成降采样
- 最后,将两个分支的结果合并,通道一个通道数等于输入通道数,但空间分辨率缩小2倍的特征图
在这里插入图片描述

Modify-4: Neck部分仍然延用PANFPN的结构,区别在于
- ELAN代替CSP(ELAN结构相对于Backbone中更复杂)
- 下采样模块采用Maxpling + Conv(结构相对于Backbone输出的通道数增加)
在这里插入图片描述

整体网络结构

  • DS 为下采样模块
    在这里插入图片描述

3.2.辅助头训练

深度监督是深度网络训练中常用的一种技术。 其主要思想是在网络的中间层增加辅助头部,并结合辅助损失作为浅层网络权重的指导;即使对于ResNet和densenet这样通常收敛良好的架构,深度监督仍然可以显著提高模型在许多任务上的性能;在yolov7中,我们称负责最终输出的头部为引导头(Lead head),称辅助训练的头部为辅助头(Aux head)。

关于辅助头位置问题

  • 由于网络结构中引入了特征金字塔结构,因此可以将辅助头放置于金字塔的中间层是一个比较好的选择;

关于辅助头标签分配问题

  • 常规处理方法:将辅助头和引导头分开,**利用各自的预测结果和GT来执行标签分配,**如下图©所示
  • yolov7中则是以引导头预测结果为指导,生成粗到细的层次标签,分别用于辅助头和引导头学习,如下图(d)(e)所示
    在这里插入图片描述
  • Lead head指导的标签分配器(如上图d)
    • 基于导向头的预测结果和GT进行计算,通过优化过程生成软标签
    • 软标签在训练时将同时用于辅助头和导向头
    • 导向头单独计算损失,辅助头将导向头匹配得到的正样本作为自己的正样本,并计算损失,最终相加(不同占比)
  • 粗到细的导向头指导的标签分配器(如上图e)
    • 使用导向头的预测和GT来生成软标签,但是它是生成两类标签,如coarse label和fine label
    • fine标签和图d的软标签生成过程相同,coarse标签通过放宽对正样本的约束,允许更多的网格被视作正样本
    • 对于辅助头更加倾向于优化模型的召回率,而导向头则是在高召回率的结果中挑选高精度的结果
    • 导向头单独计算损失,辅助头将导向头匹配得到的正样本(粗匹配)作为自己的正样本,并计算损失,最终相加(占比不同)
    • 注意:额外添加的粗标签样本不能和精细样本具有相同的loss权重,否则会损害检测器,因此需要对权重加以调整
  • 两点关于是否带辅助头训练的区别
    • loss函数和不带辅助头相同,但辅助头的加权系数不能过大(辅助头和主导头按照0.25:1的比例),否则会导致主导头出来的结果精度变低
    • 匹配策略和上面的不带辅助头的区别在于:
      • 主导头中每个网格与GT匹配上后,附加周边最近两个网格,而辅助头附加4个网格
      • 主导头中将top10个样本iou求和取整,而辅助头中取top20
    • 实验结果
      • 引入辅助头比不加辅助头性能要好;
      • 由粗到细的标签策略效果最好
        在这里插入图片描述

3.3.标签分配策略

yolov7的标签分配策略(筛选正样本),主要是集成yolov5和yolov7两者的精华,同时对Coarse to fine的深层监督方式引入不同标签

  • 使用yolov5跨网络匹配策略分配初步正样本
    • yolov5中目标的匹配不再是基于iou,而是长宽比: anchor的长宽/GT的长宽小于设定的阈值,即为正样本;
    • 除了引入目标中心点所在网格的anchor,还会引入中心点网格上下左右四个网格的anchor,参与正样本的匹配,大大增加正样本数量
    • 其中,距离中心点较近的两个网格匹配的样本将用于引导头的训练,距离较远的两个网格会额外引入用于辅助头的训练[yolov5本身没有辅助头的操作,只会引入最近的两个网格]
    • 如下图所示,红点为目标中心点所在位置,上下左右四个网格也会用于样本匹配;其中左、上网格距离中心点较近,将用于引导头的训练,右、下网格距离中心点较远,只会在辅助头训练的时候引入
      在这里插入图片描述
  • 使用yolov7动态网格匹配策略进一步筛选得到最终正样本
    • 使用每个GT的预测样本确定它需要分配到的正样本数(Dynamic k)
      • 计算第一步筛选得到的初步正样本iou
      • 并对Top10的样本进行iou求和取整,确定为当前GT的Dynamic k(最小为1)
      • 对于辅助头的训练Top取前20[粗标签]
        在这里插入图片描述
    • 计算每个样本对每个GT的Reg + Cls loss(Loss aware)
    • 为每个GT取loss最小的前dynamic k个样本作为最终正样本
    • 去掉同一个样本被分配到多个GT的正样本的情况
      • 同样是基于loss筛选

3.4.重参数结构

  • 背景:来源于Repvgg
    • 多分支结构:能够学到更丰富的特征,模型具有更高的精度
    • 单分支结构:速度快,对硬件的支持更好,具有推理效率
    • 结构重参数化:整合以上优势,在训练时采用多分支结构,推理时通过结构重参数化将模型转换为单分支结构,实现较高的推理效率
  • 几点理解:
    • 结构和参数是一一对应
    • 通过参数的等价转换实现结构的等价转换,即变换结构参数将结构从一个结构转换到另一个结构
    • 训练和推理进行解耦
    • tensorrt部署加速技巧中—Conv、BN、Relu三个层融合(大部分情况是conv和bn融合)采用的就是这个技术
      在这里插入图片描述
  • Repvgg的结构实现
    • 借鉴于resnet网络,使用identity和1*1分支构造训练时的RepVGG
    • 通过结构从新参数化,合并两个旁路分支,最终形成直筒结构
      在这里插入图片描述
  • 参数/结构等效转换的具体实现
    1.恒等映射分支可以被看做卷积核为1*1的单位1卷积
    • 经过这一步后变成了1个3 * 3卷积,2个1*1卷积
      在这里插入图片描述
    1. 整合BN,再将1 * 1卷积核边缘补0成3 * 3卷积核
    • 将 conv+bn 转换成一个带 bias 的 conv
    • 1 * 1卷积核边缘补0转换为3 * 3卷积核
      在这里插入图片描述
    1. 将三个卷积以中心点为基准相加,将 3 个卷积合并为 1 个
    • 将2个1x1 kernels(边缘补 0)和1个3x3 kernels相加,就能得到最终的3x3 kernel
      在这里插入图片描述
    1. 完整过程如下
      在这里插入图片描述
  • Yolo中的研究和应用
    • 作者使用梯度传播路径来分析不同的重参化模块应该和哪些网络搭配使用
    • 通过分析RepConv与不同架构的组合以及产生的性能,作者发现RepConv中的identity破坏了ResNet中的残差结构和DenseNet中的跨层连接,这为不同的特征图提供了梯度的多样性
    • 基于上述原因,作者使用没有identity连接的RepConv结构
      在这里插入图片描述
    • V7中其实使用repconv并不多,只有在neck最后的时候用过一次
      在这里插入图片描述
    • 对于yolo系列的算法其实可以考虑将常规的conv代替为repconv
      在这里插入图片描述

3.5.其它

  • 组合缩放调整网络结构
  • BN合并到Conv
  • EMA

http://www.ppmy.cn/news/44778.html

相关文章

前段时间面了15个人,发现这些测试人都有个通病......

前段时间面了15个人,怎么说呢,基本上没有符合要求的,其实一开始瞄准的就是中级的水准,也没指望来大牛,提供的薪资在10-20k,面试的人很多,但平均水平很让人失望。看简历很多都是3年工作经验&…

10个前端开发者需要掌握的DOM技巧

Web开发不断发展,掌握最新的趋势和最佳实践对每位开发者来说都至关重要。Web开发的最重要方面之一就是使用文档对象模型(DOM)。这篇文章中,小蓝将与大家共同探讨10个必须掌握的DOM技巧,帮助您成为更高效、更有效的开发…

Stable Diffusion本地搭建windows and linux(附搭建环境)

linux搭建过程以centos为例 1.使用git工具下载项目文件到本地文件夹,命令如下: git clone https://github.com/IDEA-CCNL/stable-diffusion-webui.git然后进入该文件夹: cd stable-diffusion-webui2.运行自动化脚本 运行webui.sh安装一些p…

Linux初学(CnetOS7 Linux)之切换命令模式

通常我们也称命令模式为终端机接口,terminal 或 console 。 Linux 预设的情况下会提供六个 Terminal 来让使用者登入, 切换的方式为使用:[Ctrl] [Alt] [F1]~[F6]的组合按钮。 那这六个终端接口如何命名呢,系统会将[F1] ~ [F6]命名为 tty1…

2023-04-11 无向图的匹配问题

无向图的匹配问题 之所以把无向图的这个匹配问题放到最后讲是因为匹配问题借鉴了有向图中一些算法的思想 1 最大匹配和完美匹配 二分图回顾 二分图:把一个图中的所有顶点分成两部分,如果每条边的两端分别属于不同部分,则这个图是二分图。更多…

Rancher部署K8s集群

一、集群配置 服务器CPU内存磁盘操作系统k8s-master16核16G60GCentOS Linux release 7.5.1804k8s-node-116核16G60GCentOS Linux release 7.5.1804k8s-node-216核16G60GCentOS Linux release 7.5.1804 Rancher version : 2.6.3 二、环境初始化 所有服务器均执行一遍 1、将…

全国大学生智能汽车竞赛——安装Ubuntu操作系统(双系统)

1.1 电脑分区 1.1.1 分区原因 由于我们想要在电脑上同时安装Windows和Ubuntu系统,所以就要在window使用的内存中划分出来一段用来给Ubuntu系统使用,相当于一个应用程序一样 1.1.2 分区步骤 1.右击此电脑,点击管理,然后双击左侧…

字节跳动高频 “ 120道 ” 软件测试面试题解析

1、web测试和APP测试的区别? web测试和APP测试都离不开测试的基础知识和测试原理。 不同点是:web 测试更多的是考虑自身功能和浏览器兼容,app 测试要考虑手机本身固有的属性,所以 app 测试还需要注意以下几点: 中断…