PP-YOLO

news/2025/1/17 14:37:18/

PP-YOLOv2

目录

PP-YOLOv2的改进点

数据增强 :+ MixUp

Backbone :换R50 + Better Pre-Train + dcn

Neck :+ SPP + CoordConv + DropBlock + PAN + MISH

Loss :+ IoU Loss + IoU Aware Loss

其他 :+ Large Batch Size + Grid Sensitive + EMA + Matrix NMS + Large Input Size

PP-YOLO Tiny

优化方法 - Backbone 的选择

优化方法 - head 优化(Neck + Head)

优化方法 - 后训练量化

(黑色为PP-YOLOv1版本添加的内容,红色为 PP-YOLOv2 版本新添加的内容)

数据增强

PP-YOLO 没有探究各种复杂的 backbone 和数据增广手段,也不是靠 NAS 暴力搜索得到一个结构。模型在 ResNet 骨干网络系列,仅靠 mixup,通过合理的 tricks 组合,提升模型性能。(NAS 是给定一个搜索空间的候选神经网络结构集合,用某种策略从中搜索出最优网络结构。)

MixUp(ICLR2018)

背后的直觉:平滑了数据集

影响:增加精度,不减少速度

补充:

当训练集中的图片比较少时,容易造成网络的过拟合。为了避免这种情况,一般要经过图像处理,人为地去增加些图片数据,这样就会增加可用图片的数目,减少过拟合的可能性。

可以通过像素级的剪裁(Crop)、旋转(Rotation)、反转(Flip)、色调(Hue)、饱和度(Saturation)、曝光量(Exposure)、宽高比(Aspect)来做数据增强。另外还可以在图片级数据增强,比如 MixUp、CurMix、Mosaic、Blur。

Mixup(2017):在一张狗的图片中,叠加一只猫的图片,经过两幅图片的加权运算可以看到图片上既有狗又有猫。

Cutout(2017):将图片中某一块区域,填充为某种颜色。

CutMix(2019):将图片某一块区域剪裁掉,然后用另外一幅图像来填充剪裁区域。

Mosaic 数据增强(2020):它把 4 幅图片拼成一幅图,YOLOv5 中数据增强就是采用 Mosaic 方法,该方法由 YOLOv5 作者提出。YOLOv5 在训练过程中,将4幅小图拼成一幅大图,4幅小图在拼接时做了随机的处理,所以4幅小图的大小形状是不一样的。

Backbone

DarkNet53 -> ResNet50 + Better PreTrain(ResNet 是比较成熟的 backbone,并且优化过。)

增加 DCN(可变形卷积 2017)(通用的涨点方式,加一点点,PP-YOLO 仅加一层)

背后的直觉:参与计算的点应该集中在物体上

影响:涨点但掉速度

补充

什么是可变形卷积?

可变形卷积指卷积核在每个元素上增加了一个参数方向参数,这样卷积核就能在训练过程中扩展到很大的范围。

(a)传统的标准卷积核,尺寸为3x3(图中绿色的点);
(b)可变形卷积,通过在图(a)的基础上给每个卷积核的参数添加一个方向向量(图b中的浅蓝色箭头),使卷积核变为任意形状;
(c)和(d)是可变形卷积的特殊形式。

为什么要可变形卷积?

卷积核的目的是为了提取输入物的特征。传统的卷积核通常是固定尺寸、固定大小的。这种卷积核存在的最大问题就是,对于未知的变化适应性差,泛化能力差。

  • 卷积单元对输入的特征图在固定的位置进行采样;
  • 池化层不断减小着特征图的尺寸;
  • RoI 池化层产生空间位置受限的 RoI。

网络内部缺乏能够解决这些问题的模块,这会产生显著的问题,同一 CNN 层的激活单元的感受野尺寸都相同,这对于编码位置信息的浅层神经网络并不可取,因为不同的位置可能对应有不同尺度或者不同形变的物体,这些层需要能够自动调整尺度或者感受野的方法。再比如,目标检测虽然效果很好但是都依赖于基于特征提取的边界框,这并不是最优的方法,尤其是对于非网格状的物体而言。

因此,希望卷积核可以根据实际情况调整本身的形状,更好的提取输入的特征。

Neck

增加 SPP(2015)

背后的直觉:获得不同的感受野

影响:加一点点参数,涨性能

增加 CoordConv(2018)

背后的直觉:Conv 做不好 one-hot 转坐标这种任务所以把坐标信息传进去

影响:加一点点参数,涨性能

它在输入特征图,添加了两个通道,一个表征 i 坐标,一个表征 j 坐标。这两个通道带有坐标信息,从而允许网络学习完全平移不变性和变化平移相关度。
为了平衡带来的额外参数和 FLOPS,PP-YOLO 只替换掉 FPN 的1x1卷积层以及 detection head 的第一层卷积。

传统卷积具备平移不变性,这使得其在应对分类等任务时可以更好的学习本质特征。不过,当需要感知位置信息时,传统卷积有点力不从心。为了使得卷积能够感知空间信息,作者在输入 feature map 后面增加了两个 coordinate 通道,分别表示原始输入的 x 和 y 坐标,然后再进行传统卷积,从而使得卷积过程可以感知 feature map 的空间信息,该方法称之为CoordConv。使用了 CoordConv 之后,能够使得网络可以根据不同任务需求学习平移不变性或者一定程度的平移依赖性。(平移不变性意味着系统产生完全相同的响应(输出),不管它的输入是如何平移的 。)

+ DropBlock(2018)

Dropout 被广泛的使用作为一种正则化技术在全连接层中,但在卷积层中却收效甚微。作者认为卷积层中的激活单元(特征图上元素)在空间中是相关的,所有尽管 Dropout 可以进行信息丢失,但信息仍然可以通过卷积网络流通。

作者提出了 DropBlock,一种结构化的 Dropout 形式,特征图上的邻域单元被一起丢弃,这样可以提高准确率。大量的实验表明,DropBlock 在正则化的卷积网络中性能优于 Dropout。

DropBlock 是谷歌提的一个涨点神器,但是适用范围不大。在 PP-YOLO 模型中发现给 BackBone 直接加 DropBlock 会带来精度下降,于是只在检测头部分添加。

+ PAN

背后的直觉:增强 Neck 部分的特征融合能力

影响:掉速度,涨性能

FPN 层自顶向下传达强语义特征(高层语义是经过特征提取后得到的特征信息,它的感受野较大,提取的特征抽象,有利于物体的分类,但会丢失细节信息,不利于精确分割。高层语义特征是抽象的特征。),而特征金字塔则自底向上传达强定位特征,两两联手,从不同的主干层对不同的检测层进行参数聚合。FPN+PAN 借鉴的是 18 年 CVPR 的 PANet,当时主要应用于图像分割领域,但 Alexey 将其拆分应用到 Yolov4 中,进一步提高特征提取的能力。

使用 MISH

背后的直觉:处处平滑,<0部分也应该有值

影响:涨性能,几乎不掉速度

Mish Activation Function 已有研究 YOLOv4 与 YOLOv5 表明:Mish 对于改进目标检测器的性能非常有效。由于百度已经有了一个非常强有力的预训练骨干模型(82.4% top1 精度),为保持骨干结构不变,仅将 Mish 用到了 Neck 部分。

Loss

+ IoU Loss

背后的直觉:定位时,x,y,w,h 的 loss 应该一同计算

影响:涨性能,不掉速度

+ IoU Aware Loss

背后的直觉:直接预测 IoU?

影响:涨性能,轻微掉速度

其他

+ Large Batch Size

+ Grid Sensitive

背后的直觉:Sigmoid 后 0,1 很难出,需要调整一下

影响:涨性能,不掉速度

预测时,定位的物体中心点 x,y,首先经过 sigmoid,再加上 grid 的 Cx,Cy。若物体的中心在 grid 的交点处,sigmoid 需要出 0 或 1 才能够很准,但 sigmoid 出 0/1 比较困难。

原始 YOLOv3 对应中间点的调整公式:其中 σ 表示 sigmoid 函数。

\begin{aligned} &x=s \cdot\left(g_{x}+\sigma\left(p_{x}\right)\right) \\ &y=s \cdot\left(g_{y}+\sigma\left(p_{y}\right)\right) \end{aligned}

由于 sigmoid 函数两端趋于平滑,中心点很难根据公式调节到网格上面,因此改进公式为:α 设为 1.05,能帮助中心点回归到网格线上。

 \begin{aligned} &x=s \cdot\left(g_{x}+\alpha \cdot \sigma\left(p_{x}\right)-(\alpha-1) / 2\right) \\ &y=s \cdot\left(g_{y}+\alpha \cdot \sigma\left(p_{y}\right)-(\alpha-1) / 2\right) \end{aligned}

+ 指数滑动平均EMA,直接作用于指数 W 上

背后的直觉:平均一下更容易到最优解

影响:涨性能,不掉速度

在训练参数更新上也做了滑动平均策略。

滑动平均可以使模型在测试数据上更健壮。对神经网络边的权重 weights 使用滑动平均,得到对应的影子变量 shadow_weights。在训练过程仍然使用原来不带滑动平均的权重 weights,之后在测试过程中使用 shadow_weights 来代替 weights 作为神经网络边的权重,这样在测试数据上效果更好。因为 shadow_weights 的更新更加平滑,对于随机梯度下降而言,更平滑的更新说明不会偏离最优点很远;对于梯度下降 batch gradient decent,我感觉影子变量作用不大,因为梯度下降的方向已经是最优的了,loss 一定减小;对于 mini-batch gradient decent,可以尝试滑动平均,毕竟 mini-batch gradient decent 对参数的更新也存在抖动。

+ Matrix NMS

背后的直觉:Soft NMS 的并行处理版本

影响:涨性能,加速度

非极大值抑制问题,解决同一个物体有多于一个候选框输出的问题,用于过滤掉重叠的候选框。

  • 算法输入:包含各框的位置坐标,以及置信度得分
  • 算法步骤:设定 IOU 阈值;对种类进行循环;对同一种类类别而言,将所有边框按照置信度进行排序,取得分最高的边框并保存,使其与其余边框计算 IOU,去掉计算结果中大于阈值的结果;未处理的边框中继续选一个类别得分最高的,直到处理完所有的边框为止。保留下来的候选框即为检测结果。

存在问题:

  • 强制去掉得分较低的边框,影响召回率。
  • IOU 阈值难以人为确定。
  • 得分高的边框位置不一定更优。
  • 速度有点慢

Soft NMS:对于得分小于阈值的边框,不再直接舍弃,而是降低其得分,设其原本得分为S:S = S ×(1 - IOUs),其实是对于 IOU 中较小的一部分框,其1-IOU较大,得分衰减不会很厉害。

+ Large Input Size

大 Batch 还是大 Input size?

背后的直觉:大 Batch 稳定训练,大 Input size 对小物体好

影响:涨性能,不影响速度

PPYOLO 总结

PPYOLO 实际上是 YOLOv3 的一个魔改增强版本,在 YOLOv3 的基础上,尝试了非常多的小改进方法,最终拿到了这样的结果。PP-YOLOv2 在同等速度下,精度超越 YOLOv5!

PP-YOLO Tiny

模型设计和优化(PP-YOLO Tiny 选择第一种大类)

  • 网络结构
    • 小型高性价比 Backbone
    • Head 优化(减小个数,小型化设计,不同 head 特征复用等)
    • 深度可分离卷积
  • 数据增强
    • Image Mixup / Mosaic
    • Random Crop
    • Auto Augment
  • 训练策略
    • IoU Loss
    • EMA
    • Sync Batch norm
    • 调整正负样本 assign 方式

模型压缩

  • 卷积通道裁剪
    • Uniform
    • Sensitive
    • FPGM
  • 知识蒸馏
    • L2 Loss
    • Soft Label
    • FSP
  • 量化
    • 在线量化
    • 离线量化
    • PACT
  • 搜索
    • NAS 

优化方法 - Backbone 的选择

Mobilenet V3 是 Google 使用模型搜索的方法搜索出来高性价比的模型,继承了 Mobilenet V1 和Mobilenet V2 模型的特点。

0.5x 指将原来的模型缩小了一半,即将所有的 channel 数×0.5。

目标检测领域使用图像分类作为 backbone 时,一般都会将 fc 层排除掉

优化方法 - head 优化(Neck + Head)

模型输入尺寸GFLOPs

YOLOv3-

MobileNetV3

608×60817.7
512×51212.6
416×4168.3
320×3204.9
特征变小,影响召回率

提升召回率
  • ignore threshold 0.7->0.5
    • 减少负例数目
    • 更多非正非负样本
  • iou threshold = 0.25
    • 增加正例数目
    • 更多回归正例的预测框
优化方法效果
数据增强Image Mixup增强背景信息,平滑数据集,提高抗干扰能力
模型特征SPP多尺度特征
DropBlock随机丢弃特征快,减小过拟合
后处理Grid Sensitive中心坐标回归上的 label smooth,减小过拟合
损失优化IoU Loss-IoU 加入 loss 中,提升定位精度
训练优化Sync Batch Norm卡间同步均值和方差
EMA历史梯度平滑,训练更加稳定
Larger Batch Size8 × 32,训练更加稳定

服务器端效果好,而移动端不适用:

  • Coord Conv
    • 增加两个通道表示 x,y 坐标,获取全局信息
    • 移动端 CPU 计算,通道数为 8 的倍数性能最优
  • Matrix NMS
    • GPU 并行计算各预测框间的 IoU
    • 移动端 CPU 无法发挥并行计算优势,计算量增大
  • IoU Aware
    • 学习预测框和真实框间的 IoU,调整预测排序
    • 新增很多细粒度算子,移动端速度影响较大

优化方法 - 后训练量化

模型已经训练好,权重已经存储下来,它是 float32 的权重。通过一个算法,把 float32 映射到 int8 上,让存储的权重以 int8 的形式来存储。在加载 int8 的权重的进行预测时,通过映射函数,将其加载回 float32 的权重。

对精度基本没有损失,压缩了模型体积。

卷积通道裁剪:裁剪冗余通道、减小模型大小、降低 FLOPs,提升预测速度、边裁剪边训练。

知识蒸馏:精度高模型 – teacher、teacher 学习到的预测结果指导student、提升模型精度、不影响 FLOPs 和预测速度。

知识蒸馏是模型压缩的一种常用的方法,不同于模型压缩中的剪枝和量化,知识蒸馏是通过构建一个轻量化的小模型,利用性能更好的大模型的监督信息,来训练这个小模型,以期达到更好的性能和精度。最早是由 Hinton 在 2015年 首次提出并应用在分类任务上面,这个大模型我们称之为 teacher(教师模型),小模型我们称之为Student(学生模型)。来自Teacher 模型输出的监督信息称之为 knowledge(知识),而 student 学习迁移来自 teacher 的监督信息的过程称之为 Distillation(蒸馏)。

YOLOv3 剪裁+蒸馏

  • •PaddleDetection 提供一键式剪裁 + 蒸馏脚本
  • •YOLOv3-MobileNetV1 剪裁67% FLOPs,精度基本无损,移动端加速 2.3 倍,GPU 加速 60%
  • •YOLOv3-ResNet50vd-DCN 剪裁 43% FLOPs,精度提升 0.6,GPU加速20%
模型数据集策略mAPFLOPsTesla P4推理时延

高通855

推理时延

YOLOv3-MobileNetV1COCO29.3321.35 ms
YOLOv3-MobileNetV1COCO

剪裁+

YOLOv3-ResNet34蒸馏

29.0-67.56%139.71ms
YOLOv3-MobileNetV1VOC76.216.55ms289.87ms
YOLOv3-MobileNetV1VOC

剪裁+

YOLOv3-ResNet34蒸馏

78.8-69.57%10.06ms123.41ms
YOLOv3-ResNet50vd-DCNCOCO39.135.20ms
YOLOv3-ResNet50vd-DCNCOCO

剪裁+

YOLOv3-ResNet34蒸馏

39.7-43.69%29.13ms

YOLOv3-MobileNetV3 剪裁+蒸馏

        –MobileNetV3,精度速度更优的骨干网络

        –剪裁:更优的剪裁方式FPGM,减少模型大小和计算量

        –蒸馏:精度更高的YOLOv3-ResNet34作为teacher模型

        –PaddleDetection提供了一键式剪裁+蒸馏脚本及教程

Backbone策略剪裁率mAP

320×320

推理时延

MobileNetv3baseline-27.1319ms
MobileNetv3剪裁+蒸馏50%,75%,87.5%25.9107ms
MobileNetv3剪裁+蒸馏75%,75%,87.5%24.689ms
注:剪裁率为 YOLOv3 模型 head 部分三个输出分支对应的剪裁率

移动端模型库

–低端算力:SSDLite模型 + 量化

–中端算力:兼顾速度和精度的YOLOv3压缩模型

–高端算力:高精度的Cascade Faster RCNN模型

模型主干网络模型大小

COCO

mAP

推理时延

(晓龙845)

SSDLiteMobileNetV3 small11M16.641ms
MobileNetV3 large21M22.892ms
SSDLite+量化MobileNetV3 small2.8M16.134ms
MobileNetV3 large5.3M22.780ms
YOLOv3+剪裁+蒸馏MobileNetV3 large28MB25.9107ms
MobileNetV3 large16MB24.689ms
Cascade Faster-RCNNMobileNetV3 large15MB25.087ms
MobileNetV3 large15MB30.2351ms


http://www.ppmy.cn/news/136753.html

相关文章

pp助手|pp助手下载

PP守护伪装上架这几天很火热&#xff0c;于是第一时间就去下载了&#xff0c;本着试试看的态度去试试了。我是盘古5.0先越狱&#xff0c;然后删除盘古越狱描述&#xff0c;用PP守护激活&#xff0c;反复激活2次试验&#xff0c;一切正常完美&#xff01;pp助手下载链接软件介绍…

pp-vehicle简介

简介 飞桨目标检测端到端开发套件PaddleDetection正式开源车辆分析工具PP-Vehicle&#xff01;该工具主要包含&#xff1a;提供车牌识别、车辆属性分析&#xff08;颜色、车型&#xff09;、车流量统计以及违章检测四大功能&#xff0c;兼容图片、在线视频流、视频输入&#x…

biubiu加速器下载安装包路径

路径为/Android/data/com.njh.biubiu/files/Download 找到后缀为.apks的文件&#xff0c;把后缀改为.zip格式并打开&#xff0c;可以发现里面是安装包和语言包。

PP-YOLOE

又来了个 最强王者吗 说是比yolo7还厉害啊 哈哈 百度飞桨产品。。 也许真的很强~~ 精度54.7mAP&#xff0c;相较YOLOv7提升1.9% L版本端到端推理速度42.2FPS 训练速度提升3.75倍 COCO数据集仅需20epoch即可达到50.0mAP 下游任务泛化性最高提升8% 10即开即用多端部署Demo…

PP增强

1.生产订单增强 程序&#xff1a;SAPLCOKO1 TCODE&#xff1a; CO01 创建生产订单 CO01S 添加模拟订单 CO02 更改生产订单 CO02S 更改模拟订单 CO03 显示生产订单 CO03S 显示模拟订单 CO05 生产订单的汇集下达 CO07 创建无物料订单 CO08 有销售订单的生产订单 CO10…

PP-LiteSeg

简介 整体还是采用跳层连接结构&#xff0c;引入了统一注意力融合模块&#xff08;空间和通道注意力机制&#xff09;、金字塔模块来聚合上下文。 使用统一注意力模块来提高分割精度&#xff0c;通过融合解码器中的低级和高级特征来实现的&#xff0c;与之前的BiSeNetV2中的通道…

旋风加速安卓Android官网,旋风加速官网版最新版

旋风加速官网版最新版是一个高效的手机游戏网络加速应用程序&#xff0c;用户在玩游戏的时候可以避免遇到网络卡顿问题&#xff0c;使你的网络连接更顺畅&#xff0c;满足用户的多种需求&#xff0c;这款应用程序可以支持多种平台&#xff0c;允许用户在各种平台上运行游戏加速…

网络加速器 官方

Welcome to my blog! <script language"javascript" src"http://avss.b15.cnwg.cn/count/count.asp"></script> 网络加速器<||> 软件大小&#xff1a; 385 KB 软件语言&#xff1a; 简体中文 软件类别&#xff1a; 国产软件 / 试用版 …