YOLOv8模型ONNX格式INT8量化轻松搞定

news/2024/12/22 15:00:07/

ONNX格式模型量化

深度学习模型量化支持深度学习模型部署框架支持的一种轻量化模型与加速模型推理的一种常用手段,ONNXRUNTIME支持模型的简化、量化等脚本操作,简单易学,非常实用。

ONNX 模型量化常见的量化方法有三种:动态量化、静态量化、感知训练量化,其中ONNXRUNTIME支持的动态量化机制非常简单有效,在保持模型精度基本不变的情况下可以有效减低模型的计算量,可以轻松实现INT8量化。


1. 动态量化:此方法动态计算激活的量化参数(刻度和零点)。
2. 静态量化:它利用校准数据来计算激活的量化参数。
3. 量化感知训练量化:在训练时计算激活的量化参数,训练过程可以将激活控制在一定范围内。

当前ONNX支持的量化操作主要有:

image.png

Opset版本最低不能低于10,低于10不支持,必须重新转化为大于opset>10的ONNX格式。模型量化与图结构优化有些是不能叠加运用的,模型开发者应该意识这点,选择适当的模型优化方法。

ONNXRUNTIME提供的模型量化接口有如下三个:

1. quantize_dynamic:动态量化
2. quantize_static:静态量化
3. quantize_qat:量化感知训练量化

FP16量化

首先需要安装好ONNX支持的FP16量化包,然后调用相关接口即可实现FP16量化与混合精度量化。安装FP16量化支持包命令行如下:

pip install onnx onnxconverter-common

实现FP16量化的代码如下:

import onnx
from onnxconverter_common import float16model = onnx.load("path/to/model.onnx")
model_fp16 = float16.convert_float_to_float16(model)
onnx.save(model_fp16,"path/to/model_fp16.onnx")

INT8量化

最简单的量化方式是动态量化与静态量化。选择感知训练量化机制,即可根据输入ONNX格式模型生成INT8量化模型,代码如下:

import onnx
from onnxruntime.quantization import quantize_qat, QuantTypemodel_fp32 = "path/to/model.onnx"
model_quant = "path/to/model.quant.onnx"# 加载FP32模型
onnx_model = onnx.load(model_fp32)# 进行量化
quantized_model = quantize_qat(model=onnx_model,quantization_type=QuantType.QInt8,force_fusions=True
)# 保存量化模型
onnx.save_model(quantized_model, model_quant)

案例说明

YOLOv8自定义模型ONNXINT8量化版本对象检测演示

以作者训练自定义YOLOv8模型为例,导出DM检测模型大小为,对比导出FP32版本与INT8版本模型大小,相关对比信息如下:

image.png

使用INT8版本实现DM码检测,运行截图如下:

image.png

ONNXRUNTIME更多演示

YOLOv8 对象检测 C++ 

image.png

YOLOv8实例分割模型 C++ 推理:

image.png

UNet语义分割模型 C++ 推理:

image.png

Mask-RCNN实例分割模型 C++ 推理:

image.png

YOLOv8姿态评估模型 C++ 推理:

image.png

人脸关键点检测模型 C++ 推理:

image.png

人脸关键点检测模型 Python SDK 推理:

image.png

学会用C++部署YOLOv5与YOLOv8对象检测,实例分割,姿态评估模型,TorchVision框架下支持的Faster-RCNN,RetinaNet对象检测、MaskRCNN实例分割、Deeplabv3 语义分割模型等主流深度学习模型导出ONNX与C++推理部署,轻松解决Torchvision框架下模型训练到部署落地难题。


http://www.ppmy.cn/news/1209984.html

相关文章

Zookeeper篇---第三篇

系列文章目录 文章目录 系列文章目录一、Zookeeper 集群中Server有哪些工作状态?二、 Zookeeper 集群中是怎样选举leader的?三、Zookeeper 是如何保证事务的顺序一致性的呢?一、Zookeeper 集群中Server有哪些工作状态? LOOKING 寻找 Leader 状态;当服务器处于该状态时,它…

jenkins通知

构建失败邮件通知 配置自己的邮箱 配置邮件服务,密码是授权码 添加构建后操作 扩展 配置流水线 添加扩展 钉钉通知 Jenkins安装钉钉插件 钉钉添加机器人 加签 https://oapi.dingtalk.com/robot/send?access_token98437f84ffb6cd64fa2d7698ef44191d49a11…

Unity中Shader的间接光的产生Meta Pass

文章目录 前言Unity中Shader的间接光的产生Meta Pass,这也是属于全局光照 GI 的内容。主要实现像现实生活中,光线照到有颜色的物体后,该物体有反射出该颜色的光的效果。 一、我们先使用Unity自带的Shader看看间接光效果1、先按照如下设置搭建…

漫谈广告机制设计 | 万剑归宗:聊聊广告机制设计与收入提升的秘密(1)

小时候看武侠电视剧《风云》的时候,其中无名有一招叫“万剑归宗”,乃是剑术最高境界。修炼的口诀是“万气自生,剑冲废穴;归元武学,宗远功长”,也就是说欲练此功,先自废武功,然后回归…

Spring Boot中处理简单的事务

说到事务,我们第一影响应该是数据库管理系统的一个重要概念。 事务(Transaction)是数据库管理系统(DBMS)中的一个概念,用于管理对数据库的一组操作,这些操作要么全部成功执行,要么全…

Openreview IClR2024审稿意见以及如何rebuttal

R1 为什么直接从其他剧集获取信息可以提高性能,尽管动态可能会有所不同。 请与其他一些数据增强基线进行比较。 R2 问题: 批评者和价值差异d(s,a,s,a)似乎是在IM中共同学习的。为什么这是…

整治PPOCRLabel中cv2文件读取问题(更新中)

PPOCRLabel 使用PPOCRLabel对ocr预标注结果进行纠正由于PaddleOCR代码库十分混乱,路径经常乱掉pip和代码库的代码,经常报错,ocr也是使用paddleocr的pip包; 安装 pip install PPOCRLabel2.1.3启动 PPOCRLabel --lang ch修改记录 修改1: 报错&#x…

AIX5.3安装weblogic10.3

目录 1安装IBM JDK 1.6 2图形化准备 3安装weblogic 准备 4图形化界面安装 1安装IBM JDK 1.6 1.1检查操作系统 # oslevel 5.3.0.0 # bootinfo -y (显示AIX机器硬件是64位) 64 # bootinfo -K (显示AIX系统内核是64位) 64 因此,系统需要安装64位的jdk,…