Pytorch -> ONNX -> TensorRT 模型转换与部署

news/2025/2/12 20:09:20/

系统环境:

  • Ubuntu 18.04
  • Cuda 11.3
  • Cudnn 8.4.1

1 、Pytorch -> ONNX

网上相关流程很多,我就不重复了
可以参考Pytorch分类模型转onnx以及onnx模型推理
或者直接看Pytorch官方怎么干的。

ONNX Github

onnxruntime调用onnx模型推理时有一个provider的参数,可选 [‘TensorrtExecutionProvider’, ‘CUDAExecutionProvider’, ‘CPUExecutionProvider’],不知道是还需要其他设置还是怎样,'TensorrtExecutionProvider’和’CPUExecutionProvider’的推理速度是一样的,只有’CUDAExecutionProvider’相对比另两者快一个数量级
不如原本的Pytroch模型推理快……, 这肯定是不能采用的!

2、 ONNX -> TensorRT

TensorRT是英伟达官方出的,自己的模型调自己的显卡,应当是最优的吧?网上很多帖子确实也都是这么写的。抱着这个期望,再来研究研究怎么转到TensorRT进行部署。

2.1 库安装

TensorRT 提供C++和Python版本的API,并且二者相互独立。
我们大可只装其一。我这里介绍pip wheel 、debian和tar包的安装方法,其他如rpm、zip的可以移步官方安装教程(英文)。

TensorRT – Python

仅用python的话这一块就足够了,不用下载deb、tar 或者 zip文件。 如果你还想试试C++,并且你还比较喜欢Cmake的话,建议 直接跳去 TensorRT – C++ tar 的一节

TensorRT 8.5 以上的版本用以下命令装:

pip install --upgrade tensorrt
# pip install --upgrade tensorrt==8.5.1.7

我装的是8.4,用这种命令装:

pip install --upgrade setuptools pip
pip install nvidia-pyindexpip install --upgrade nvidia-tensorrt
# pip install --upgrade nvidia-tensorrt==8.4.3.1
pip install pycuda

测试一下:

python3
>>> import tensorrt
>>> print(tensorrt.__version__)
>>> assert tensorrt.Builder(tensorrt.Logger())

在这里插入图片描述

因为我这边对耗时要求较高,时间较紧,主要测了C++版本,Python的实际调用可以参考官方的Demo

TensorRT – C++ deb

这种方法没有给库文件一个单独的文件夹,导致CMake调用很不优美。难过能力有限,最终还是用的这种……

官网下载cuda对应版本的TensorRT库(看名就知道了)。 我下载的是面前最新的 TensorRT 8 (保险起见不用目前最新的8.5)
在这里插入图片描述

os="ubuntuxx04"
tag="cudax.x-trt8.x.x.x-ea-yyyymmdd"
sudo dpkg -i nv-tensorrt-repo-${os}-${tag}_1-1_amd64.deb
# sudo dpkg -i nv-tensorrt-repo-ubuntu1804-cuda11.6-trt8.4.3.1-ga-20220813_1-1_amd64.deb
sudo apt-key add /var/nv-tensorrt-repo-${tag}/7fa2af80.pub
# sudo apt-key add /var/nv-tensorrt-repo-ubuntu1804-cuda11.6-trt8.4.3.1-ga-20220813/c1c4ee19.pubsudo apt-get update
sudo apt-get install tensorrt

虽然命令行显示的是cuda11.6,不过没关系,上面官网不是写着11.0-11.6都适用嘛。

pip install numpy
sudo apt-get install python3-libnvinfer-dev

然后安装执行onnx的相关库:

pip install onnx
sudo apt-get install onnx-graphsurgeon

如果你还打算用TensorFlow,执行下面命令,否则不用。

pip install protobuf
sudo apt-get install uff-converter-tf

检查下安装是否成功:

dpkg -l | grep TensorRT

在这里插入图片描述

卸载方法

sudo apt-get purge "libnvinfer*"
sudo apt-get purge "nv-tensorrt-repo*"
sudo apt-get purge onnx-graphsurgeon
sudo pip3 uninstall tensorrt
sudo pip3 uninstall uff
sudo pip3 uninstall graphsurgeon
sudo pip3 uninstall onnx-graphsurgeon

TensorRT – C++ tar

tar的安装方法对库的路径更自由些,对使用者的要求也更高点

安装还是去官网
在这里插入图片描述

tar -xzvf TensorRT-8.4.3.1.Linux.x86_64-gnu.cuda-11.6.cudnn8.4.tar.gz
cd TensorRT-8.4.3.1.Linux.x86_64-gnu.cuda-11.6.cudnn8.4# 个人习惯,也可以不做copy,只是后面的路径也要注意
cp -r TensorRT-8.4.3.1 /usr/local/include/TensorRT-8.4.3.1 

修改环境变量:

export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/include/TensorRT-8.4.3.1/lib
alias trtexec="/usr/local/include/TensorRT-8.4.3.1/bin/trtexec"
# 如果是 deb 安装的,则可能是:
alias trtexec="/usr/src/tensorrt/bin/trtexec"
# or 
alias trtexec="/usr/local/tensorrt/bin/trtexec"

之后 source ~/.bashrc

然后装 python 库:

cd TensorRT-8.4.3.1/python
conda activate tensorrt_env
# 根据 python版本选择,我的是python3.9
pip install tensorrt-8.4.3.1-cp39-none-linux_x86_64.whl 
cd ../graphsurgeon
pip install graphsurgeon-0.4.6-py2.py3-none-any.whl
cd ../onnx_graphsurgeon
pip install onnx_graphsurgeon-0.3.12-py2.py3-none-any.whl
pip install 'pycuda<2021.1'

2.2 ONNX转TensorRT

通过下面一行命令就可以转换TensorRT格式了:

trtexec --onnx=2Dmodel.onnx --saveEngine=2Dmodel.trt

在这里插入图片描述
trtexec的更多参数参考这里

2.3 TensorRT部署

github 找到 TensorRT/quickstart/common
把common整个文件夹copy到 include下

├── include
│ ├── common
│ │ ├── logger.cpp
│ │ ├── logger.h
│ │ ├── logging.h
│ │ ├── util.cpp
│ │ └── util.h
│ └── others

是的,库文件我们只要这么多就行了。

CmakeList.txt

cmake_minimum_required(VERSION 3.13)
project(model_deploy)#set(CMAKE_BUILD_TYPE Release)
set(CMAKE_BUILD_TYPE Debug)set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} -fexceptions" )
set(CMAKE_CXX_STANDARD 11)
set(CMAKE_CXX_STANDARD_REQUIRED ON)
set(CMAKE_CXX_EXTENSIONS OFF)
set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -std=c++11 -pthread -std=c++0x -fexceptions -no-pie -O3")# CUDA
include_directories(CUDA_INCLUDE_DIRS "/usr/local/cuda-11.3/include")
set(CUDA_LIB "/usr/local/cuda-11.3/lib64/libcudart.so")# TensorRT
## 这块 Developer API 用的,弄好了可以直接用TensorRT写网络而不是转换过来,可惜没跑通
#set(TensorRT_INCLUDE_DIRS "/usr/local/include/TensorRT-8.4.3.1/include"
#        "/usr/local/include/TensorRT-8.4.3.1/samples/common"
#        )
#set(TensorRT_LIB_PATH "/usr/local/include/TensorRT-8.4.3.1/lib")
#file(GLOB TRT_LIB "${TensorRT_LIB_PATH}/*.so" "${TensorRT_LIB_PATH}/stubs/*.so")set(TRT_LIB "/usr/lib/x86_64-linux-gnu/libnvinfer.so"
#        "/usr/lib/x86_64-linux-gnu/libnvinfer_plugin.so"
#        "/usr/lib/x86_64-linux-gnu/libnvinfer_builder_resource.so.8"
#        "/usr/lib/x86_64-linux-gnu/libnvcaffe_parser.so"
#        "/usr/lib/x86_64-linux-gnu/libnvonnxparser.so"
#        "/usr/lib/x86_64-linux-gnu/libnvparsers.so"
#        "/usr/lib/x86_64-linux-gnu/libprotobuf.so"
#        "/usr/lib/x86_64-linux-gnu/libprotobuf-lite.so")message("Current CPU archtecture: ${CMAKE_SYSTEM_PROCESSOR}")include_directories(includeinclude/common${catkin_INCLUDE_DIRS}${CUDA_INCLUDE_DIRS}
)# C++ branch
## TensorRT
add_executable(test_tensorrt src/test_tensorrt.cpp include/common/util.cpp include/common/logger.cpp)
target_link_libraries(test_tensorrt ${CUDA_LIB} ${TRT_LIB})

然后按照 quick start C++ 的步骤跑吧,不想copy了……
除了makefile,剩下的都copy到camkeList.txt所在目录,然后就可以用Clion,或者命令行编译也行:

mkdir build
cd build
cmake ..

如果遇到下面问题
在这里插入图片描述
这是TensorRT版本问题,找到logging.h的245行,把 override 改成 noexcept 即可

另外更高级的使用参考Nvidia TensorRT Developer Guide,C++能力有限,想用Cmake跑,没跑通……

Reference

Nvidia TensorRT Document
Nvidia TensorRT installation guide
Nvidia TensorRT Quick Start Guide
Nvidia TensorRT C++ API

Nvidia TensorRT Developer Guide
Nvidia TensorRT C++ Samples

TensrRT github
Linux之cudnn升级方法


http://www.ppmy.cn/news/1401.html

相关文章

[静态时序分析简明教程(八)]虚假路径

静态时序分析简明教程-虚假路径一、写在前面1.1 快速导航链接二、虚假路径2.1 set_false_path2.2 -from -to -through2.3 上升/下降沿 约束2.4 建立/保持 约束2.5 虚假路径示例三、总结一、写在前面 一个数字芯片工程师的核心竞争力是什么&#xff1f;不同的工程师可能给出不同…

模型效果不好?推荐你8种机器学习调参技巧

大家好&#xff0c;今天给大家一篇关于机器学习调参技巧的文章 超参数调优是机器学习例程中的基本步骤之一。该方法也称为超参数优化&#xff0c;需要搜索超参数的最佳配置以实现最佳性能。 机器学习算法需要用户定义的输入来实现准确性和通用性之间的平衡。这个过程称为超参…

python -- PyQt5(designer)中文详细教程(一)Qt的基本功能

在介绍PyQt5中文详细教程前&#xff0c;如有需要安装PyQt5的同学可以在此 PyQt5安装详细教程_M_Q_T的博客-CSDN博客参考安装&#xff0c;里面有详细的安装内容。 下一章内容python -- PyQt5&#xff08;designer&#xff09;中文详细教程(二)菜单和工具栏 ​​​​​​​http:…

自动化运维工具-----Ansible

一、主流自动 1.1 Puppet Puppet 是早期的 Linux 自动化运维工具&#xff0c;是一种 Linux、Unix、Windows 平台的集中配置管理系统&#xff0c;发展至今目前已经非常成熟&#xff0c;可以批量管理远程服务器&#xff0c;模块丰富&#xff0c;配置复杂&#xff0c;基于 Ruby …

Hadoop原理与技术——Linus命令行基本操作

点击链接查看文档 一、实验目的 Hadoop运行在Linux系统上&#xff0c;因此&#xff0c;需要学习实践一些常用的Linux命令。本实验旨在熟悉常用的Linux操作&#xff0c;为顺利开展后续其他实验奠定基础。 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 J…

我们为什么需要调用InitCommonControls?

很多第一次使用外壳通用控件 (Shell common controls) 的新手碰到的问题之一是&#xff1a;他们经常忘记调用 InitCommonControls 。 但是如果你有机会查看这个函数的反汇编代码&#xff0c;则你会发现&#xff1a;这个函数实际上不做任何事情&#xff0c;就像另外一个函数 Flu…

我的周刊(第068期)

我的信息周刊&#xff0c;记录这周我看到的有价值的信息&#xff0c;主要针对计算机领域&#xff0c;内容主题极大程度被我个人喜好主导。这个项目核心目的在于记录让自己有印象的信息做一个留存以及共享。&#x1f3af; 项目osquery[1]像操作 SQL 一样操作你的电脑&#xff0c…

人工智能轨道交通行业周刊-第25期(2022.11.28-12.4)

本期关键词&#xff1a;液体安检仪、智慧车站、大机作业、动车打温、实时人体姿态估计、图像压缩 1 整理涉及公众号名单 1.1 行业类 RT轨道交通中关村轨道交通产业服务平台人民铁道世界轨道交通资讯网铁路信号技术交流北京铁路轨道交通网上榜铁路视点ITS World轨道交通联盟V…