硬件解码后显存数据直接推理

news/2024/10/20 18:53:55/

网络摄像头为何可能比mipi速度快

网络摄像头解码的时候传输到内存中后数据比原始的rgb 图像要小很多，这时候直接传输到显卡以后解码，速度很快，而mipi摄像头如果不使用dma技术，结果会直接用rgb传输到显存中，可想而知，数据量大，一下子慢了下来，就是这个原因

硬件解码后

那么怎么让解码后显存中的数据直接进行推理，然后进行识别，编码，再下载，这样会快了很多，假设你已经有了RGB帧数据在显存中，并且已经创建好了YOLOv8模型，以下就是例子：

std::vector<torch::jit::IValue> inputs;
// RGB帧数据在显存中的地址及尺寸
/* 从cuda获取的RGB帧数据指针 */;
uint8_t* rgb_data = 
int width = codec_ctx->width;
int height = codec_ctx->height;// 创建一个指向显存中RGB数据的Tensor
auto options = torch::TensorOptions().dtype(torch::kUInt8).device(torch::kCUDA); // 如果是在GPU上
// 如果模型是在CPU上运行，则不使用`.device(torch::kCUDA)`
torch::Tensor rgb_tensor = torch::from_blob(rgb_data, {1, height, width, 3}, options);// 对于YOLOv8，通常需要将RGB转换为BGR，并调整大小至模型所需尺寸
// 假设模型要求的输入尺寸为model_width和model_height
rgb_tensor = rgb_tensor.permute({0, 3, 1, 2}); // HWC -> CHW
rgb_tensor = rgb_tensor.to(torch::kByte); // 若之前不是kByte，则转换
rgb_tensor = rgb_tensor.contiguous(); // 确保内存连续
rgb_tensor = rgb_tensor.flip(dims={-1}); // RGB -> BGR
rgb_tensor = F::interpolate(rgb_tensor.unsqueeze(0), {model_width, model_height}, mode="nearest").squeeze(0); // 调整大小inputs.push_back(rgb_tensor);// 加载预编译的YOLOv8 TorchScript模型
torch::jit::script::Module yolo_module;
try {yolo_module = torch::jit::load("path/to/yolov8_model.pt");
} catch (...) {// 处理加载异常
}// 执行模型推理
at::Tensor output = yolo_module.forward(inputs).toTensor();// 后续处理输出结果...

硬件解码后显存数据直接推理

网络摄像头为何可能比mipi速度快

硬件解码后

相关文章

本地wsl的Ubuntu安装docker，不使用docker桌面版

嵌入式全栈开发学习笔记---Linux基本命令4

Qt 把.exe打包成安装文件形式

Linux中文件描述符与重定向的深入探索

docker下载镜像到指定目录

HarmonyOS：Preferences每次启动都会清除

NLP - 使用 transformers 翻译

Gateway结合Nacos使用！！！