OpenCV4 :并行计算cv::parallel_for_

news/2025/2/21 7:22:59/

OpenCV4 :并行计算cv::parallel_for_

在计算机视觉和图像处理领域,OpenCV(开源计算机视觉库)是一个非常强大和广泛使用的库。随着图像分辨率的提高和计算任务的复杂度增加,实时处理变得越来越困难。为了解决这个问题,OpenCV提供了并行处理能力,可以显著提高代码的性能。本文将介绍如何利用OpenCV的并行处理能力来优化图像处理任务。

OpenCV的并行框架

OpenCV自2.4版本以来就提供了一个并行框架,允许在多个核心或处理器上并行执行代码。该框架提供了一种简单且高效的方式来编写可以利用多核处理器的代码。OpenCV4继续沿用并扩展了这个并行框架,增加了对新硬件和平台的支持。

官方文档中的并行框架教程为我们提供了详细的指南和示例代码,说明了如何使用OpenCV的cv::parallel_for_函数。

cv::parallel_for_函数

cv::parallel_for_函数是OpenCV并行框架的核心。该函数允许我们并行执行循环,每个循环迭代可以在不同的线程上执行。cv::parallel_for_函数接受一个cv::Range对象和一个实现了cv::ParallelLoopBody接口的对象。

cv::parallel_for_(cv::Range(0, count), MyParallelLoopBody());

其中,MyParallelLoopBody需要实现cv::ParallelLoopBody接口的virtual void operator()(const cv::Range& range) const方法。

并行卷积示例

我们创建了两个并行卷积类:parallelConvparallelConvByRow,它们都继承了cv::ParallelLoopBody接口。parallelConv类按图像的每个像素并行执行卷积,而parallelConvByRow类则按图像的每行并行执行卷积。

parallelConv

parallelConv类的构造函数接受源图像、目标图像和卷积核作为参数。它还计算了卷积核的半径,并为源图像添加了边框以处理边界像素。

class parallelConv : public cv::ParallelLoopBody
{
private:Mat m_src;Mat& m_dst;Mat m_kernel;int sz;public:parallelConv(Mat src, Mat& dst, Mat kernel): m_src(src), m_dst(dst), m_kernel(kernel), sz(kernel.rows / 2){cv::copyMakeBorder(src, m_src, sz, sz, sz, sz, cv::BORDER_REPLICATE);}virtual void operator()(const cv::Range& range) const override{for (int r = range.start; r < range.end; ++r){auto [i, j] = std::div(r, m_dst.cols);double value = 0;for (int k = -sz; k <= sz; ++k){auto sptr = m_src.ptr(i + sz + k);for (int l = -sz; l <= sz; ++l){value += m_kernel.at<double>(k + sz, l + sz) * sptr[j + sz + l];}}m_dst.at<uchar>(i, j) = cv::saturate_cast<uchar>(value);}}
};

operator()方法中,我们遍历了指定范围内的所有像素,并为每个像素执行卷积操作。

parallelConvByRow

parallelConv类类似,parallelConvByRow类也接受源图像、目标图像和卷积核作为参数,并为源图像添加了边框。

class parallelConvByRow : public cv::ParallelLoopBody
{
private:Mat m_src;Mat& m_dst;Mat m_kernel;int sz;int cols;public:parallelConvByRow(Mat src, Mat& dst, Mat kernel): m_src(src), m_dst(dst), m_kernel(kernel), sz(kernel.rows / 2), cols(src.cols){cv::copyMakeBorder(src, m_src, sz, sz, sz, sz, cv::BORDER_REPLICATE);}virtual void operator()(const cv::Range& range) const override{for (int i = range.start; i < range.end; ++i){if (i >= m_dst.rows){continue;}auto dptr = m_dst.ptr<uchar>(i);for (int j = 0; j < cols; ++j){double value = 0;for (int k = -sz; k <= sz; ++k){auto sptr = m_src.ptr(i + sz + k);for (int l = -sz; l <= sz; ++l){value += m_kernel.at<double>(k + sz, l + sz) * sptr[j + sz + l];}}dptr[j] = cv::saturate_cast<uchar>(value);}}}
};

operator()方法中,我们遍历了指定范围内的所有行,并为每行的每个像素执行卷积操作。

性能比较

通过比较顺序卷积和两种并行卷积的执行时间,我们可以看到并行卷积显著提高了性能。尤其是在处理大图像或使用大卷积核时,这种性能提升尤为明显。

	// 非并行方法auto start_seq = std::chrono::high_resolution_clock::now();seqConv(src, dst_seq, kernel);auto end_seq = std::chrono::high_resolution_clock::now();std::chrono::duration<double> diff_seq = end_seq - start_seq;std::cout << "Time taken by sequential method: " << diff_seq.count() << " s" << std::endl;// 方法 1:整体遍历auto start1 = std::chrono::high_resolution_clock::now();parallelConv obj1(src, dst1, kernel);cv::parallel_for_(cv::Range(0, src.rows * src.cols), obj1);auto end1 = std::chrono::high_resolution_clock::now();std::chrono::duration<double> diff1 = end1 - start1;std::cout << "Time taken by whole image traversal: " << diff1.count() << " s" << std::endl;// 方法 2:按行遍历auto start2 = std::chrono::high_resolution_clock::now();parallelConvByRow obj2(src, dst2, kernel);cv::parallel_for_(cv::Range(0, src.rows), obj2);auto end2 = std::chrono::high_resolution_clock::now();std::chrono::duration<double> diff2 = end2 - start2;std::cout << "Time taken by row-by-row traversal: " << diff2.count() << " s" << std::endl;
Time taken by sequential method: 0.308864 s
Time taken by whole image traversal: 0.2328 s
Time taken by row-by-row traversal: 0.169044 s

image-20231017150538260

image-20231017150442676

完整代码

#include <iostream>
#include <opencv2/core/core.hpp>
#include <opencv2/highgui/highgui.hpp>
#include <opencv2/imgproc/imgproc.hpp>
#include <chrono>
#include <span>
using cv::Mat;void seqConv(Mat src, Mat& dst, Mat kernel)
{const int rows = src.rows, cols = src.cols;dst = Mat(rows, cols, src.type());int sz = kernel.rows / 2;Mat src_padded;cv::copyMakeBorder(src, src_padded, sz, sz, sz, sz, CV_HAL_BORDER_REPLICATE);for (int i = 0; i < rows; ++i){auto dptr = dst.ptr<uchar>(i);for (int j = 0; j < cols; ++j){double value = 0;for (int k = -sz; k <= sz; ++k){auto sptr = src_padded.ptr<uchar>(i + sz + k);for (int l = -sz; l <= sz; ++l){value += kernel.ptr<double>(k + sz)[l + sz] * sptr[j + sz + l];}}dptr[j] = cv::saturate_cast<uchar>(value);}}
}class parallelConv : public cv::ParallelLoopBody
{
private:Mat m_src;Mat& m_dst;Mat m_kernel;int sz;public:parallelConv(Mat src, Mat& dst, Mat kernel): m_src(src), m_dst(dst), m_kernel(kernel), sz(kernel.rows / 2){cv::copyMakeBorder(src, m_src, sz, sz, sz, sz, cv::BORDER_REPLICATE);}virtual void operator()(const cv::Range& range) const override{for (int r = range.start; r < range.end; ++r){auto [i, j] = std::div(r, m_dst.cols);double value = 0;for (int k = -sz; k <= sz; ++k){auto sptr = m_src.ptr(i + sz + k);for (int l = -sz; l <= sz; ++l){value += m_kernel.at<double>(k + sz, l + sz) * sptr[j + sz + l];}}m_dst.at<uchar>(i, j) = cv::saturate_cast<uchar>(value);}}
};class parallelConvByRow : public cv::ParallelLoopBody
{
private:Mat m_src;Mat& m_dst;Mat m_kernel;int sz;int cols;public:parallelConvByRow(Mat src, Mat& dst, Mat kernel): m_src(src), m_dst(dst), m_kernel(kernel), sz(kernel.rows / 2), cols(src.cols){cv::copyMakeBorder(src, m_src, sz, sz, sz, sz, cv::BORDER_REPLICATE);}virtual void operator()(const cv::Range& range) const override{for (int i = range.start; i < range.end; ++i){if (i >= m_dst.rows){continue;}auto dptr = m_dst.ptr<uchar>(i);for (int j = 0; j < cols; ++j){double value = 0;for (int k = -sz; k <= sz; ++k){auto sptr = m_src.ptr(i + sz + k);for (int l = -sz; l <= sz; ++l){value += m_kernel.at<double>(k + sz, l + sz) * sptr[j + sz + l];}}dptr[j] = cv::saturate_cast<uchar>(value);}}}
};int main(int argc, char* argv[])
{cv::setNumThreads(4);Mat src = cv::imread(R"(C:\4.jpg)", cv::IMREAD_GRAYSCALE); // 读取灰度图像if (src.empty()){std::cerr << "Could not read the image!" << std::endl;return 1;}Mat kernel = (cv::Mat_<double>(7, 7) << 0, 0, 0, 0, 0, 0, 0,0, 0, -1, -1, -1, 0, 0,0, -1, -1, -1, -1, -1, 0,0, -1, -1, 24, -1, -1, 0,0, -1, -1, -1, -1, -1, 0,0, 0, -1, -1, -1, 0, 0,0, 0, 0, 0, 0, 0, 0);Mat dst1, dst2, dst_seq;dst1 = Mat::zeros(src.size(), src.type());dst2 = Mat::zeros(src.size(), src.type());parallelConv obj(src, dst1, kernel);cv::parallel_for_(cv::Range(0, src.rows * src.cols), obj);// 非并行方法auto start_seq = std::chrono::high_resolution_clock::now();seqConv(src, dst_seq, kernel);auto end_seq = std::chrono::high_resolution_clock::now();std::chrono::duration<double> diff_seq = end_seq - start_seq;std::cout << "Time taken by sequential method: " << diff_seq.count() << " s" << std::endl;// 方法 1:整体遍历auto start1 = std::chrono::high_resolution_clock::now();parallelConv obj1(src, dst1, kernel);cv::parallel_for_(cv::Range(0, src.rows * src.cols), obj1);auto end1 = std::chrono::high_resolution_clock::now();std::chrono::duration<double> diff1 = end1 - start1;std::cout << "Time taken by whole image traversal: " << diff1.count() << " s" << std::endl;// 方法 2:按行遍历auto start2 = std::chrono::high_resolution_clock::now();parallelConvByRow obj2(src, dst2, kernel);cv::parallel_for_(cv::Range(0, src.rows), obj2);auto end2 = std::chrono::high_resolution_clock::now();std::chrono::duration<double> diff2 = end2 - start2;std::cout << "Time taken by row-by-row traversal: " << diff2.count() << " s" << std::endl;cv::imshow("Original Image", src);cv::imshow("Sequential Method", dst_seq);cv::imshow("Whole Image Traversal", dst1);cv::imshow("Row-by-Row Traversal", dst2);cv::waitKey(0);return 0;return 0;
}

公众号:coding日记


http://www.ppmy.cn/news/1158988.html

相关文章

ChatGPT教你5分钟解锁国际象棋技能

国际象棋是一种很好玩的棋类游戏&#xff0c;走法和规则与中国象棋有所区别。如果想要快速入门&#xff0c;可以把ChatGPT当做私人教练&#xff0c;提出这些问题&#xff1a; ●作为零基础的初学者&#xff0c;学习国际象棋的最佳方法是什么&#xff1f;如何快速入门&#xff…

flutter开发实战-下拉刷新与上拉加载更多实现

flutter开发实战-下拉刷新与上拉加载更多实现 在开发中经常遇到列表需要下拉刷新与上拉加载更多&#xff0c;这里使用EasyRefresh&#xff0c;版本是3.3.21 一、什么是EasyRefresh EasyRefresh可以在Flutter应用程序上轻松实现下拉刷新和上拉加载。它几乎支持所有Flutter Sc…

计网面试复习自用

五层&#xff1a; 应用层&#xff1a;应用层是最高层&#xff0c;负责为用户提供网络服务和应用程序。在应用层&#xff0c;用户应用程序与网络进行交互&#xff0c;发送和接收数据。典型的应用层协议包括HTTP&#xff08;用于网页浏览&#xff09;、SMTP&#xff08;用于电子邮…

游戏缺少dll文件用什么修复?dll多种修复方法指南

在玩游戏时&#xff0c;有时候可能会遇到游戏缺少dll文件的问题。dll文件是动态链接库的缩写&#xff0c;它包含了一些函数和资源&#xff0c;游戏运行需要依赖这些文件。如果缺少了某个dll文件&#xff0c;游戏就可能无法正常运行。那么游戏缺少dll文件用什么修复&#xff1f;…

关于React

当今的Web开发世界中&#xff0c;React已经成为前端开发的主要工具之一。它的强大和灵活性使开发人员能够构建复杂的用户界面&#xff0c;同时保持代码的可维护性。本篇博客文章将深入探讨React&#xff0c;包括其核心概念、组件化开发、状态管理、性能优化和生态系统。 1. Re…

C++产生未定义的行为的原因分析

前言 最近一直在做QT开发&#xff0c;编程环境是VS2017和QT5.11.2 经常遇到的问题就是&#xff0c;在VS中调试程序&#xff0c;前面都是正常运行的&#xff0c;但是当关闭窗口&#xff0c;退出程序的时候&#xff0c;VS会抛出一个异常 “未加载ntdll.pdb&#xff0c;触发了一…

videojs和videojs-markers

文章目录 videojs安装使用videojs常用选项video.js特定选项 videojs-markers安装使用说明方法 videojs video.js是一款基于HTML5的网络视频播放器。它支持HTML5和Flash视频&#xff0c;以及YouTube和Vimeo&#xff08;通过插件&#xff09;&#xff0c;Video.js 自动检测浏览器…

解决Dev C++编译或运行报错 Source file not compiled

最近在研究青少年编程&#xff0c;用到DevC&#xff0c;写了个程序点击编译并运行后&#xff0c;我得到了一个错误消息&#xff1a;Source file not compiled。网上查了一下&#xff1a;原因是bloodshed Dev C与Windows10或者11不兼容所以才会报&#xff1a;Source file not co…