OpenCV的图像分割

news/2025/1/15 22:07:39/

1、基本概念

图像分割是计算机视觉图像处理中的一个关键步骤,它指的是将图像划分为多个区域或对象的过程。这些区域或对象在某种特性(如颜色、形状、纹理或亮度等)上是一致的或相似的,而在不同区域之间则存在明显的差异。图像分割的目标是从图像中提取出感兴趣的部分,以便于后续的图像分析和理解。
具体来说,图像分割可以进一步细分为不同的类型,包括:

  1. 阈值分割:这是最简单的一种分割方法,它基于图像的灰度值或颜色值来设定一个或多个阈值,从而将图像分割为不同的区域。例如,在二值化过程中,选择一个阈值,将高于该阈值的像素设为白色,低于该阈值的像素设为黑色。
  2. 基于边缘的分割:这种方法依赖于图像中的边缘信息,即灰度值或颜色值发生显著变化的位置。通过检测这些边缘,可以将图像划分为不同的部分。
  3. 基于区域的分割:这种方法根据像素的相似性将图像划分为区域。常见的算法包括区域生长和分裂合并等。
  4. 基于图论的分割:如最小割/最大流算法等,将图像视为一个图,像素作为图的节点,节点之间的相似性作为边的权重,通过求解图的最优划分来实现图像分割。
  5. 基于深度学习的分割:近年来,随着深度学习技术的发展,基于卷积神经网络(CNN)的图像分割方法取得了显著的效果。这些方法通过学习大量的训练数据来自动提取图像特征,并实现对图像的精确分割。例如,全卷积网络(FCN)、U-Net等模型在医学图像分割、场景理解等领域得到了广泛应用。

2、OpenCV的分割API

2.1 threshold

cv.threshold 是 OpenCV 库中用于图像阈值化处理的一个非常重要的函数,使用最多的就是其中包含的OTSU分割方法,又称大津法。其函数原型和参数详细解释如下:

retval, dst = cv.threshold(src, thresh, maxval, type[, dst])

参数详细解释

  1. src:输入图像。这可以是 8 位的灰度图,也可以是 32 位的浮点数图像。但在实际应用中,阈值处理通常在灰度图像上进行。
  2. dst:输出图像。与输入图像具有相同的大小和类型。函数处理后的图像将存储在这里。
  3. thresh:这是用于将像素分类的阈值。如果源图像中某个像素的灰度值大于或等于这个阈值,则目标图像中对应像素的灰度值将被设置为 maxval(对于某些阈值类型,如 THRESH_BINARY);否则,将被设置为 0(对于 THRESH_BINARY 类型)。
  4. maxval:当像素值超过(或在某些阈值类型下,小于)阈值时应该赋予的新值。对于二值化操作,这个值通常是 255,表示白色。
  5. type:阈值类型,决定了阈值操作的具体方式。常见的阈值类型包括:
  • cv::THRESH_BINARY(或 cv2.THRESH_BINARY 在 Python 中):二值化。大于阈值的像素被设置为 maxval,小于阈值的像素被设置为 0。
  • cv::THRESH_BINARY_INV(或 cv2.THRESH_BINARY_INV):反二值化。与 THRESH_BINARY 相反,小于阈值的像素被设置为 maxval,大于阈值的像素被设置为 0。
  • cv::THRESH_TRUNC(或 cv2.THRESH_TRUNC):截断。大于阈值的像素被设置为阈值本身,小于阈值的像素保持不变。
  • cv::THRESH_TOZERO(或 cv2.THRESH_TOZERO):设为零。大于阈值的像素保持不变,小于阈值的像素被设置为 0。
  • cv::THRESH_TOZERO_INV(或 cv2.THRESH_TOZERO_INV):反向设为零。小于阈值的像素保持不变,大于阈值的像素被设置为 0。
  • cv::THRESH_OTSU 和 cv::THRESH_TRIANGLE:这两种类型用于自动计算最佳阈值,而不是使用固定的阈值。它们通常与其他阈值类型结合使用,以获取更好的分割效果。函数返回实际使用的阈值。

OTSU的分割方法,对于图像直方图为双峰的场景,分割效果较好。示例代码如下:

import cv2 as cv
import numpy as npdef OTSU(input):_, bw = cv.threshold(input, 128, 255, cv.THRESH_OTSU)return bwif __name__ == '__main__':image = cv.imread('sky.jpg', cv.IMREAD_GRAYSCALE)bw = OTSU(image)result = np.concatenate([image, bw], axis=1)cv.imwrite('otsu.jpg', result)cv.imshow('bw', bw)cv.waitKey()

在这里插入图片描述

2.2 adaptiveThreshold

adaptiveThreshold是OpenCV中的自适应分割函数,这个函数允许为图像的不同部分应用不同的阈值,特别适用于处理光照不均或背景复杂变化的场景,比如文档图像。

void cv::adaptiveThreshold(InputArray src, OutputArray dst, double maxValue, int adaptiveMethod, int thresholdType, int blockSize, double C);

参数说明

  • src:输入的8位单通道图像,通常是灰度图。
  • dst:输出图像,与输入图像有相同的尺寸和类型。
  • maxValue:当像素值超过(或根据阈值类型小于)计算得到的阈值时赋予的像素值。
  • adaptiveMethod:使用的自适应阈值算法。有两种选择:
    • cv::ADAPTIVE_THRESH_MEAN_C:表示使用局部区域的平均值减去C来计算阈值。
    • cv::ADAPTIVE_THRESH_GAUSSIAN_C:表示使用局部区域的高斯加权和减去C来计算阈值。
    • thresholdType:阈值类型,必须是cv::THRESH_BINARY或cv::THRESH_BINARY_INV。
    • THRESH_BINARY:如果像素值大于阈值,则设为最大值,否则设为0。
    • THRESH_BINARY_INV:如果像素值大于阈值,则设为0,否则设为最大值。
  • blockSize:局部区域的大小,用于计算阈值,必须是正奇数。
  • C:从均值或加权均值中减去的常数。
    示例代码如下:
import cv2 as cv
import numpy as np
def Ada(input):bw = cv.adaptiveThreshold(input, 255, cv.ADAPTIVE_THRESH_MEAN_C, cv.THRESH_BINARY, 15, 5)return bwif __name__ == '__main__':image = cv.imread('doc.jpg', cv.IMREAD_GRAYSCALE)bw = Ada(image)result = np.concatenate([image, bw], axis=1)cv.imwrite('doc-result.jpg', result)cv.imshow('bw', bw)cv.waitKey()

在这里插入图片描述

2.3 边缘分割Canny算子

函数定义

edges = cv2.Canny(image, threshold1, threshold2[, edges[, apertureSize[, L2gradient]]])

参数说明

  • image(InputArray类型):输入图像,应为单通道的8位图像(灰度图像)。在Python中,这个参数直接传入图像变量即可。
  • edges(OutputArray类型):输出图像,用于存放检测到的边缘。这个图像应与原图像具有相同的尺寸和类型。在Python中,这个参数通常是可选的,因为函数会返回一个包含边缘的图像。
  • threshold1(double类型):第一个滞后性阈值(低阈值),用于弱边缘的检测。这个阈值较低,可以捕获更多的边缘细节,但也可能导致噪声被误检为边缘。
  • threshold2(double类型):第二个滞后性阈值(高阈值),用于强边缘的检测。这个阈值较高,可以确保检测到的边缘更加显著和连续。通常,高低阈值的比在2:1到3:1之间效果较好。
  • apertureSize(int类型,默认为3):Sobel算子的尺寸,即用于计算图像梯度的滤波器的孔径大小。这个参数影响边缘检测的灵敏度和精度。
  • L2gradient(bool类型,默认为false):一个计算图像梯度幅值的标识。如果设为true,则使用L2范数来计算梯度幅度(即两个方向倒数的平方和再开方);如果设为false,则使用L1范数(即将两个方向导数的绝对值相加)。L2范数通常能提供更精确的结果,但计算量稍大。

示例代码:

import cv2 as cv
import numpy as np
if __name__ == '__main__':image = cv.imread('lingjian.jpg', cv.IMREAD_GRAYSCALE)bw = cv.Canny(image, 30, 90)result = np.concatenate([image, bw], axis=1)cv.imwrite('lingjian-result.jpg', result)cv.imshow('bw', bw)cv.waitKey()

在这里插入图片描述

3、小结

1、图像处理的分割方法一般都是针对特定的应用场景进行开发,因此,API的调参是工作中常见的任务。
2、二值化是图像分割的特殊情况,图像分割是一项基本的视觉任务。


http://www.ppmy.cn/news/1563052.html

相关文章

美创科技获数字安全产业贡献奖

近日,由国内数字化领域独立的第三方调研咨询机构数世咨询主办的“2025数字安全市场年度大会”成功举办。会上,美创科技凭借在数据安全领域的实力和贡献荣获“数字安全产业贡献奖”,再次证明了美创科技在专精赛道的领军地位。 本次大会以“冬天…

eslint.config.js和.eslintrc.js有什么区别

eslint.config.js 和 .eslintrc.js 的主要区别在于它们所对应的 ESLint 版本和配置方法: 1. .eslintrc.js: 这是 ESLint v8 及更早版本使用的配置文件格式。 它使用层级式的配置系统。 现在被称为"旧版"配置格式 。 2. eslint.config.js&am…

第二篇:MongoDB 的设计原理

一、MongoDB 的设计原理 MongoDB 的设计原理涉及其数据存储、查询优化、扩展性和高可用性等多个方面。作为一个 NoSQL 数据库,MongoDB 采用了一些与传统关系型数据库不同的设计理念,旨在应对现代 Web 应用中大规模、高并发、非结构化数据处理的需求。 …

Windows 蓝牙驱动开发-简介

蓝牙(英语:Bluetooth)是一种无线通信技术标准,用来让固定与移动设备,在短距离间交换资料,以形成个人局域网(PAN)。其使用短波特高频(UHF)无线电波,经由2.4至2.485 GHz的ISM频段来进行通信。1994年由电信商爱立信(Erics…

Linux第二课:LinuxC高级 学习记录day02

2.4、shell中的特殊字符 2.4.4、命令置换符 或者 $() 反引号:esc下面的按键,英文状态下直接按 功能:将一个命令的输出作为另一个命令的参数 echo 不会认为hostname是一个命令 加上 之后,先执行hostname,拿到主机名…

Lock接口

java.util.concurrent.locks.Lock 接口是Java并发包中的一部分,它提供了比内置锁(即 synchronized 关键字)更灵活和强大的锁机制。通过使用 Lock 接口及其相关实现类,开发者可以获得更多的功能选项来控制线程间的同步行为&#xf…

vue3 懒加载组件 + 自定义hooks

背景 有一天我在逛淘宝的时候发现一个现象,就是淘宝pc 端的搜索列表页,在滚动的时候,它的那些图片总有一种从无到有的感觉,作为一个前端人,我就很好奇他是做了什么优化,是不是对元素做了懒加载处理。没进入…

安卓14无法安装应用解决历程

客户手机基本情况: 安卓14,对应的 targetSdkVersion 34 前天遇到了安卓14适配问题,客户发来的截图是这样的 描述:无法安装我们公司的B应用。 型号:三星google美版 解决步骤: 1、寻找其他安卓14手机测试…