Python+Opencv建立一个文档扫描器

news/2024/11/29 12:55:46/

目录

    • 一、什么是文档扫描器?
    • 二、实现文档扫描器的步骤
    • 三、文档扫描器的代码实现
    • 四、文档扫描器可视化
    • 五、文档扫描器效果展示
    • 六、问题探讨
    • 参考资料
    • 注意事项

一、什么是文档扫描器?

  简单来讲,所谓的文档扫描器的作用是对手机拍摄的图片中的目标进行校正的过程,具体的效果如下图所示:
在这里插入图片描述
左边表示的是原始的输入图片,右边表示校正后的结果,我们可以观察到相比于校正前的图片而言,纠正后的图片变得更加规整,更加清晰。

二、实现文档扫描器的步骤

为了实现这样的一个文档扫描器,我们只需要执行简单的三个操作就可以啦。

1. 图像边缘检测-获取图像中的目标的边缘;
2. 使用边缘信息获得目标的轮廓(外点),即找到图片中的目标;
3. 应用视角变换到图像中去,即进行校正操作;

三、文档扫描器的代码实现

# coding=utf-8
# 导入一些python包
from imutils.perspective import four_point_transform
# from pyimagesearch.transform import four_point_transform
from skimage.filters import threshold_local
import numpy as np
import argparse
import cv2
import imutils
import os # 设置一些需要改变的参数
ap = argparse.ArgumentParser()
ap.add_argument("-i", "--image", required = True,help = "Path to the image to be scanned")
args = vars(ap.parse_args())# 创建可视化文件夹
file_dir = "vis/"
if not os.path.isdir(file_dir):os.makedirs(file_dir)# 读取图片
image = cv2.imread(args["image"])
ratio = image.shape[0] / 500.0
orig = image.copy()
# 对输入进行裁剪操作
image = imutils.resize(image, height = 500)# 图像灰度化
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
# 进行高斯滤波处理
gray = cv2.GaussianBlur(gray, (5, 5), 0)
# 进行边缘检测处理
edged = cv2.Canny(gray, 75, 200)# 显示并保存结果
print("STEP 1: Edge Detection")
cv2.imshow("Image", image)
cv2.imshow("Edged", edged)
cv2.imwrite("vis\edged.png", edged)# 在边缘图像中寻找轮廓,并过滤点较小的轮廓
cnts = cv2.findContours(edged.copy(), cv2.RETR_LIST, cv2.CHAIN_APPROX_SIMPLE)
cnts = imutils.grab_contours(cnts)
# 按照区域的大小进行排序并获取前5个结果
cnts = sorted(cnts, key = cv2.contourArea, reverse = True)[:5]# 遍历整个轮廓集合
for c in cnts:# 使用多边形近似轮廓peri = cv2.arcLength(c, True)approx = cv2.approxPolyDP(c, 0.02 * peri, True)if len(approx) == 4:screenCnt = approxbreak# 显示并保存结果
print("STEP 2: Find contours of paper")
cv2.drawContours(image, [screenCnt], -1, (0, 255, 0), 2)
cv2.imshow("Outline", image)
cv2.imwrite("vis\contours.png", image)# 使用坐标点进行坐标变换
warped = four_point_transform(orig, screenCnt.reshape(4, 2) * ratio)# 将变换后的结果转换为灰度值
warped = cv2.cvtColor(warped, cv2.COLOR_BGR2GRAY)
# 获取局部区域的阈值
T = threshold_local(warped, 11, offset = 10, method = "gaussian")
# 进行二值化处理
warped = (warped > T).astype("uint8") * 255# 显示并保存结果
print("STEP 3: Apply perspective transform")
cv2.imshow("Original", imutils.resize(orig, height = 650))
cv2.imshow("Scanned", imutils.resize(warped, height = 650))
cv2.imwrite("vis\orig.png", orig)
cv2.imwrite("vis\warped.png", warped)
cv2.waitKey(0)

运行方法- python scan,py --image 图片名称

四、文档扫描器可视化

在这里插入图片描述
  上图是该算法的一些中间结果,该图中的两行分别展示了两个事例, 第一列表示的是原始的输入图片,和代码中的orig对应;第二列表示的是边缘建测后的结果,和代码中的edged对应;第3列表示的是轮廓的检测结果,和代码中的image对应;第4列表示应用变换后的结果,和代码中的warped对应。
在这里插入图片描述
  代码中有一段将变换后的图片进行二值化处理,具体的效果如上图所示,左边表示变换之前的结果,整体是一个彩色图,色调偏黄,而进行二值化处理之后的结果只有0和255两种颜色,看起来视觉效果会更好一些。

五、文档扫描器效果展示

在这里插入图片描述
  上图是自己实际拍摄的两张测试图片的测试结果,整体来看整个算法比较鲁棒,基本上能够满足我们的需求。

六、问题探讨

  对于简单的情况来讲,该算法可以很好的处理,但是当遇到的背景比较复杂时,本算法基本上会失效的。

  1. 问题1-当遇到的背景和目标之间有很大的干扰的时候,具体如下图所示:
    在这里插入图片描述
      如上图所示,当背景的颜色和目标的差别不是很明显时,该算法失效,主要的原因是出在边缘检测部分,不能很好的检测出整个目标来,当然通过调节参数可以检测到完整的边缘,但是这并不是我们想要的自动化文档扫描器。

  2. 问题2-当图片中含有多个目标的时候,具体如下图所示:
    在这里插入图片描述
      如上图所示,当图片中含有多个目标时,该算法会失效,主要的原因出现在轮廓检测阶段,聪明的你应该知道如何解决这个问题,不妨试试看,哈哈。

  3. 问题N。。。其实本文这个算法还存在很多的小的问题需要根据工程的需要进行完善的,哈哈哈。

参考资料

1、参考博客

注意事项

[1] 如果您对AI、自动驾驶、AR、ChatGPT等技术感兴趣,欢迎关注我的微信公众号“AI产品汇”,有问题可以在公众号中私聊我!
[2] 该博客是本人原创博客,如果您对该博客感兴趣,想要转载该博客,请与我联系(qq邮箱:1575262785@qq.com),我会在第一时间回复大家,谢谢大家的关注。
[3] 由于个人能力有限,该博客可能存在很多的问题,希望大家能够提出改进意见。
[4] 如果您在阅读本博客时遇到不理解的地方,希望您可以联系我,我会及时的回复您,和您交流想法和意见,谢谢。
[5] 本文测试的图片可以通过关注微信公众号AI产品汇之后找我索取!
[6] 本人业余时间承接各种本科毕设设计和各种小项目,包括图像处理(数据挖掘、机器学习、深度学习等)、matlab仿真、python算法及仿真等,有需要的请加QQ:1575262785详聊!!!


http://www.ppmy.cn/news/666615.html

相关文章

文档扫描OCR简介

文档扫描OCR识别简介 文档扫描OCR识别(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方…

如何使用小米手机对文档进行扫描

如何使用小米手机对文档进行扫描 ​ 我的手机是红米K40。 步骤 打开系统工具点开扫一扫应用左下选择扫文档功能 然后就可以扫单张和多张了。

java代码实现文件扫描_JAVA文件扫描(递归)的实例代码

具体代码如下所示: import java.io.File; public class Scan {public static void main(String[] args) {String fileName = "D:\\Program Files\\腾讯游戏\\英雄联盟" + File.separator; File f = new File(fileName); scan(f); } public static void scan(File f)…

android多媒体文件扫描

Android多媒体文件扫码完整流程:本地存储和外部存储设备监听,多媒体文件扫描,media meta解析,多媒体文件显示,播放。 Android外部存储空间由 vold init 服务和 StorageManagerService 系统服务共同管理。外部实体存储卷…

8.串行通信

1.通信接口相关知识: (1)处理器与外界设备通信的两种方式: 1)并行通信: 传输原理:数据各个位同时传输; 优点:速度快; 缺点:占用引脚资源多&…

备份文件扫描

** 备份文件扫描** 虽然对于python了解的不够多,但是扫描备份文件的思路还是有一点的以下脚本思路大概为通过循环尝试可能出现的备份文件名称和后缀,并对其进行访问通过requests,get函数获取返回的状态码将状态码为200的输出到新的文档中 import reque…

项目实战——文档扫描OCR识别

扫描全能王的实现,maybe 目录 一、文档扫描 1、引入所需要的库 2、图像的读取与预处理 读取图像 图像reszie, 图像灰度化、滤波、边缘检测。 3、轮廓检测 4、透视与二值变换 二、文字识别 一、文档扫描 文档扫描所实现的功能如下图所示&#xff0…

OpenCv图像处理实战——文档扫描

文档扫描 测试图片自取 page.jpg import cv2 import argparse import numpy as np import matplotlib.pyplot as pltdef cv_show(name, img):cv2.imshow(name, img)cv2.waitKey(0)cv2.destroyAllWindows()def plt_show(img):b, g, r cv2.split(img)res cv2.merge([r, g, b]…