Python+Opencv建立一个文档扫描器

一、什么是文档扫描器？

简单来讲，所谓的文档扫描器的作用是对手机拍摄的图片中的目标进行校正的过程，具体的效果如下图所示：
在这里插入图片描述
左边表示的是原始的输入图片，右边表示校正后的结果，我们可以观察到相比于校正前的图片而言，纠正后的图片变得更加规整，更加清晰。

二、实现文档扫描器的步骤

为了实现这样的一个文档扫描器，我们只需要执行简单的三个操作就可以啦。

1. 图像边缘检测-获取图像中的目标的边缘；
2. 使用边缘信息获得目标的轮廓（外点），即找到图片中的目标；
3. 应用视角变换到图像中去，即进行校正操作；

三、文档扫描器的代码实现

# coding=utf-8
# 导入一些python包
from imutils.perspective import four_point_transform
# from pyimagesearch.transform import four_point_transform
from skimage.filters import threshold_local
import numpy as np
import argparse
import cv2
import imutils
import os # 设置一些需要改变的参数
ap = argparse.ArgumentParser()
ap.add_argument("-i", "--image", required = True,help = "Path to the image to be scanned")
args = vars(ap.parse_args())# 创建可视化文件夹
file_dir = "vis/"
if not os.path.isdir(file_dir):os.makedirs(file_dir)# 读取图片
image = cv2.imread(args["image"])
ratio = image.shape[0] / 500.0
orig = image.copy()
# 对输入进行裁剪操作
image = imutils.resize(image, height = 500)# 图像灰度化
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
# 进行高斯滤波处理
gray = cv2.GaussianBlur(gray, (5, 5), 0)
# 进行边缘检测处理
edged = cv2.Canny(gray, 75, 200)# 显示并保存结果
print("STEP 1: Edge Detection")
cv2.imshow("Image", image)
cv2.imshow("Edged", edged)
cv2.imwrite("vis\edged.png", edged)# 在边缘图像中寻找轮廓，并过滤点较小的轮廓
cnts = cv2.findContours(edged.copy(), cv2.RETR_LIST, cv2.CHAIN_APPROX_SIMPLE)
cnts = imutils.grab_contours(cnts)
# 按照区域的大小进行排序并获取前5个结果
cnts = sorted(cnts, key = cv2.contourArea, reverse = True)[:5]# 遍历整个轮廓集合
for c in cnts:# 使用多边形近似轮廓peri = cv2.arcLength(c, True)approx = cv2.approxPolyDP(c, 0.02 * peri, True)if len(approx) == 4:screenCnt = approxbreak# 显示并保存结果
print("STEP 2: Find contours of paper")
cv2.drawContours(image, [screenCnt], -1, (0, 255, 0), 2)
cv2.imshow("Outline", image)
cv2.imwrite("vis\contours.png", image)# 使用坐标点进行坐标变换
warped = four_point_transform(orig, screenCnt.reshape(4, 2) * ratio)# 将变换后的结果转换为灰度值
warped = cv2.cvtColor(warped, cv2.COLOR_BGR2GRAY)
# 获取局部区域的阈值
T = threshold_local(warped, 11, offset = 10, method = "gaussian")
# 进行二值化处理
warped = (warped > T).astype("uint8") * 255# 显示并保存结果
print("STEP 3: Apply perspective transform")
cv2.imshow("Original", imutils.resize(orig, height = 650))
cv2.imshow("Scanned", imutils.resize(warped, height = 650))
cv2.imwrite("vis\orig.png", orig)
cv2.imwrite("vis\warped.png", warped)
cv2.waitKey(0)

运行方法- python scan,py --image 图片名称

四、文档扫描器可视化

在这里插入图片描述
上图是该算法的一些中间结果，该图中的两行分别展示了两个事例，第一列表示的是原始的输入图片，和代码中的orig对应；第二列表示的是边缘建测后的结果，和代码中的edged对应；第3列表示的是轮廓的检测结果，和代码中的image对应；第4列表示应用变换后的结果，和代码中的warped对应。
在这里插入图片描述
代码中有一段将变换后的图片进行二值化处理，具体的效果如上图所示，左边表示变换之前的结果，整体是一个彩色图，色调偏黄，而进行二值化处理之后的结果只有0和255两种颜色，看起来视觉效果会更好一些。

五、文档扫描器效果展示

在这里插入图片描述
上图是自己实际拍摄的两张测试图片的测试结果，整体来看整个算法比较鲁棒，基本上能够满足我们的需求。

六、问题探讨

对于简单的情况来讲，该算法可以很好的处理，但是当遇到的背景比较复杂时，本算法基本上会失效的。

问题1-当遇到的背景和目标之间有很大的干扰的时候，具体如下图所示：

如上图所示，当背景的颜色和目标的差别不是很明显时，该算法失效，主要的原因是出在边缘检测部分，不能很好的检测出整个目标来，当然通过调节参数可以检测到完整的边缘，但是这并不是我们想要的自动化文档扫描器。
问题2-当图片中含有多个目标的时候，具体如下图所示：

如上图所示，当图片中含有多个目标时，该算法会失效，主要的原因出现在轮廓检测阶段，聪明的你应该知道如何解决这个问题，不妨试试看，哈哈。
问题N。。。其实本文这个算法还存在很多的小的问题需要根据工程的需要进行完善的，哈哈哈。

参考资料

1、参考博客

注意事项

[1] 如果您对AI、自动驾驶、AR、ChatGPT等技术感兴趣，欢迎关注我的微信公众号“AI产品汇”，有问题可以在公众号中私聊我！
[2] 该博客是本人原创博客，如果您对该博客感兴趣，想要转载该博客，请与我联系（qq邮箱：1575262785@qq.com）,我会在第一时间回复大家，谢谢大家的关注。
[3] 由于个人能力有限，该博客可能存在很多的问题，希望大家能够提出改进意见。
[4] 如果您在阅读本博客时遇到不理解的地方，希望您可以联系我，我会及时的回复您，和您交流想法和意见，谢谢。
[5] 本文测试的图片可以通过关注微信公众号AI产品汇之后找我索取！
[6] 本人业余时间承接各种本科毕设设计和各种小项目，包括图像处理（数据挖掘、机器学习、深度学习等）、matlab仿真、python算法及仿真等，有需要的请加QQ：1575262785详聊！！！