文档扫描OCR简介

news/2024/11/29 12:44:19/

文档扫描OCR识别简介

文档扫描OCR识别(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个文档扫描OCR识别系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。

一般情况下办公人员想得到的是双层PDF文件——双层PDF文件是一种具有多层结构的格式文件,其特点是:文件既可以是文本型的(比如由word生成的文件),也可以是图像型的(比如由扫描生成的文件);双层PDF文件是指文件内容既包含文本层,也包含图像层,且其位置上下一一相对应。通过文档扫描OCR识别得到的双层PDF可以在打印的时候保持原图输出,并且可以全文检索复制,是一种非常完美的文件。

文档扫描OCR识别技术的应用方式

由于扫描仪的普及与广泛应用,文档扫描OCR识别软件只需提供与扫描仪的接口,利用扫描仪驱动软件即可。因此,文档扫描OCR识别软件主要是由下面几个部分组成。

图像输入、预处理:进行顺序,以及识别前的准备

二值化:进行识别胶的图片处理,变为黑白两色的图片(在一些专有设备上可以用红外拍摄照片)

噪声去除:去除图片的一些噪点和干扰因素

倾斜较正:对于扫描倾斜的图片,进行倾斜校正

版面分析:把页面分为横排文本,竖排文本,表格,图片等不同区域进行针对识别

字符切割、字符识别

版面恢复:通过版面分析,将各个区域识别后按位置输出,实现和扫描图片一样的word布局输出

工作流程

一个文档扫描OCR识别系统,其目的很简单,只是要把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,当然也可节省因键盘输入的人力与时间。

从影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正,将结果输出。

影像输入

欲经过文档扫描OCR识别处理的标的物须透过光学仪器,如影像扫描仪、传真机或任何摄影器材,将影像转入计算机。科技的进步,扫描仪等的输入装置已制作的愈来愈精致,轻薄短小、品质也高,对文档扫描OCR识别有相当大的帮助,扫描仪的分辨率使影像更清晰、扫除速度更增进文档扫描OCR识别处理的效率。

影像预处理:影像预处理是文档扫描OCR识别系统中,须解决问题最多的一个模块。影像须先将图片、表格及文字区域分离出来,甚至可将文章的编排方向、文章的提纲及内容主体区分开,而文字的大小及文字的字体亦可如原始文件一样的判断出来。

对比识别

这是可充分发挥数学运算理论的一个模块,根据不同的特征特性,选用不同的数学距离函数,较有名的比对方法有,欧式空间的比对方法、松弛比对法(Relaxation)、动态程序比对法(Dynamic Programming,DP),以及类神经网络的数据库建立及比对、HMM(Hidden Markov Model)…等著名的方法,为了使识别的结果更稳定,也有所谓的专家系统(Experts System)被提出,利用各种特征比对方法的相异互补性,使识别出的结果,其信心度特别的高。

字词后处理:由于文档扫描OCR识别的识别率并无法达到百分之百,或想加强比对的正确性及信心值,一些除错或甚至帮忙更正的功能,也成为文档OCR识别系统中必要的一个模块。字词后处理就是一例,利用比对后的识别文字与其可能的相似候选字群中,根据前后的识别文字找出最合乎逻辑的词,做更正的功能。

人工校正

文档扫描OCR识别最后的关卡,在此之前,使用者可能只是拿支鼠标,跟着软件设计的节奏操作或仅是观看,而在此有可能须特别花使用者的精神及时间,去更正甚至找寻可能是文档扫描OCR识别出错的地方。一个好的文档扫描OCR识别软件,除了有一个稳定的影像处理及识别核心,以降低错误率外,人工校正的操作流程及其功能,亦影响文档扫描OCR识别的处理效率,因此,文字影像与识别文字的对照,及其屏幕信息摆放的位置、还有每一识别文字的候选字功能、拒认字的功能、及字词后处理后特意标示出可能有问题的字词,都是为使用者设计尽量少使用键盘的一种功能,当然,不是说系统没显示出的文字就一定正确,就像完全由键盘输入的工作人员也会有出错的时候,这时要重新校正一次或能允许些许的错,就完全看使用单位的需求了。

结果输出

有人只要文本文件作部份文字的再使用之用,所以只要一般的文字文件、有人要漂漂亮亮的和输入文件一模一样,所以有原文重现的功能、有人注重表格内的文字,所以要和Excel等软件结合。无论怎么变化,都只是输出档案格式的变化而已。如果需要还原成原文一样格式,则在识别后,需要人工排版,耗时耗力。

识别技巧简介

资料录入

文献资料的数字化录入,一般分为:

1.纯图像方式。

2.目录文本、正文图像方式。

3.全文本方式。

4.全文索引方式。文本方式和图像方式的混合体。

识别过程

书本级:中文,英文;简体,繁体;

版式级:竖排,横排;有无分栏;

行切分 字切分

识别:真正的文档OCR识别识别过程,图像信息还原成文本信息

后处理:人工干预,主要集中在前四个阶段。

决定因素

1.图片的质量,一般建议150dpi以上

2.颜色,一般对彩色识别很差,黑白的图片较高,因此建议文档OCR识别的为黑白tif格式

3.最重要的就是字体,如果是手写识别率很低。

国内文档扫描OCR识别简体差错率为万分之三,如果要求更高的精度需要投入更大的人工干预。繁体识别由于繁体字库的不统一性(民国时期的字库和现在繁体字库不统一),导致识别困难,在人工干预下,精度能达到90%以上(图文清晰情况下)。


http://www.ppmy.cn/news/666614.html

相关文章

如何使用小米手机对文档进行扫描

如何使用小米手机对文档进行扫描 ​ 我的手机是红米K40。 步骤 打开系统工具点开扫一扫应用左下选择扫文档功能 然后就可以扫单张和多张了。

java代码实现文件扫描_JAVA文件扫描(递归)的实例代码

具体代码如下所示: import java.io.File; public class Scan {public static void main(String[] args) {String fileName = "D:\\Program Files\\腾讯游戏\\英雄联盟" + File.separator; File f = new File(fileName); scan(f); } public static void scan(File f)…

android多媒体文件扫描

Android多媒体文件扫码完整流程:本地存储和外部存储设备监听,多媒体文件扫描,media meta解析,多媒体文件显示,播放。 Android外部存储空间由 vold init 服务和 StorageManagerService 系统服务共同管理。外部实体存储卷…

8.串行通信

1.通信接口相关知识: (1)处理器与外界设备通信的两种方式: 1)并行通信: 传输原理:数据各个位同时传输; 优点:速度快; 缺点:占用引脚资源多&…

备份文件扫描

** 备份文件扫描** 虽然对于python了解的不够多,但是扫描备份文件的思路还是有一点的以下脚本思路大概为通过循环尝试可能出现的备份文件名称和后缀,并对其进行访问通过requests,get函数获取返回的状态码将状态码为200的输出到新的文档中 import reque…

项目实战——文档扫描OCR识别

扫描全能王的实现,maybe 目录 一、文档扫描 1、引入所需要的库 2、图像的读取与预处理 读取图像 图像reszie, 图像灰度化、滤波、边缘检测。 3、轮廓检测 4、透视与二值变换 二、文字识别 一、文档扫描 文档扫描所实现的功能如下图所示&#xff0…

OpenCv图像处理实战——文档扫描

文档扫描 测试图片自取 page.jpg import cv2 import argparse import numpy as np import matplotlib.pyplot as pltdef cv_show(name, img):cv2.imshow(name, img)cv2.waitKey(0)cv2.destroyAllWindows()def plt_show(img):b, g, r cv2.split(img)res cv2.merge([r, g, b]…

基于深度学习的文档扫描

1 Semantic Segmentation using PyTorch-DeepLabV3 1.1 主要原理 在文档扫描之前,加入了语义分割模型,提取出图片中文字的轮廓,再对这个轮廓进行文档扫描。 1.2 效果演示 测试图片: 这张图片是存在边界缺失情况的。 1&#xf…