文档扫描OCR简介

文档扫描OCR识别简介

文档扫描OCR识别（Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。ICR（Intelligent Character Recognition）的名词也因此而产生。衡量一个文档扫描OCR识别系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。

一般情况下办公人员想得到的是双层PDF文件——双层PDF文件是一种具有多层结构的格式文件，其特点是：文件既可以是文本型的（比如由word生成的文件），也可以是图像型的（比如由扫描生成的文件）；双层PDF文件是指文件内容既包含文本层，也包含图像层，且其位置上下一一相对应。通过文档扫描OCR识别得到的双层PDF可以在打印的时候保持原图输出，并且可以全文检索复制，是一种非常完美的文件。

文档扫描OCR识别技术的应用方式

由于扫描仪的普及与广泛应用，文档扫描OCR识别软件只需提供与扫描仪的接口，利用扫描仪驱动软件即可。因此，文档扫描OCR识别软件主要是由下面几个部分组成。

图像输入、预处理：进行顺序，以及识别前的准备

二值化：进行识别胶的图片处理，变为黑白两色的图片（在一些专有设备上可以用红外拍摄照片）

噪声去除：去除图片的一些噪点和干扰因素

倾斜较正：对于扫描倾斜的图片，进行倾斜校正

版面分析：把页面分为横排文本，竖排文本，表格，图片等不同区域进行针对识别

字符切割、字符识别

版面恢复：通过版面分析，将各个区域识别后按位置输出，实现和扫描图片一样的word布局输出

工作流程

一个文档扫描OCR识别系统，其目的很简单，只是要把影像作一个转换，使影像内的图形继续保存、有表格则表格内资料及影像内的文字，一律变成计算机文字，使能达到影像资料的储存量减少、识别出的文字可再使用及分析，当然也可节省因键盘输入的人力与时间。

从影像到结果输出，须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正，将结果输出。

影像输入

欲经过文档扫描OCR识别处理的标的物须透过光学仪器，如影像扫描仪、传真机或任何摄影器材，将影像转入计算机。科技的进步，扫描仪等的输入装置已制作的愈来愈精致，轻薄短小、品质也高，对文档扫描OCR识别有相当大的帮助，扫描仪的分辨率使影像更清晰、扫除速度更增进文档扫描OCR识别处理的效率。

影像预处理：影像预处理是文档扫描OCR识别系统中，须解决问题最多的一个模块。影像须先将图片、表格及文字区域分离出来，甚至可将文章的编排方向、文章的提纲及内容主体区分开，而文字的大小及文字的字体亦可如原始文件一样的判断出来。

对比识别

这是可充分发挥数学运算理论的一个模块，根据不同的特征特性，选用不同的数学距离函数，较有名的比对方法有，欧式空间的比对方法、松弛比对法（Relaxation）、动态程序比对法（Dynamic Programming，DP），以及类神经网络的数据库建立及比对、HMM（Hidden Markov Model）…等著名的方法，为了使识别的结果更稳定，也有所谓的专家系统（Experts System）被提出，利用各种特征比对方法的相异互补性，使识别出的结果，其信心度特别的高。

字词后处理：由于文档扫描OCR识别的识别率并无法达到百分之百，或想加强比对的正确性及信心值，一些除错或甚至帮忙更正的功能，也成为文档OCR识别系统中必要的一个模块。字词后处理就是一例，利用比对后的识别文字与其可能的相似候选字群中，根据前后的识别文字找出最合乎逻辑的词，做更正的功能。

人工校正

文档扫描OCR识别最后的关卡，在此之前，使用者可能只是拿支鼠标，跟着软件设计的节奏操作或仅是观看，而在此有可能须特别花使用者的精神及时间，去更正甚至找寻可能是文档扫描OCR识别出错的地方。一个好的文档扫描OCR识别软件，除了有一个稳定的影像处理及识别核心，以降低错误率外，人工校正的操作流程及其功能，亦影响文档扫描OCR识别的处理效率，因此，文字影像与识别文字的对照，及其屏幕信息摆放的位置、还有每一识别文字的候选字功能、拒认字的功能、及字词后处理后特意标示出可能有问题的字词，都是为使用者设计尽量少使用键盘的一种功能，当然，不是说系统没显示出的文字就一定正确，就像完全由键盘输入的工作人员也会有出错的时候，这时要重新校正一次或能允许些许的错，就完全看使用单位的需求了。

结果输出

有人只要文本文件作部份文字的再使用之用，所以只要一般的文字文件、有人要漂漂亮亮的和输入文件一模一样，所以有原文重现的功能、有人注重表格内的文字，所以要和Excel等软件结合。无论怎么变化，都只是输出档案格式的变化而已。如果需要还原成原文一样格式，则在识别后，需要人工排版，耗时耗力。

识别技巧简介

资料录入

文献资料的数字化录入，一般分为：

1．纯图像方式。

2．目录文本、正文图像方式。

3．全文本方式。

4．全文索引方式。文本方式和图像方式的混合体。

识别过程

书本级：中文，英文；简体，繁体；

版式级：竖排，横排；有无分栏；