我所见过的到档案电子化过程

news/2024/11/24 3:28:55/

在readfree中有人对书籍批量扫描过程很有好奇心,刚好在多年前的某集团企业信息化项目中,我曾经作为总包方项目组成员负责其中的档案电子化部分的扫描外包方考察、评价、选择,并制定了相关技术要求、验收质检标准等,算是实际见识过,可以介绍一下其中的一些情况。由于扫描外包(我听到的行业内部术语更经常的是称为“档案电子化”、“档案数字化”)早已是一个非常成熟的业务,各扫描外包公司的管理和业务流程其实大同小异。

一、硬件条件

与个人扫描不同,我见过的扫描外包商就没有用平板扫描仪的,原因很简单:平板扫描仪的效率太低,根本满足不了批量扫描业务上的时间要求。因为该次项目需要扫描的档案是允许切边再重新装订的,所以各扫描外包公司拿出来的都是自动进纸的高速扫描仪,很多还支持双面扫描,一本书切好了往进纸口一放,哗哗哗雪片一样从出纸口出完了也就扫完了。据说如果是不允许拆卸的古籍或其他珍贵档案,外包商宁愿采用几十万一台的V字型拍照扫描仪,也没有人用从平板扫描仪改进出来的零边距书籍扫描仪,原因同样还是因为效率问题。我见到的古籍拍摄样品是用当时像素最高的全画幅单反尼康D800(3600万像素)拍摄的,估计现在早已升级到D850(4575万像素)了。在试着实际处理了几页D800拍摄的高像素古籍照片后,我还发现CEP的某些算法实现存在严重缺陷,并做了一些改进。

按照一般理解,做图像处理的电脑硬件条件应该越高越好,但实际上所有扫描外包商对成本控制都及其严格,所以用的机器都很滥,很多时候甲方为了保密还在合同中规定所有电脑、服务器、存储设备由甲方提供,就更是有啥破电脑都只能忍了。所以扫描外包商内部使用的图像处理软件功能都不复杂,算法越简单越好,很多时候是用人脑代替电脑。

扫描外包场地一般由甲方就近提供,并且规定所扫描的档案不能带理现场。但也有图省钱的甲方,允许甲方将档案带回自己的地盘进行扫描,扫完了再归还回来。

二、软件条件

我见过的扫描外包商都有自己开发的在线生产管理系统,包括扫描项目管理、著录信息管理、图像处理等功能模块。扫描项目管理对各项目进行控制,在里面可以实时查看项目进度、项目成果、差错统计、人员绩效等,还可以进行成品书籍/档案的查询、浏览等。著录信息管理包括录入管理、一校管理、二校管理等。图像处理模块也都是连网的,处理的图像来自服务器,处理完的结果也直接存放到服务器。

由于所有的个人绩效都是计件的,所以实际操作过程中大多数人宁愿用键盘也不愿用鼠标,尤其是图像处理模块要求所有的功能都有快捷键,现场一个个运指如飞,看得我眼花缭乱。不过因为没有人用平板扫描仪,扫描现场也不存在光照不均匀的问题,所以啥中缝处理、光照修正什么的都不需要,图像处理的功能要求和时间要求都可以大幅下降。

正是因为这段经历,我一直相信用来扫描书籍的不应该是平板扫描仪,就算是自己DIY一个用于不能切边的私人扫描场合,也得要是解决了中缝问题的拍照式零边距扫描仪。

三、人员组织与管理

通常针对某项目的扫描外包团队除一个负责人、一个技术支持(通常兼任扫描仪操作员)外,就是数量不等的录入人员、图像处理人员,具体人数要看任务量与甲方的出价,我见过的团队都是10人左右。关键是其中的人员全都是能复用的,比如说切边、装订的时候,谁也别想闲着,大家都得上。人员来源也很单一:大家都在电视、报纸广告上见过各种“包分配”的电脑打字培训学校吧?很多都是从那里面出来的乡下小姑娘,别的人也吃不了那份苦。

在人员绩效考核方面比较简单、直观,全是计件,然后按照差错率扣钱,所以干得都很拼命。但由于市场竞争太激烈,效益都很不好。我曾经陪甲方代表考察过某扫描外包现场,本来这位老兄是准备挑刺然后好好砍价的,但看完了却私下和我说:“算了,咱还是别砍了,那些小姑娘看上去太可怜了!”

四、工作流程

在合同签订以后,扫描外包项目团队每天的工作流程大致上是这样的:

1、档案清点、签字出库。这个过程甲乙方的人都得上,清点不能出错。

2、档案切边,成为散页。这个过程就是外包项目组全员上阵了,纯粹的力气活。

下面的步骤多线并行,各司其职,最终的结果都汇总到生产管理系统的服务器上。

3、档案批量扫描。由于是用带自动进纸功能的高速扫描仪扫描散页,所以效率相当高,即使是一个人操作也往往是他最先完工。扫描出来的图像按照档案号(包括盒号、卷号、卷内号等)或书籍编号创建文件夹进行存储。

4、档案图像处理。服务器收到扫描结果后自动分配任务,人工进行处理。处理结果由管理岗进行抽查,或者组内成员交叉互查,发现处理失误(没有纠斜、没有处理干净等)就扣处理者的钱。处理或抽查过程中发现扫描失误(漏扫、纸张折叠等)就扣扫描者的钱,同时进行补扫。

5、著录信息录入。由于人工成本远远低于人工智能的成本,所以在对录入信息的防错方面采用了一个简单的方法:2~3人同时录入相同的信息,然后在服务器端进行对比,一致的录入被视为有效,直接存入成果区,不一致的结果少数服从多数(3人同时录入时),或者提交给一校进行人工校核。一校采用两人同时校核,结果一致时存入成果区,不一致时由二校人工校核。一般二校只有一个人,而且他的校核结果就是最终结果。但我在现场亲眼见过一个极度疲惫的二校把对的改成了错的,所以如果大家在dx上看到有啥错误的著录信息的时候,真的没有必要大惊小怪。

上面各步的成果由生产管理系统自动按照档案号/书号进行关联、组织。每天下班前还需要完成:

6、档案装订。切边后的档案总不能这么散着还回去,所以还要装订成原样再还回去。这个也是全组齐上阵进行操作。如果档案比较多,甚至会设置专门人员,扫完就装订了。

7、档案清点、签字入库。入库的档案必须按照出库单逐一清点,不能出现遗漏。

五、质量要求与验收

扫描质量要求这种事情相当考验甲方的水平,基本上你能提出什么样的要求,扫描外包方就刚刚好能达到什么样的要求,以节约成本。我提的要求洋洋洒洒一大堆,不过主要关键点还是图像存储格式、扫描DPI、差错率等容易量化的指标。

在结果提交方面,除著录信息(案卷目录、卷内目录等)外,很多技术实力不足或图省事的甲方对于扫描结果会要求扫描外包方直接提供PDF文件,但在我负责的项目中要求的是提供图像文件,由我方开发的软件转换成PDF。主要原因是考虑到原始文件需要长期存储(使用过程中用的都是PDF文件),在长期存储过程中PDF如果出事整本书就没了,散页文件出事则只损失一页而已。顺便在转换成PDF的过程中还可以进行一系列检查,包括但不限于:

1、扫描外包商提供的图像文件是否能正常读取、正常解码。
2、图像格式是否符合要求,图像内存储的扫描DPI是否符合要求。
3、是否有缺页(页数来自著录信息)、是否存在案卷清单与案卷文件夹对不上等。
……(时间太遥远,有些忘记了)

转载于:https://www.cnblogs.com/stronghorse/p/9072498.html


http://www.ppmy.cn/news/253891.html

相关文章

法兰距大全

原文地址:http://bbs.hengshui.biz/thread-884-1-1.html 法蘭距這個名稱的原文有點亂,可以查到 back focal length、registration distance、flange distance、flange focal distance 等等的名稱,所以要查英文時要用不同的名稱找找看&#…

摄影书籍目录

Chapter 1 D600入手应该了解的事 D600开启平民全画幅时代 什么是全画幅数码单反相机? 了解焦距转换系数 全画幅数码单反相机究竟有哪些优势 更高的像素和更细腻的画面质量 全画幅相机带来更宽广的视野 全画幅相机具有更好的背景虚化能力 高ISO拍摄具有更少的噪点 全…

matlab按图像边缘抠图_干货:PS抠图的九种方法,最后一个简直是万能

喜行与摄公号 旅行丨摄影丨美图 关注 抠图是Photoshop操作最基本的技能,看似简单,但不同的图像用不同的方法或许会达到事半功倍的效果。小编今天推送的教程列举了PS抠图的九个绝招,掌握之后足以应对大部分抠图工作了! 1.橡皮擦工具 橡皮擦工具,更多时候跟“抠图”看…

论文阅读笔记——“Deep Learning on Image Denoising: An Overview”

本文仅供学习交流使用,错误欢迎指正 目录 摘要1. 引言2. 深度学习图像去噪的基本框架3. 图像去噪中的深度学习技术3.1. 加性白噪声图像去噪(additive noisy-image denoising)3.1.1. 基于CNN/NN的AWNI去噪3.1.2. 结合CNN/NN和common feature提取的AWNI去噪3.1.3. 结…

Deep Learning for UAV-based Object Detection andTracking: A Survey(论文翻译)

目录 摘要 1.引言 2.相关调查和简要统计 A.无人机飞机统计数据 B.挑战 C.贡献 3.无人机机载图像中的目标检测 A.数据处理 B.基于尺度多样性的目标检测 C.小目标上的目标检测 D.基于方向分集的目标检测 E.基于检测速度的目标检测 F.基于其他的目标检测 4.无人机载视…

理解景深(Depth of Field)

原文链接:Understanding Depth of Field – A Beginner’s Guide 景深 (Depth of field, DoF) 是摄影中最重要的概念之一。了解什么是景深,并了解影响它的因素,是所有摄影师都应该掌握的。很多摄影师都知道可以通过调整光圈来控制景深。但是…

尼康字样,D800字样以及FX字样全部被黑色遮挡起来

首先笔者给大家分析一下正面图: 1.尼康字样,D800字样以及FX字样全部被黑色遮挡起来,不过这种做法在今天显得有些掩耳盗铃。 2.红色的点缀非常飘逸,与最后一台DSLR D5100相同。 3.左肩拨盘全面更新,由过去的3个…

人像篇

人都拍不好,买个单反有啥用 虚化效果的产生 Paste_Image.png