在readfree中有人对书籍批量扫描过程很有好奇心,刚好在多年前的某集团企业信息化项目中,我曾经作为总包方项目组成员负责其中的档案电子化部分的扫描外包方考察、评价、选择,并制定了相关技术要求、验收质检标准等,算是实际见识过,可以介绍一下其中的一些情况。由于扫描外包(我听到的行业内部术语更经常的是称为“档案电子化”、“档案数字化”)早已是一个非常成熟的业务,各扫描外包公司的管理和业务流程其实大同小异。
一、硬件条件
与个人扫描不同,我见过的扫描外包商就没有用平板扫描仪的,原因很简单:平板扫描仪的效率太低,根本满足不了批量扫描业务上的时间要求。因为该次项目需要扫描的档案是允许切边再重新装订的,所以各扫描外包公司拿出来的都是自动进纸的高速扫描仪,很多还支持双面扫描,一本书切好了往进纸口一放,哗哗哗雪片一样从出纸口出完了也就扫完了。据说如果是不允许拆卸的古籍或其他珍贵档案,外包商宁愿采用几十万一台的V字型拍照扫描仪,也没有人用从平板扫描仪改进出来的零边距书籍扫描仪,原因同样还是因为效率问题。我见到的古籍拍摄样品是用当时像素最高的全画幅单反尼康D800(3600万像素)拍摄的,估计现在早已升级到D850(4575万像素)了。在试着实际处理了几页D800拍摄的高像素古籍照片后,我还发现CEP的某些算法实现存在严重缺陷,并做了一些改进。
按照一般理解,做图像处理的电脑硬件条件应该越高越好,但实际上所有扫描外包商对成本控制都及其严格,所以用的机器都很滥,很多时候甲方为了保密还在合同中规定所有电脑、服务器、存储设备由甲方提供,就更是有啥破电脑都只能忍了。所以扫描外包商内部使用的图像处理软件功能都不复杂,算法越简单越好,很多时候是用人脑代替电脑。
扫描外包场地一般由甲方就近提供,并且规定所扫描的档案不能带理现场。但也有图省钱的甲方,允许甲方将档案带回自己的地盘进行扫描,扫完了再归还回来。
二、软件条件
我见过的扫描外包商都有自己开发的在线生产管理系统,包括扫描项目管理、著录信息管理、图像处理等功能模块。扫描项目管理对各项目进行控制,在里面可以实时查看项目进度、项目成果、差错统计、人员绩效等,还可以进行成品书籍/档案的查询、浏览等。著录信息管理包括录入管理、一校管理、二校管理等。图像处理模块也都是连网的,处理的图像来自服务器,处理完的结果也直接存放到服务器。
由于所有的个人绩效都是计件的,所以实际操作过程中大多数人宁愿用键盘也不愿用鼠标,尤其是图像处理模块要求所有的功能都有快捷键,现场一个个运指如飞,看得我眼花缭乱。不过因为没有人用平板扫描仪,扫描现场也不存在光照不均匀的问题,所以啥中缝处理、光照修正什么的都不需要,图像处理的功能要求和时间要求都可以大幅下降。
正是因为这段经历,我一直相信用来扫描书籍的不应该是平板扫描仪,就算是自己DIY一个用于不能切边的私人扫描场合,也得要是解决了中缝问题的拍照式零边距扫描仪。
三、人员组织与管理
通常针对某项目的扫描外包团队除一个负责人、一个技术支持(通常兼任扫描仪操作员)外,就是数量不等的录入人员、图像处理人员,具体人数要看任务量与甲方的出价,我见过的团队都是10人左右。关键是其中的人员全都是能复用的,比如说切边、装订的时候,谁也别想闲着,大家都得上。人员来源也很单一:大家都在电视、报纸广告上见过各种“包分配”的电脑打字培训学校吧?很多都是从那里面出来的乡下小姑娘,别的人也吃不了那份苦。
在人员绩效考核方面比较简单、直观,全是计件,然后按照差错率扣钱,所以干得都很拼命。但由于市场竞争太激烈,效益都很不好。我曾经陪甲方代表考察过某扫描外包现场,本来这位老兄是准备挑刺然后好好砍价的,但看完了却私下和我说:“算了,咱还是别砍了,那些小姑娘看上去太可怜了!”
四、工作流程
在合同签订以后,扫描外包项目团队每天的工作流程大致上是这样的:
1、档案清点、签字出库。这个过程甲乙方的人都得上,清点不能出错。
2、档案切边,成为散页。这个过程就是外包项目组全员上阵了,纯粹的力气活。
下面的步骤多线并行,各司其职,最终的结果都汇总到生产管理系统的服务器上。
3、档案批量扫描。由于是用带自动进纸功能的高速扫描仪扫描散页,所以效率相当高,即使是一个人操作也往往是他最先完工。扫描出来的图像按照档案号(包括盒号、卷号、卷内号等)或书籍编号创建文件夹进行存储。
4、档案图像处理。服务器收到扫描结果后自动分配任务,人工进行处理。处理结果由管理岗进行抽查,或者组内成员交叉互查,发现处理失误(没有纠斜、没有处理干净等)就扣处理者的钱。处理或抽查过程中发现扫描失误(漏扫、纸张折叠等)就扣扫描者的钱,同时进行补扫。
5、著录信息录入。由于人工成本远远低于人工智能的成本,所以在对录入信息的防错方面采用了一个简单的方法:2~3人同时录入相同的信息,然后在服务器端进行对比,一致的录入被视为有效,直接存入成果区,不一致的结果少数服从多数(3人同时录入时),或者提交给一校进行人工校核。一校采用两人同时校核,结果一致时存入成果区,不一致时由二校人工校核。一般二校只有一个人,而且他的校核结果就是最终结果。但我在现场亲眼见过一个极度疲惫的二校把对的改成了错的,所以如果大家在dx上看到有啥错误的著录信息的时候,真的没有必要大惊小怪。
上面各步的成果由生产管理系统自动按照档案号/书号进行关联、组织。每天下班前还需要完成:
6、档案装订。切边后的档案总不能这么散着还回去,所以还要装订成原样再还回去。这个也是全组齐上阵进行操作。如果档案比较多,甚至会设置专门人员,扫完就装订了。
7、档案清点、签字入库。入库的档案必须按照出库单逐一清点,不能出现遗漏。
五、质量要求与验收
扫描质量要求这种事情相当考验甲方的水平,基本上你能提出什么样的要求,扫描外包方就刚刚好能达到什么样的要求,以节约成本。我提的要求洋洋洒洒一大堆,不过主要关键点还是图像存储格式、扫描DPI、差错率等容易量化的指标。
在结果提交方面,除著录信息(案卷目录、卷内目录等)外,很多技术实力不足或图省事的甲方对于扫描结果会要求扫描外包方直接提供PDF文件,但在我负责的项目中要求的是提供图像文件,由我方开发的软件转换成PDF。主要原因是考虑到原始文件需要长期存储(使用过程中用的都是PDF文件),在长期存储过程中PDF如果出事整本书就没了,散页文件出事则只损失一页而已。顺便在转换成PDF的过程中还可以进行一系列检查,包括但不限于:
1、扫描外包商提供的图像文件是否能正常读取、正常解码。
2、图像格式是否符合要求,图像内存储的扫描DPI是否符合要求。
3、是否有缺页(页数来自著录信息)、是否存在案卷清单与案卷文件夹对不上等。
……(时间太遥远,有些忘记了)