小试银河麒麟系统OCR软件

devtools/2024/11/15 17:45:43/

0 前言

今天在国产电脑上办公,需要从一些PDF文件中复制文字内容,但是这些PDF文件是图片转换生成的,不支持文字选择和复制,除了手工输入,我们还可以使用OCR。

1 什么是OCR

OCR (Optical Character Recognition,光学字符识别),最初是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;随着软件功能的发展,也可以将图片、PDF等电子文件的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。

现在,不管是Windows系统,还是基于Linux的系统,都提供了具有OCR功能的软件。

2 Windows平台上的OCR软件

Windows平台上,有很多OCR软件,比较常见和常用的有:

  1. Adobe Acrobat Pro:Adobe提供的全功能PDF编辑和处理工具,其中包含OCR功能。

  2. ABBYY FineReader:一款功能强大的OCR软件,可以将扫描的文档、PDF文件等转换为可编辑的文本格式。

  3. Omnipage Ultimate:识别准确率较高的OCR软件,支持批量处理和自动化的工作流程。

  4. Readiris:适用于扫描仪和多功能设备的OCR软件,可以将纸质文档转换为可编辑的电子文件。

  5. Nitro Pro:一款PDF编辑和管理工具,也具备OCR功能。

  6. FreeOCR:一款免费的OCR软件,虽然功能相对较简单,但适合个人和小型项目使用。

  7. 一些扫描仪也配备了OCR软件,比如汉王OCR。                                                     

这些软件都可以将扫描的文档或图片中的文字识别并转换为可编辑的文本格式。用户可以根据自己的需求和预算选择适合自己的OCR软件。

不仅如此,腾讯的QQ、微信都提供了对图片的文字提取功能。

免费开源的图片浏览软件irfanView也以插件的形式提供了OCR功能,不过只能识别英文。

因此,在Windows平台上,使用OCR技术来提取图片或电子文档中的文字非常方便。

3  银河麒麟系统上的OCR软件

银河麒麟系统上的QQ、微信目前还不能像在Windows平台上一样支持对图片中文字的提取。

打开银河麒麟系统的软件商店,直接搜索OCR,结果如下:

目前有5款软件。

3.1 OCRFeeder

OCRFeeder 是 GNOME 桌面下的一个开源 OCR 套件。可将纸质或者图形文档转成电子文档。

看起来不错,可惜安装后运行不了。

从软件下面的评论来看,不止我一个人遇到这个问题。

3.2 The OCR-A

这只是一种字体,不是一个软件。所以安装后只会显示“已安装”。

3.3  成者采编王(图像编辑PDF/OFD扫描及文字识别OCR软件)

安装,运行,打开上面这张照片,点击框选OCR功能按钮,选择图中的软件介绍这部分文字

在图片右侧显示出了OCR的结果:

软件介绍

成者采编王,是专业的图像文档编辑和ocr识别软件

成者采编王(图像编辑PDF/OFD扫描打印及文字识别OCR软件),是专业的图像处理和ocr识别软件,是成者为国产化平台倾力打造的桌面端办公应用软件,利用图像算法的优势,实现快捷的图像处理方式和高效的批量图片处理和准确的文字识别功能。集成了标准的SANE扫描仪/摄像头类拍摄仪采集功能,实现数据的采集录入。同时集成了标准打印文档模块,为日常办公提供便利。软件使用自研“成者远识”文字识别系统引擎,通过机器学习AI算法完成对海量数据的采样和标定,可快速批量的将图片转化成文字,对中准确识别率高。支持xt,docx,双层pdf,xlsx的格式导出,可轻松完成文字的编辑、检索等工作,完成纸质文件的无纸化转换。支持文件夹快速切换,图像缩略图预览,支持多文件选取,支持批量功能操作,如颜色处理、旋转、裁剪、规格化、重命名,文字识别等功一个安装包解决图像处理和文字识别的问题,以极小体积的本地数据库完成对文字的识别,无需互联网即可使用,安全应用防止数据泄露。专业的UI设计及交互设计团队,精心打造每一个细节,让用户越用越流畅,越便捷。软件版本会持续送代,功能和体验持续升级更新。预置白纸印章、证件底纹等颜色模式,实现快速切换。效率高,效果好

识别率不错。

这个软件的评论区里也有不少用户发表的评论:

就是没注册,不知道使用时是否存在功能限制。

3.4 截屏OCR

从软件介绍来看似乎不错。

安装后运行,提示要在应用商店下载依赖系统<电子档案管理系统>。

3.5 Online OCR网页版

从软件介绍来看,这是一个在线OCR文字识别软件,从PDF或图片(支持JPG.BMP)中识别提取出文字,并将其转换成Word/ExceUTXT文档。

安装后打开,会使用浏览器打开网址:免费在线OCR - 将PDF转换为Word或图像转换为文本

网页中提示了操作步骤:

第一步,选择并上传文件

第二步,选择识别语言和输出文件格式,我们要识别简体中文的话,可以选择 CHINESESMPLIFIED

第三步,识别并转换

对于一般的文件,可以上传和识别

如果是敏感的文件,就不能上传和识别了。

4 小结

经过测试,在银河麒麟系统软件商店中搜索出了5个OCR软件,其中一个The OCR-A实际是字体而非软件,所以实际上只有4个,在这4个软件中,OCRFeeder运行不了,截屏OCR不能单独使用,Online OCR网页版需要连接互联网,而且不能处理敏感信息,所以真正可以放心使用的只有成者采编王(图像编辑PDF/OFD扫描及文字识别OCR软件)。


http://www.ppmy.cn/devtools/134220.html

相关文章

如何使用VR眼镜串流玩游戏?VR眼镜串流玩游戏教程

这些年VR&#xff08;虚拟现实&#xff09;技术不断发展&#xff0c;越来越多的玩家&#xff0c;开始尝试用VR眼镜串流来玩PC游戏。目前可以串流的VR设备分为PCVR和VR一体机这两种。 PCVR是有线串流&#xff0c;通过线材可以连接VR设备和电脑&#xff0c;延迟低&#xff0c;游戏…

241114.学习日志——[CSDIY] [Cpp]零基础速成 [03]

​ CSDIY&#xff1a;这是一个非科班学生的努力之路&#xff0c;从今天开始这个系列会长期更新&#xff0c;&#xff08;最好做到日更&#xff09;&#xff0c;我会慢慢把自己目前对CS的努力逐一上传&#xff0c;帮助那些和我一样有着梦想的玩家取得胜利&#xff01;&#xff0…

【非关系型数据库】【IOT设备】InfluxDB、TimescaleDB、Cassandra和MongoDB

关系型数据库在处理IoT设备数据瓶颈 问题原理具体问题描述固定的模式和结构预定义的数据模式要求IoT设备可能产生结构多变的数据&#xff0c;频繁调整数据库模式以适应这些变化是不切实际的。扩展性限制设计初衷是单服务器&#xff0c;水平扩展复杂需要应对大量设备数据的快速…

工程认证视角下的Spring Boot计算机课程管理系统

摘要 随着信息技术在管理上越来越深入而广泛的应用&#xff0c;管理信息系统的实施在技术上已逐步成熟。本文介绍了基于工程教育认证的计算机课程管理平台的开发全过程。通过分析基于工程教育认证的计算机课程管理平台管理的不足&#xff0c;创建了一个计算机管理基于工程教育认…

如何修改npm包

前言 开发中遇到一个问题&#xff0c;配置 Element Plus 自定义主题时&#xff0c;添加了 ElementPlusResolver({ importStyle: "sass" }) 后&#xff0c;控制台出现报错&#xff0c;这是因为 Dart Sass 2.0 不再支持使用 !global 来声明新变量&#xff0c;虽然当前…

研究生如何远控实验室电脑?远程办公功能使用教程

如果你是研究生&#xff0c;是不是会遇到需要远程控制实验室电脑进行查看文献、调代码和拉数据的时候&#xff1f;有时候就是这么棘手&#xff0c;不过你可以借助一些工具来帮助你随时随地远控实验室电脑。这样就不用担心导师催促&#xff0c;无法及时完成科研了。常见的工具比…

golang使用etcd版本问题

报错&#xff1a;如下与新版本的grpc包冲突&#xff0c;当前引入的etcd版本为旧版本。 go: common/modules/etcd importsgo.etcd.io/etcd/clientv3 tested bygo.etcd.io/etcd/clientv3.test importsgithub.com/coreos/etcd/auth importsgithub.com/coreos/etcd/mvcc/backend i…

在 Windows 11 中使用 MuMu 模拟器 12 国际版配置代理

**以下是优化后的教学内容,使用 Markdown 格式,便于粘贴到 CSDN 或其他支持 Markdown 格式的编辑器中: 在 Windows 11 中使用 MuMu 模拟器 12 国际版配置代理 MuMu 模拟器内有网络设置功能,可以直接在模拟器中配置代理。但如果你不确定如何操作,可以通过在 Windows 端设…