【OCR】 - Tesseract OCR在Windows系统中安装

news/2025/3/14 18:15:57/

Tesseract OCR

在Windows环境下安装Tesseract OCR(Optical Character Recognition)通常包括以下几个步骤:

下载Tesseract

  1. 访问Tesseract的GitHub发布页面:https://github.com/tesseract-ocr/tesseract/releases
  2. 找到适合你操作系统的版本,通常是预编译的二进制文件,例如 tesseract-x.x.x-setup.exe
  3. 下载并运行这个安装程序。

配置环境变量

  1. 打开系统属性,可以通过右键点击“此电脑”或“我的电脑”,然后选择“属性”来访问。
  2. 在打开的窗口中,找到并点击“高级系统设置”。
  3. 在“系统属性”窗口中,切换到“高级”选项卡,然后点击“环境变量”按钮。
  4. 在“环境变量”窗口中,在“系统变量”部分找到名为 Path
  5. 在弹出的窗口中,点击“新建”按钮,然后添加Tesseract的安装路径。如果安装在默认位置,可能是
    C:\Program Files\Tesseract-OCR
  6. 点击“确定”按钮关闭所有打开的窗口以保存更改。

测试安装

  1. 打开命令提示符(CMD),可以通过按下 Win+R键,然后输入cmd并回车来打开。
  2. 在命令行中输入以下命令,检查Tesseract是否已经正确安装和配置:
tesseract --version

如果一切正常,你应该能看到类似tesseract 5.0.0这样的输出,显示了当前安装的Tesseract版本信息。

安装语言包

  1. 如果需要识别的语言不是英语(如简体中文),你需要下载对应的语言数据包。
  2. 你可以从Tesseract官方镜像站点或者其他可靠来源下载所需的语言包。例如,简体中文的数据包通常是
    chi_sim.traineddata
  3. 将下载的语言数据包放在Tesseract的 tessdata
C:\Program Files\Tesseract-OCR\tessdata

使用Tesseract

一旦安装完成并配置好环境变量,你就可以使用Tesseract进行文本识别了。一个基本的命令行用法如下:

tesseract image_file output_text -l language

其中,image_file是你要识别的图像文件名,
output_text是识别结果要保存的文本文件名,
language是你指定的识别语言(如eng、chi_sim等)。


http://www.ppmy.cn/news/1301196.html

相关文章

前端导出Excel文件,部分数字前面0消失处理办法

详细导出可以看之前的文章 js实现导出Excel文档_js 通过 接口 导出 xlsx 代码-CSDN博客 今天的问题是导出一些数据时,有些字段是前面带有0的字符串,而导出后再excel中就被识别成了数字 如图本来字符串前面的0 都没了 解决方案 1. 导出的时候在前面加单…

学习c语言,计算水仙花

算出数值的位数,然后计算次方用pow次方函数,如果和等于数值本身则为水仙花.

代币合约 ERC20 Token接口

代币合约 在以太坊上发布代币就要遵守以太坊的规则,那么以太坊有什么规则呢?以太坊的精髓就是利用代码规定如何运作,由于在以太坊上发布智能合约是不能修改和删除的,所以智能合约一旦发布,就意味着永久有效,不可篡改…

【发票识别】支持pdf、ofd、图片格式的发票

背景 为了能够满足识别各种发票的功能,特地开发了当前发票识别的功能,当前的功能支持pdf、ofd、图片格式的发票识别,使用到的技术包括文本提取匹配、ocr识别和信息提取等相关的技术,用到机器学习和深度学习的相关技术。 体验 体…

SpringMVC-04

RESTful是一种针对Web服务的软件架构风格,它基于HTTP协议和其他标准,用于构建可扩展、可维护和可拓展的网络应用程序。 RESTful风格的设计原则包括以下几点: 资源:将应用程序的所有内容都视为资源,每个资源都有唯一的…

Kali Linux——aircrack-ng无线教程

目录 一、准备 二、案例 1、连接usb无线网卡 2、查看网卡信息 3、开启网卡监听 4、扫描wifi信号 5、抓取握手包 6、强制断开连接 7、破解握手包 三、预防 一、准备 1、usb无线网卡(笔记本也是需要用到) 2、密码字典(Kali 系统自带…

Selenium自动化测试—设置元素等待

selenium中有三种时间等待: 强制等待:sleep隐式等待:implicitly_wait显示等待:WebDriverWait 1. sleep【文末有配套视频教程和免费的测试资料】 让程序暂停运行一定时间,等待时间到达后继续运行。 使用sleep&#…

【源码阅读】事件订阅包v2

1、Feed Feed 实现一对多订阅,其中事件的载体是通道。发送到 Feed 的值会同时传送到所有订阅的通道。 与Typemux的对比 链接: link TypeMux是一个同步的事件框架,当有一个被订阅的事件发生的时候,会遍历该事件对应的订阅者通道,…