图片公式识别@文档公式识别@表格识别@在线和离线OCR工具

news/2025/1/16 21:50:13/

文章目录

    • abstract
    • 普通文字识别
    • 本地软件识别公式
      • 扩展插件下载
      • 小结
    • 在线识别
      • 网站/API👺
      • Quicker整合(推荐)
      • 可视化编辑和识别公式
      • 其他
      • 多模态大模型识别图片中的公式
      • 排版
    • 开源模型

abstract

  • 本文介绍免费图片文本识别(OCR)工具,包括普通文字识别,公式识别,甚至是手写公式和文字
  • 重点在于免费和好用,不失选择的多样性
  • 虽然公式识别的难度远大于普通文字的识别难度,但是随着技术的发展,公式识别也会像文本识别那样易用,免费
  • 其他重要的AI应用(这里不展开)
    • 还有表格识别,尤其是复杂表格的识别
    • 逼真(接近真人播音员朗读效果)的文本朗读语言生成
  • 本文内容可能会随着时间的逝去而过时,某些东西将来可能不那么好用,也可能变得好用,也可能出现更好的工具

普通文字识别

  • 这类软件或平台十分的多,早已普及,比如qq/微信都有文本识别的功能
    • 有人把微信里的ocr功能作为后台设计了一个本地OCR,并且接入语音朗读
  • 那么主要比较的是识别速度和精度,以及易用程度,比如能否离线识别,连续识别的体验,跨平台如何,费用等方面
  • 当然能够识别公式的平台通常也能识别普通文本(但是个别模型为了提高公式识别精度,仅设计为用来识别公式)

本地软件识别公式

  • Umi-OCR: Umi-OCR (gitee.com)
    • 是一款免费、开源、可批量的离线 OCR 软件,基于 PaddleOCR,适用于 Windows10/11 平台
    • 该链接同步github链接,源链接访问比较慢:hiroi-sora/Umi-OCR: OCR software, free and offline. (github.com)
    • 软件主体和软件的插件可以用镜像加速下载

扩展插件下载

  • hiroi-sora/Umi-OCR_plugins: Umi-OCR 插件库 (github.com)

  • 该软件是多功能OCR软件,可以用于普通图片中文本识别,也可以识别二维码,甚至数学公式

    • 识别数学公式需要下载插件中的体积较大的模型
    • hiroi-sora/Umi-OCR_plugins: Umi-OCR 插件库 (github.com)
    • 插件名为win7开头,表示:平台兼容win7 以上(win10,11都可以用),64 位
  • 请仔细阅读仓库介绍和使用说明

小结

  • 软件有多个模型供下载使用,识别公式的速度不是很快,模型推理时对于磁盘有一定的读写量
  • 在有需要说别的时候,我个人会优先使用在线工具识别

在线识别

网站/API👺

  • Document & Formula OCR Service (simpletex.cn)👺
    • 目前免费,支持手写符号识别,图片公式识别,文档公式识别
    • 并且有灵活的使用方式,包括api方式看起来很不错
    • 在线公式编辑器Document Editor (simpletex.net)
  • Doc2X
    • 精度也是不错的,有一定量的免费额度,次数蛮多的
    • 可以识别公式,也可以识别表格,包含公式的表格也不在话下,能够导出到word文件等
  • Pix2Text (P2T) - Free Mathpix Alternative (breezedeus.com)
    • 模型在成长期
    • 有免费额度,有开源版的模型

Quicker整合(推荐)

  • 如果经常使用,推荐用Quicker整合,实现截屏识别

  • 公式识别3 动作信息 - Quicker (getquicker.net)👺

    • 使用Quicker软件(需要常驻后台)及其动作插件动作实现截图识别公式,查看该链接教程进行配置
    • 可以选择多种api,教程中给出了推荐,目前用simpletex提供的api来识别很不错
    • 经常使用的话十分推荐此方案,如果只是偶尔用用,那么用在线网站就够了
  • Doc2X - by 蓝莓派 - 动作信息 - Quicker (getquicker.net)

可视化编辑和识别公式

  • 在线LaTeX公式编辑器-编辑器 (latexlive.com)
    • 需要登录,每个账户每天有少量免费次数(可能会调整)
    • 这类普通账户有免费次数的机制有的人会注册几个账号,甚至叫亲朋好友帮忙注册,不太优雅,用得多的话可以用其他免费的代替品

其他

  • 著名的收费公式识别(具有少量的免费额度
    • Mathpix OCR User Guide: Examples of Rendered Math and Text
  • 图片转LaTeX公式在线 - LaTeX公式识别 - 照片转换成LaTeX公式 - 白描网页版 (baimiaoapp.com)

多模态大模型识别图片中的公式

  • 做以下测试具有时效性,测试时都是免费功能,后续可能会有优化,也可能不再免费

    模型示例评价(仅先测试时的版本)
    通义千问在这里插入图片描述效果尚可,需要等一会,复杂公式需要久一些
    点击通义回复的右下角复制按钮获得latex代码;但是默认缺乏排班,需要告诉模型追加源代码输出,而不仅仅是渲染后的公式
    文心一言在这里插入图片描述免费模型(3.5)测的,一般般,复杂公式识别不全,期待优化
  • 大模型很多,这里就举出两个例子,其他的模型比如智谱清言也可以识别,但是同样的例子出现了错误,将来可能会改进

排版

  • 注意到通义模型可以较好的识别公式,个别细节可能需要微调

  • 我们也可以继续和模型交谈,让他输出源代码,或者排版,甚至给出改进建议,例如我要求输出公式源代码而非展示markdown渲染结果

开源模型

  • Pix2Text/README_cn.md at main · breezedeus/Pix2Text (github.com)
  • 当然还有其他的,一般能用在线免费的,就不需要本地部署了

http://www.ppmy.cn/news/1458724.html

相关文章

google地图js,添加标记,以及infowindow信息弹窗

&#xff08;谷歌地图版本V3&#xff09; var contentString "<div classdevinfo><P>设备ID: BJ-20240507</p> <P>设备状态: 正常</p> <P>通讯信号: 89% </p> <P>设备位置: 中国</p> <P>剂量率: 988</p&…

ctfshow web入门 sql注入 web224--web233

web224 扫描后台&#xff0c;发现robots.txt&#xff0c;访问发现/pwdreset.php &#xff0c;再访问可以重置密码 &#xff0c;登录之后发现上传文件 检查发现没有限制诶 上传txt,png,zip发现文件错误了 后面知道群里有个文件能上传 <? _$GET[1]_?>就是0x3c3f3d60245…

MySQL全局锁、表级锁、行锁、死锁、索引选择

文章目录 全局锁表级锁表锁元数据锁 MDL 如何安全的给小表添加字段1. 理解和监控长事务2. 使用NOWAIT和WAIT语法示例 3. 选择合适的时间窗口4. 分阶段执行5. 使用在线DDL工具 行锁死锁普通索引和唯一索引的选择索引基础业务场景分析性能考量实践建议索引及其选择机制索引选择错…

JavaScript的数据类型转换

转化为string类型&#xff1a; 方法说明转换对象.tostring&#xff08;&#xff09;转换成字符串string&#xff08;转换对象&#xff09;转换成字符串加号拼接字符串和字符串拼接后的结果是字符串 转化为数字性&#xff1a; 方法说明parselnt&#xff08;string&#xff…

GDAL的使用

栅格位置(像素或者是行坐标)和地理参考坐标之间的转换可以通过仿射变换实现&#xff0c;仿射矩阵可以通过GDALDataset::GetGeoTransform()得到&#xff0c;依据下面的公式将像素/行坐标转换到地理参考空间&#xff1a; X g e o G T ( 0 ) X p i x e l . G T ( 1 ) Y l i n …

React框架是什么

react是一个用于构建用户界面的javaScript库&#xff0c;起源于facebook的内部项目&#xff0c;后续在13年开源了出来 声明式 你只需要描述UI看起来是什么样式&#xff0c;就跟写HTML一样&#xff0c;React负责渲染UI 基于组件 组件时React最重要的内容&#xff0c;组件表示…

基于Springboot的校园健康驿站管理系统(有报告)。Javaee项目,springboot项目。

演示视频&#xff1a; 基于Springboot的校园健康驿站管理系统&#xff08;有报告&#xff09;。Javaee项目&#xff0c;springboot项目。 项目介绍&#xff1a; 采用M&#xff08;model&#xff09;V&#xff08;view&#xff09;C&#xff08;controller&#xff09;三层体系…

minio安装部署

MinIO 介绍 MinIO是一个对象存储解决方案&#xff0c;它提供了与Amazon Web Services S3兼容的API&#xff0c;并支持所有核心S3功能。 MinIO有能力在任何地方部署 - 公有云或私有云&#xff0c;裸金属基础设施&#xff0c;编排环境&#xff0c;以及边缘基础设施。 MinIO 安装…