【OCR】数据集合集!

news/2024/12/27 3:01:50/

本文将为您介绍经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。

1

RapidOCR

  • 更新时间:2024-12-24

  • 访问地址: GitHub

  • 描述:

    基于 ONNXRuntime、OpenVINO 和 PaddlePaddle 的超棒 OCR 多编程语言工具包。多平台、多语言 OCR 工具,它拥有无与伦比的速度、广泛的支持和完全的开放性。这款卓越的软件完全免费,以促进快速离线部署而闻名。其效率的核心是 ONNXRuntime 推理引擎,提供 4 到 5 倍于 PaddlePaddle 引擎的速度,同时确保没有内存泄漏。

  • 数据集网址:

    https://github.com/RapidAI/RapidOCR

2

PaddleOCR

  • 更新时间:2024-12-24

  • 访问地址: GitHub

  • 描述:

    基于PaddlePaddle的超棒多语言OCR工具包(实用的超轻量级OCR系统,支持80多种语言识别,提供数据注释和合成工具,支持服务器、移动、嵌入式和物联网设备之间的训练和部署)。

  • 数据集网址:

    https://github.com/PaddlePaddle/PaddleOCR

3

surya

  • 更新时间:2024-12-21

  • 访问地址: GitHub

  • 描述:

    Surya 是一个文档 OCR 工具包,支持 90 多种语言的 OCR,与云服务相比具有优势,可以进行任何语言的行级文本检测,布局分析(表格、图像、标题等检测),阅读顺序检测,表格识别(检测行/列)等,它适用于一系列文档。

  • 数据集网址:

    https://github.com/VikParuchuri/surya

4

PaddleOCR-json

  • 更新时间:2024-10-15

  • 访问地址: GitHub

  • 描述:

    这是一个基于PaddleOCR v2.6及v2.8 cpp_infer的离线图片OCR文字识别程序,可以快速让你的程序拥有OCR能力。它可以作为一个子进程被上层程序调用,也可以作为一个单独的进程通过TCP调用。本项目提供了Python等语言的API,你可以无视技术细节,通过两行代码使用它。

    本项目旨在提供一个封装好的OCR引擎组件,使得没有C++编程基础的开发者也可以用其他语言来简单地调用OCR,享受到更快的运行效率、更方便的资源和部署手段。

  • 数据集网址:

    https://github.com/hiroi-sora/PaddleOCR-json

5

OpenOCR

  • 更新时间:2024-12-18

  • 访问地址: GitHub

  • 描述:

    OpenOCR:通用的OCR系统,准确率高,支持24种在真实大规模数据集上从头训练的场景文本识别方法,并将持续添加最新方法。

  • 数据集网址:

    https://github.com/Topdu/OpenOCR

6

ID-DocumentRecognition-Linux

  • 更新时间:2024-10-15

  • 访问地址: GitHub

  • 描述:

    MiniAiLive 智能 ID OCR,实现可靠的身份验证从文档验证到数据输入,我们的 MiniAiLive OCR 解决方案可以帮助改变您的身份验证流程。

    使用我们经过验证的 AI 优先方法,快速安全地捕获、提取和验证各种身份证、护照、驾驶执照和其他文件中的数据。我们的技术设计无缝集成,可以作为完全捆绑的身份证件验证解决方案集成,也可以通过开发人员友好的移动或服务器 SDK 作为单独的模块集成。

  • 数据集网址:

    https://github.com/MiniAiLive/ID-DocumentRecognition-Linux

7

doctr

  • 更新时间:2024-12-21

  • 访问地址: GitHub

  • 描述:

    docTR(文档文本识别)——一个由深度学习支持的 OCR 相关任务的无缝、高性能且可访问的库。

  • 数据集网址:

    https://github.com/mindee/doctr

8

Text-Grab

  • 更新时间:2024-12-22

  • 访问地址: GitHub

  • 描述:

    这是适用于 Windows 10/11 的最小光学字符识别 (OCR) 实用程序,可以复制所有可见文本。

    文本经常被困在图像、视频或应用程序的某些部分中,无法被选中。Text Grab 截取屏幕截图,将该图像传递给 OCR 引擎,然后将文本放入剪贴板以供在任何地方使用。OCR 由Windows API在本地完成。这使得 Text Grab 基本上没有 UI,也不需要持续运行的后台进程。处理文本不仅仅是从图像中复制文本,因此 Text Grab 有一系列不同的模式,使处理文本变得快速而简单。

  • 数据集网址:

    https://github.com/TheJoeFin/Text-Grab

9

tesseract.js

  • 更新时间:2024-12-24

  • 访问地址: GitHub

  • 描述:

    适用于 100 多种语言的纯 Javascript OCR。

    Tesseract.js 旨在将Tesseract OCR 引擎(一个单独的项目)引入浏览器和 Node.js,并通过包装Tesseract 的WebAssembly 端口来工作。该项目不会修改 Tesseract 的核心功能。最值得注意的是,Tesseract.js 不支持 PDF 文件,也不会修改 Tesseract 识别模型来提高准确性。

  • 数据集网址:

    https://github.com/naptha/tesseract.js

10

Easydict

  • 更新时间:2024-12-24

  • 访问地址: GitHub

  • 描述:

    一个简洁优雅的搜索翻译macOS App。开箱即用,支持离线OCR识别,支持有道搜索,苹果系统搜索,苹果系统翻译,OpenAI,Gemini,DeepL,Google,Bing,腾讯,百度,阿里,小牛,彩云和火山翻译。简洁优雅的 macOS 词典和翻译器应用程序,用于查找单词和翻译文本。

  • 数据集网址:

    https://github.com/tisfeng/Easydict


http://www.ppmy.cn/news/1558413.html

相关文章

线性代数期末总复习的点点滴滴(1)

一、可逆矩阵、行列式、秩的关系 1.行列式与可逆矩阵的关系 所以,不难看出矩阵可逆的充分必要条件是该矩阵的行列式不为0。 2.接着来看,满秩和矩阵行列式的关系 不难看出满秩和行列式不为0是等价的。 3.再来看,满秩和矩阵可逆的关系 说明了…

Python实现将series系列数据格式批量转换为Excel

在Python中,如果你有一系列的数据(假设是存储在列表或其他数据结构中的数据),想要批量转换为Excel格式,可以使用pandas库来实现。以下是一个简单的示例代码,假设你的数据是一个包含多个字典的列表&#xff…

EasyExcel停更,FastExcel接力

11月6日消息,阿里巴巴旗下的Java Excel工具库EasyExcel近日宣布,将停止更新,未来将逐步进入维护模式,将继续修复Bug,但不再主动新增功能。 EasyExcel以其快速、简洁和解决大文件内存溢出的能力而著称,官方…

医疗行业 UI 设计系列合集(一):精准定位

在当今数字化时代,医疗行业与信息技术的融合日益紧密,UI 设计在其中扮演着至关重要的角色。精准定位的 UI 设计能够显著提升医疗产品与服务的用户体验,进而对医疗效果和患者满意度产生积极影响。 一、医疗行业 UI 设计的重要性概述 医疗行业…

Kafka无锁设计

前言 在分布式消息队列系统中,Kafka 的无锁设计是其高吞吐量和高并发的核心优势之一。通过避免锁的竞争,Kafka 能够在高并发和大规模的生产环境中保持高效的性能。为了更好地理解 Kafka 的无锁设计,我们首先对比传统的队列模型,然后探讨 Kafka 如何通过无锁机制优化生产者…

Milvus矢量数据库 麒麟v10安装

什么是Milvus矢量数据库? Milvus 创建于 2019 年,其目标只有一个:存储、索引和管理由深度神经网络和其他机器学习 (ML) 模型生成的海量嵌入向量。 作为专门设计用于处理对输入向量的查询的数据库,它能够对一万亿级的向量进行索引…

24 go语言(golang) - gorm框架安装及使用案例详解

一、简介 官方文档 GORM是一个用于Go语言的ORM(对象关系映射)库,它简化了与数据库交互的过程。GORM支持多种数据库,包括MySQL、PostgreSQL、SQLite和SQL Server等。 1.1 关键特性 自动迁移:GORM可以根据结构体自动…

list的常用操作

list的介绍 list是序列容器,它允许在常数范围O(1)进行插入和删除在这段序列的任意位置,并且可以双向遍历 它是弥补vector容器的缺点,与vector有互补的韵味, 这里我们可以将其进行与vector进行对比 vect…