OCR2.0--General OCR Theory

引领光学字符识别（OCR）的新篇章

引言：OCR技术进化的必要性

光学字符识别（OCR）是一项广泛应用的技术，它能够从图像中提取字符并将其转换为可编辑格式。虽然OCR-1.0在过去取得了广泛应用，但传统的系统在处理现代复杂任务方面遇到了很多挑战，包括文档、复杂图表以及乐谱等多种文本格式的处理。本文讨论了OCR技术的进化方向，重点介绍了通用OCR理论（General OCR Theory）以及新提出的GOT模型。

OCR-1.0的局限性

传统的OCR系统通常采用多模块流水线式的架构，包括元素检测、区域裁剪和字符识别。然而，这种模块化方式存在显著的缺陷，如局部最优问题、高维护成本以及缺乏通用性。传统OCR方法往往针对特定任务进行优化，可能适合处理文档OCR，但在场景文本或结构化数据任务中表现不佳，用户需要频繁切换模型。

OCR-2.0的愿景

随着智能光学字符处理需求的不断增长，OCR-2.0应运而生。新的理论强调一个统一的、端到端的模型，能够在同一个框架内处理多种字符形式，包括文本、图表、几何图形，甚至乐谱。为此，作者提出了通用光学字符识别理论（General Optical Character Recognition Theory, OCR-2.0）及其核心模型GOT（General Optical Text）。

GOT模型引入了高压缩率的编码器和长上下文解码器，使得GOT能够在多种OCR任务中表现出色。GOT模型具有端到端结构，计算成本低，且具备强大的通用性，能够处理英文和中文文本，并支持用户交互，如通过坐标或颜色进行区域识别。

GOT模型：统一的OCR解决方案

GOT采用了编码器-解码器架构，专为应对现代OCR任务而设计。编码器将输入图像压缩为一系列token，而解码器则将这些token转换为文本或结构化输出。GOT的编码器约有8000万参数，能够处理高分辨率输入（如整页文档），解码器则有5亿参数，支持长上下文场景，使得它在需要识别大量文本的文档处理任务中表现尤为出色。

该模型的高压缩比使其即便在消费级GPU上也能高效运行，相较传统OCR系统的高硬件要求，GOT无疑具有更大的优势。

Framework

在这里插入图片描述

GOT模型的整体设计包含了三个模块，分别是图像编码器、线性层和解码器。通过这三大模块的协同工作，GOT模型能够高效地处理各种OCR任务。

首先，预训练视觉编码器时，通过选择小型解码器和适当的数据输入，确保模型在提高效率的同时不会浪费GPU资源。在此过程中，系统通过学习常见的文本编码特征，提升了对常用字符的处理能力。

接着，模型进入第二阶段，将已经训练好的视觉编码器连接到新的更大解码器。这一步骤不仅仅是扩大模型容量，更重要的是通过增加多种数据类型如乐谱、数学公式和几何图形来丰富模型的应用范围，从而扩展了GOT的知识库。

最后，通过细粒度的数据和多页面合成数据，进一步增强了模型的泛化能力，使其在处理不同类型的OCR任务时表现更为出色。GOT能够处理区域提示OCR、超大图像OCR和批量PDF OCR，这意味着它不仅仅适用于传统的文本识别，还可以处理更加复杂和多样化的光学字符识别任务。

总的来说，GOT模型为OCR技术的发展提供了一个完整的、统一的解决方案，具备出色的多任务处理能力。

创新的训练策略

GOT的训练过程分为三个阶段：

编码器预训练：首先对GOT的视觉编码器进行预训练，处理场景文本和文档样式图像，通过全页文档和文本片段的组合，使编码器能够适应不同的输入格式。
联合训练：预训练完成后，编码器与更大的语言解码器连接，扩展GOT的OCR能力，以处理更复杂的字符，如数学公式和图表。
解码器后期训练：最后阶段是对解码器进行微调，增加对多页文档处理、细粒度区域OCR以及高分辨率图像的支持。

数据生成助力OCR-2.0

GOT成功的关键在于其合成数据的生成。在预训练阶段，使用了约500万对图像-文本数据，包括英文和中文的数据集。为进一步增强其能力，还生成了诸如数学公式、分子结构和几何图形等特定任务的合成数据。这些数据的加入使得GOT的OCR-2.0知识得到了显著扩展，确保其在各种应用中的通用性。

OCR-2.0的实际应用：性能与结果

GOT模型在多个OCR任务中表现优异：

文档OCR：GOT在中英文PDF文档OCR任务中表现突出，精确度超过了多款OCR模型，展现了出色的文档文本感知与识别能力。
场景文本OCR：在自然场景图像中，GOT也同样表现出色，进一步证明了其多任务处理能力。
格式化OCR：GOT能够将光学PDF图像转换为结构化的输出格式（如Markdown格式），特别适用于学术和技术文档。
细粒度OCR：GOT具备交互式OCR功能，用户可以指定感兴趣的区域进行文字提取，这在精确性方面表现优异。
通用OCR：除了文本，GOT还能够识别更加复杂的光学字符，如几何图形、乐谱，甚至是图表，展现了更广泛的适用性。

GOT模型在场景文本OCR任务中的表现

在这里插入图片描述

在表2中，展示了不同模型在场景文本OCR任务中的性能表现。这些模型包括了从UReader到GOT在内的多种最新OCR技术。表中的性能指标涵盖了编辑距离（Edit Distance）、F1分数、精度（Precision）、召回率（Recall）、BLEU分数和METEOR分数等。

性能对比：

GOT模型的优势：GOT模型以580M参数的规模，表现出优异的性能，尤其是在英文和中文的场景文本OCR任务中均获得了最高的F1分数（0.926 en，0.928 zh）。此外，GOT在精度和召回率方面也领先于其他模型，分别达到了0.934和0.927（en），以及0.914和0.954（zh）。
编辑距离：GOT的编辑距离为0.112（en）和0.096（zh），远远优于其他较大的模型，如Qwen-VL-Max (>72B参数) 和InternVL-ChatV1.5 (26B参数)。
综合评价：从BLEU和METEOR分数来看，GOT在中英文的表现也十分强劲，特别是在METEOR得分方面，GOT的分数分别为0.896（en）和0.928（zh），显示了极高的文本质量预测能力。

收集了400张自然场景图像，分别为200张中文图像和200张英文图像，作为场景文本OCR的基准数据集。该数据集中的所有真实标签均通过人工校正。在这些场景文本图像中，文本相对较短，因此使用字符级别的分割来计算各项指标。

从表2可以看出，GOT在处理自然场景图像时也表现出色，证明了其在大多数基本OCR任务（包括文档和场景文本）的卓越性能。特别是对于复杂的场景文本，GOT模型的表现无论是在英文还是中文任务中，均遥遥领先于其他较大规模的模型。