olmOCR模型论文解读

论文标题：OCR.html" title=olmOCR>olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models

论文地址：https://arxiv.org/abs/2502.18443

[注] 先上结论：OCR.html" title=olmOCR>olmOCR是基于Qwen2-VL-7B-Instruct微调的模型，在微调时加入了PDF的一些元信息，训练数据是由gpt-4o-2024-08-06生成的。所以此技术能够达成的天花板效果就是：引入PDF元信息，把7B的VLM在文档OCR上的能力微调到gpt-4o的水平。

Abstract

论文推出了OCR.html" title=olmOCR>olmOCR，一个开源的 Python 工具包，用于将 PDF 处理成干净、线性化的纯文本，按照自然阅读顺序排列，同时保留结构化内容，如章节、表格、列表、方程式等。

工具包加载一个经过微调的 7B 视觉语言模型（VLM），该模型在来自超过 10 万个爬取的 PDF 的 26 万个页面的样本上进行训练，这些 PDF 具有不同的属性，包括图形、手写文本和质量较差的扫描。

Introduction

获取干净、连贯的文本数据是现代语言模型（LMs）生命周期中的关键组成部分。

虽然互联网仍然是语言模型文本内容的宝贵来源，但大量内容无法通过网页轻易获取。电子文档（例如 PDF、PS、DjVu 格式）和文字处理文件（例如 DOC、ODT、RTF）是存储文本内容的广泛使用的格式。然而，这些格式与现代网络标准不同，它们对内容进行编码是为了便于在固定大小的物理页面上呈现，却牺牲了保留逻辑文本结构。

文字提取和表示长期以来一直备受关注，早在 20 世纪 50 年代就有了早期的研究努力，并且第一批商业光学字符识别（OCR）工具在 20 世纪 70 年代末首次亮相。2006 年 Tesseract 的发布代表了一个重要的里程碑，因为它是第一个高质量的开源 OCR 工具包。Nougat和 GOT Theory 2.0将 PDF 页面的图像作为输入，并返回纯文本。

最近，专有的语言模型的快速进步导致了端到端文本提取能力的显著提高。

[注] 这里指的是Qwen开源的VLM。

作者推出 OCR.html" title=olmOCR>olmOCR，一个通用的上下文提取和线性化工具包，可将文档的 PDF 或图像转换为干净的纯文本，贡献如下：

OCR.html" title=olmOCR>olmOCR 能够处理多种文档类型，涵盖不同领域以及视觉布局。使用 Markdown来表示结构化内容，例如章节、列表、公式和表格。
与其他端到端模型不同，OCR.html" title=olmOCR>olmOCR 使用文本和视觉信息来获得文档的准确文本表示。作者开发了文档锚定技术，一种从原生数字 PDF 文档中提取文本和布局信息的技术，以显著提高提取效果。
为了构建 OCR.html" title=olmOCR>olmOCR，整理了 OCR.html" title=olmOCR>olmOCR-mix-0225，一个包含近 26 万个 PDF 页面的数据集，这些页面来自从网络和公共领域书籍中抓取的各种 PDF。
OCR.html" title=olmOCR>olmOCR 与 SGLang和 vLLM都完全兼容。

Methodology

许多端到端光学字符识别（OCR）模型，如 GOT Theory 2.0和 Nougat，仅依赖光栅化页面将文档转换为纯文本；也就是说，它们将文档页面的图像作为输入，以自回归方式解码文本标记。这种方法虽然与仅图像数字化管道具有极大的兼容性，但忽略了一个事实，即大多数 PDF 是数字原生文档，因此已经包含数字化文本或其他有助于正确线性化内容的元数据。

相比之下，OCR.html" title=olmOCR>olmOCR 利用文档文本和元数据。作者将这种方法称为文档锚定。

文档锚定

如图，文档锚定提取每页中显著元素（例如，文本块和图像）的坐标，并将它们与从 PDF 二进制文件中提取的原始文本一起注入。至关重要的是，锚定文本与页面的光栅图像一起作为输入提供给任何视觉语言模型。

OCR.html" title=olmOCR>olmOCR_41">Fine-tuning Models for OCR.html" title=olmOCR>olmOCR

虽然这样的范式可用于提示任何语言模型，但作者发现，在这个任务上对较小的视觉语言模型（VLM）进行微调，可以得到与较大的通用模型一样准确的模型，并且在推理时间上效率更高。

Dataset

教师模型的选择。在构建时（2024 年 10 月），作者评估了几个模型来构建训练数据。作者提到GPT-4o、GPT-4o mini、Gemini 1.5 和 Claude Sonnet 3.5 对PDF解析输出的结果尚可接受。最终选择了 gpt-4o-2024-08-06，因为它在批量模式下具有高性能和相对较低的成本。

PDF工具选择。 OCR.html" title=olmOCR>olmOCR 选择 PDF 工具时利用了两种用于 PDF 光栅化和元数据操作的工具：Poppler将 PDF 中的页面转换为图像；PyPDF提取文本块、图像及其作为文档锚定一部分的位置。

提示策略。用 PDF 页面的图像提示 GPT-4o，使用 Poppler 的 pdftoppm 工具渲染每个页面，分辨率设置为最长边为 2048 像素，这是当时 GPT-4o 模型支持的最大分辨率。

Below is the image of one page of a PDF document , as well as some raw textual content that was previously extracted for it that includes position information for each image and block of text (The origin [0x0] of the coordinates is in the lower left corner of the image).
Just return the plain text representation of this document as if you were reading it naturally.
Turn equations into a LaTeX representation , and tables into markdown format. Remove the headers and footers , but keep references and footnotes.
Read any natural handwriting.
This is likely one page out of several in the document , so be sure to preserve any sentences that come from the previous page , or continue onto the next page , exactly as they are.
If there is no text at all that you think you should read , you can output null.
Do not hallucinate .
RAW_TEXT_START
{base_text}
RAW_TEXT_END

最后，指示 GPT-4o 以结构化输出回应请求，迫使模型在以自然阅读顺序输出页面文本之前，先提取页面元数据，如语言、页面方向和表格的存在。

数据采集和页面采样。为了生成主要的训练数据集，从 2.4 亿份 PDF 的数据集中抽取了 10 万份 PDF，该数据集是从公共互联网网站上抓取的。识别并过滤掉非英语的文档。此外，移除任何无法被 pypdf 解析、包含垃圾关键词、是可填写表单或文本太短的文档。然后，我们从每份 PDF 中随机均匀地抽取最多 3 页。这产生了大约 249332 个 PDF 页面。还从互联网档案馆的公共领域扫描书籍数据集中抽取了 5601 份 PDF，并进行了类似的处理。与网络抓取的数据集不同，这个集合中的 PDF 是书籍页面的图像扫描，而不是原生数字文档。

数据集概览

Model Training

OCR.html" title=olmOCR>olmOCR-7B-0225-preview 从 Qwen2-VL-7B-Instruct进行微调。训练使用transformers 库。超参数设置：使用有效批大小为 4（批大小为 1，有 4 个梯度累积步骤），学习率为 1e - 6，AdamW 优化器，以及 10000 步（大约 1.2 个epoch）。用 8 个 NVIDIA H100 GPU 的单节点。对全微调以及 LoRA都进行了实验。