olmOCR：使用VLM解析PDF

olmOCR：使用VLM解析PDF

embedded/2025/2/28 16:18:01/

在PDF解析中，目前主流的开源工具包括Minuer、GOT OCR等。主要都是通过飞桨等OCR套件组装的一套pipeline，或者直接通过VLM解析图像。

#一、 olmOCR是使用VLM进行的端到端的PDF文档解析
在这里插入图片描述

二、document-anchoring

与上述的不同在于，olmOCR使用了document-anchoring，文档锚定方法。针对PDF中的页码信息、图像信息等元数据和文字，使用pyPDF库进行解析。
在这里插入图片描述
通过在提示词里加入这些文字位置、图像位置、元数据等信息，VLM的幻觉大大减少。
加上位置信息，VLM应该能够定位到具体区域，然后专注于这部分的解析。
仅用页面图像进行提示容易出现未完成的句子，或者在图像数据模糊时产生不忠实的输出。

三、模型微调

数据集：构建了olmOCR-mix-0225数据集
训练：在Qwen2-VL-7B-Instruct上微调
评估：
1.与教师模型GPT-4o计算对齐得分，具体是文档相似性度量，该度量将文档拆分为单词，使用Hirschberg算法对这些单词进行对齐，并计算匹配的比例
2.人类评估：ELO分数
3.下游任务评估

项目：https://github.com/allenai/olmocr

http://www.ppmy.cn/embedded/168829.html

相关文章

MySQL—使用binlog日志恢复数据

MySQL—使用binlog日志恢复数据

一、binlog日志恢复数据简介在 MySQL 中，使用二进制日志（binlog）恢复数据是一种常见的用于故障恢复或数据找回的方法。以下是详细的使用步骤： 确认 binlog 已启用：首先需要确认 MySQL 服务器已经启用了二进制日志功…

阅读更多...

PON架构(全光网络)

PON架构(全光网络)

目前组网架构世界上有一种最快的速度又是光，以前传统以太网络规划满足不了现在的需求。有线网无线网全光网络方案场景全光网络分类以太全光网络 PON（Pas-sive-Optical Network 无源光网络） 再典型的中大型高校网络中推荐万兆入室…

阅读更多...

react覆盖组件样式，不影响其他地方相同类名的组件

react覆盖组件样式，不影响其他地方相同类名的组件

less module 配合 :global(){} less文件 /* ButtonComponent.less */ .customButton {// 覆盖第三方按钮库的类名（如 .ant-btn）:global(.ant-btn) {background: #1890ff;// 通过父选择器限定作用域&:hover {background: #40a9ff;}} } tsx文件 //…

阅读更多...

【清华大学】DeepSeek从入门到精通完整版pdf下载

【清华大学】DeepSeek从入门到精通完整版pdf下载

DeepSeek从入门到精通.pdf 一共104页完整版下载链接: https://pan.baidu.com/s/1-gnkTTD7EF2i_EKS5sx4vg?pwd1234 提取码: 1234 或链接：https://pan.quark.cn/s/79118f5ab0fd 一、DeepSeek 概述背景与定位 DeepSeek 的研发背景核心功能与技术特点&#xff08…

阅读更多...

IDEA-插件开发踩坑记录-第六坑-UAST依赖问题

IDEA-插件开发踩坑记录-第六坑-UAST依赖问题

背景简要说明： UAST – Unified Abstract Syntax Tree UAST (Unified Abstract Syntax Tree) is an abstraction layer on the PSI of different programming languages targeting the JVM (Java Virtual Machine). It provides a unified API for working with co…

阅读更多...

2024年第十五届蓝桥杯大赛软件赛省赛Python大学A组真题解析

2024年第十五届蓝桥杯大赛软件赛省赛Python大学A组真题解析

文章目录试题A: 拼正方形(本题总分：5 分)解析答案试题B: 召唤数学精灵(本题总分：5 分)解析答案试题C: 数字诗意解析答案试题A: 拼正方形(本题总分：5 分) 【问题描述】小蓝正在玩拼图游戏，他有7385137888721 个2 2 的方块和10470245 个1 1 的方块，他需要从中挑出一些…

阅读更多...

深入理解Java反射机制：从基础到高级应用

深入理解Java反射机制：从基础到高级应用

一、反射机制概述 Java 反射机制是 Java 语言的一个重要特性，它允许程序在运行时动态地获取类的信息，以及动态地调用对象的方法、修改属性等操作。这意味着程序员可以在运行期间检查和操作类、对象的各种元素，而不需要在编译时就知道这些信息…

阅读更多...

30天开发操作系统第24天 -- 窗口操作

30天开发操作系统第24天 -- 窗口操作

一、窗口切换 1.0 前天开始我们的应用程序可以显示自己的窗口了，现在画面上到处都是窗口，我们急需能够切换窗口顺序的功能，使得在需要的时候可以查看最下面的窗口的内容。这个功能看起来不难，我们马上来实现它。不过&#xf…

阅读更多...

最新文章