OCR-free Document Understanding Transformer

embedded/2024/11/27 13:56:07/

摘要:理解文档图像(如发票)是一个核心且具有挑战性的任务,因为它需要执行复杂的功能,如读取文本和对文档的整体理解。目前的视觉文档理解(VDU)方法将读取文本的任务外包给现成的光学字符识别(OCR)引擎,并专注于使用OCR输出进行理解任务。尽管基于OCR的方法显示出令人鼓舞的性能,但它们面临以下问题:1)使用OCR的高计算成本;2)OCR模型在语言或文档类型上的灵活性差;3)OCR错误会传播到后续处理过程。为了解决这些问题,本文提出了一种新的无OCR的VDU模型,名为Donut(即文档理解Transformer)。作为无OCR的VDU研究的第一步,我们提出了一个简单的架构(即Transformer)和预训练目标(即交叉熵损失)。Donut概念上简单但有效。通过广泛的实验和分析,我们展示了一个简单的无OCR的VDU模型Donut,在各种VDU任务中,无论是在速度还是准确性上都达到了最先进的性能。此外,我们提供了一个合成数据生成器,帮助模型的预训练在各种语言和领域中更具灵活性。代码、训练模型和合成数据可以在https://github.com/clovaai/donut中获取。

关键词:视觉文档理解,文档信息提取,光学字符识


http://www.ppmy.cn/embedded/140910.html

相关文章

c++编程玩转物联网:使用芯片控制8个LED实现流水灯技术分享

在嵌入式系统中,有限的GPIO引脚往往限制了硬件扩展能力。74HC595N芯片是一种常用的移位寄存器,通过串行输入和并行输出扩展GPIO数量。本项目利用树莓派Pico开发板与74HC595N芯片,驱动8个LED实现流水灯效果。本文详细解析项目硬件连接、代码实…

极狐GitLab 17.6 正式发布几十项与 DevSecOps 相关的功能【二】

GitLab 是一个全球知名的一体化 DevOps 平台,很多人都通过私有化部署 GitLab 来进行源代码托管。极狐GitLab 是 GitLab 在中国的发行版,专门为中国程序员服务。可以一键式部署极狐GitLab。 学习极狐GitLab 的相关资料: 极狐GitLab 官网极狐…

零基础3分钟快速掌握 ——Linux【终端操作】及【常用指令】Ubuntu

1.为啥使用Linux做嵌入式开发 能广泛支持硬件 内核比较高效稳定 原码开放、软件丰富 能够完善网络通信与文件管理机制 优秀的开发工具 2.什么是Ubuntu 是一个以桌面应用为主的Linux的操作系统, 内核是Linux操作系统, 具有Ubuntu特色的可视…

接上一主题,C++14中如何设计类似于std::any,使集合在C++中与Python一样支持任意数据?

这篇文章的重点是C多态的应用,但是如果你是C新手, 你需要了解以下C知识: 类 构造函数 拷贝构造函数 虚拟函数 纯虚拟函数 析构函数 类的继承 运算符重写 模板类 模板参数 数组 数组的传递 指针与动态内存分配 Python: s …

前端开发工程师需要学什么?

‌前端开发工程师需要学习的主要内容包括HTML、CSS、JavaScript、前端框架、响应式设计、性能优化、版本控制等。‌ HTML/CSS/JavaScript ‌HTML‌:是网页的骨架,负责网页的结构和内容。‌CSS‌:用于美化网页,设计样式和布局。‌…

延迟队列调研

调研延迟队列的实现方案: 使用 RocketMQ 设置延迟时间级别延时投递的延时队列 使用 Redisson 提供的 DelayedQueue 使用 Redis 的过期监听 -- key过期事件的时效性问题(惰性清除、定时随机删除) 使用 RabbitMQ 的死信队列 -- 死信队列的设计目的是为了存储没有…

【C++】顺序容器(二):顺序容器操作

9.3 顺序容器操作 9.3.1 向顺序容器添加元素 除 array 外,所有标准库容器都提供了灵活的内存管理。在运行时可以动态添加或删除元素来改变容器大小。 使用 push_back 除 array 和 forward_list 之外,每个顺序容器(包括 string 类型&#…

腾讯云OCR车牌识别实践:从图片上传到车牌识别

在当今智能化和自动化的浪潮中,车牌识别(LPR)技术已经广泛应用于交通管理、智能停车、自动收费等多个场景。腾讯云OCR车牌识别服务凭借其高效、精准的识别能力,为开发者提供了强大的技术支持。本文将介绍如何利用腾讯云OCR车牌识别…