CV-OCR经典论文解读|An Empirical Study of Scaling Law for OCR/OCR 缩放定律的实证研究

embedded/2024/12/26 8:51:28/

论文标题

An Empirical Study of Scaling Law for OCR

OCR 缩放定律的实证研究

论文链接:

An Empirical Study of Scaling Law for OCR论文下载

论文作者

Miao Rang, Zhenni Bi, Chuanjian Liu, Yunhe Wang, Kai Han

内容简介

本论文在光学字符识别(OCR)领域首次系统性地研究了模型规模、数据量、计算量与模型性能之间的扩展规律(Scaling Law)。研究团队构建了大规模数据集REBU-Syn,并基于此数据集和发现的扩展规律,训练了一个场景文本识别模型,该模型在多个测试基准上达到了业界领先的准确率。

方法详解

1.模型规模与性能关系

  • 实验设计:研究者选择了基于Transformer的模型,包括TrOCR和PARSeq,并在不同的模型规模下进行了实验,参数数量从50M到1B不等。
  • 幂律关系:实验结果表明,模型性能与模型规模之间存在平滑的幂律关系,即模型性能随着模型规模的增加而提高。

2.数据量与性能关系

  • 数据集构建:研究者创建了REBU-Syn数据集,包含600万真实样本和1800万合成样本。
  • 实验分析:通过改变训练数据量,研究者发现数据量与模型性能之间也遵循幂律关系,即增加数据量可以提升模型性能。

3.计算量与性能关系

计算资源分析:研究者探讨了模型训练的计算量(以训练小时数计)与模型性能之间的关系,并发现它们之间也符合幂律分布。

4.数据来源比例

真实与合成数据的平衡:研究指出,模型训练中真实数据与合成数据的比例对性能有显著影响,提出了1:3的合成数据与真实数据比例为最佳。

5.预训练模型的有效性

特定任务预训练:研究比较了在OCR相关数据上预训练的模型与在一般图像数据上预训练的模型,发现特定于OCR任务的预训练模型在OCR任务上表现更优。

6.大规模数据集REBU-Syn

  • 数据集构成:REBU-Syn数据集结合了真实世界数据和合成数据,提供了丰富的样本以支持大规模模型训练。
  • 数据集影响:该数据集对模型训练和性能提升起到了关键作用。

7.实验设置和评估指标

  • 超参数调整:研究者根据模型的不同调整了训练周期和学习率。
  • 评估指标:使用单词准确率作为主要评估指标,确保了评估的公平性。

结果与讨论

  • 幂律关系的确立:研究确立了OCR领域中模型规模、数据量和计算量与模型性能之间的幂律关系。
  • 模型训练原则:发现大规模模型更有效利用样本,特定任务预训练模型更有效,以及数据来源比例对模型性能有显著影响。
  • 性能提升:基于上述原则,研究者训练的模型在多个测试基准上达到了97.42%的新最高准确率。
  • 成本与效益:虽然大规模模型性能更好,但其训练成本也更高,因此需要仔细选择超参数以优化性能。
  • 未来方向:研究者提出未来将探索在更具挑战性的数据集上应用扩展规律,如手写文本和历史文献。

本论文的研究不仅为OCR领域提供了宝贵的见解,也为未来模型设计和训练提供了指导性原则。-

CV-OCR必读论文合集:

CV-OCR必读论文合集

希望这些论文能帮到你!如果觉得有用,记得点赞关注哦~ 后续还会更新更多论文合集!!


http://www.ppmy.cn/embedded/148562.html

相关文章

模组 RG500Q入网问题分析

5G 模组 RG500Q入网问题分析 测试环境入网问题分析恢复出厂配备配置5G SA only锁band配置MBN不同于公网,在5G专网环境中, 通常使用很多非标准的网络配置,如PLMN/APN等。因此,5G模组在专网环境下通常要做一些专门的配置才能正常入网,本文分析一例在专网环境, 5G终端无法入…

udp tcp协议

文章目录 1. UDP协议1.1 端口号1.2 UDP协议格式1.3 UDP特性1.4 报文的封装 2. TCP协议2.1 TCP协议格式2.2 TCP策略2.2.1 确认应答机制(ACK)序号与确认序号6个标志位序号的理解 2.2.2 超时重传机制2.2.3 连接管理机制三次握手四次挥手理解三次握手理解四次挥手 2.2.4 流量控制2.…

[c++进阶(三)]单例模式及特殊类的设计

1.前言 在实际场景中,总会遇见一些特殊情况,比如设计一个类,只能在堆上开辟空间, 或者是设计一个类只能实例化一个对象。那么我们应该如何编写代码呢?本篇将会详细的介绍 本章重点: 本篇文章着重讲解如何设计一些特殊 的类,包括不能被拷贝,只能在栈/堆上…

步进电机直线插补

基础原理 代码部分

navicat在pg数据库中设置自增

navicat在pg数据库中设置自增 问题来源: 在springboot的mubatisplus的插入数据操作时,我们设置了id为自增,但是由于数据库那边没有设置自增,导致数据id为null,插入失败,但是发现navicat设置pg数据库自增不…

【087】基于51单片机智能宠物喂食器【Proteus仿真+Keil程序+报告+原理图】

☆、设计硬件组成:51单片机最小系统LCD1602液晶显示MY1680语音播放模块DS1302时钟芯片SG90舵机AT24C02存储芯片LED灯按键设置。 1、设计采用STC89C52、AT89C52、AT89S52作为主控芯片; 2、系统采用DS1302时钟芯片实现对日期时间计时并通过LCD1602液晶显…

大恒相机开发(1)—Python调用采集彩色图像并另存为本地

这段代码是一个Python程序,用于从大恒相机采集彩色图像,并将其保存到本地。 前面需要自己修改下频率和采集的次数 framerate_set:设置相机的帧率。num:设置采集图像的次数。 咱们直接上python的完整代码: import cv2 …

区块链与比特币:技术革命的双子星

区块链与比特币:技术革命的双子星 引言 自2008年中本聪(Satoshi Nakamoto)提出比特币的概念以来,区块链技术和数字货币已经改变了我们对金融系统、网络安全和分布式计算的理解。本文将深入探讨区块链技术及其最著名的应用——比…