CV-OCR经典论文解读|An Empirical Study of Scaling Law for OCR/OCR 缩放定律的实证研究

news/2024/12/26 1:05:52/

论文标题

An Empirical Study of Scaling Law for OCR

OCR 缩放定律的实证研究

论文链接:

An Empirical Study of Scaling Law for OCR论文下载

论文作者

Miao Rang, Zhenni Bi, Chuanjian Liu, Yunhe Wang, Kai Han

内容简介

本论文在光学字符识别(OCR)领域首次系统性地研究了模型规模、数据量、计算量与模型性能之间的扩展规律(Scaling Law)。研究团队构建了大规模数据集REBU-Syn,并基于此数据集和发现的扩展规律,训练了一个场景文本识别模型,该模型在多个测试基准上达到了业界领先的准确率。

方法详解

1.模型规模与性能关系

  • 实验设计:研究者选择了基于Transformer的模型,包括TrOCR和PARSeq,并在不同的模型规模下进行了实验,参数数量从50M到1B不等。
  • 幂律关系:实验结果表明,模型性能与模型规模之间存在平滑的幂律关系,即模型性能随着模型规模的增加而提高。

2.数据量与性能关系

  • 数据集构建:研究者创建了REBU-Syn数据集,包含600万真实样本和1800万合成样本。
  • 实验分析:通过改变训练数据量,研究者发现数据量与模型性能之间也遵循幂律关系,即增加数据量可以提升模型性能。

3.计算量与性能关系

计算资源分析:研究者探讨了模型训练的计算量(以训练小时数计)与模型性能之间的关系,并发现它们之间也符合幂律分布。

4.数据来源比例

真实与合成数据的平衡:研究指出,模型训练中真实数据与合成数据的比例对性能有显著影响,提出了1:3的合成数据与真实数据比例为最佳。

5.预训练模型的有效性

特定任务预训练:研究比较了在OCR相关数据上预训练的模型与在一般图像数据上预训练的模型,发现特定于OCR任务的预训练模型在OCR任务上表现更优。

6.大规模数据集REBU-Syn

  • 数据集构成:REBU-Syn数据集结合了真实世界数据和合成数据,提供了丰富的样本以支持大规模模型训练。
  • 数据集影响:该数据集对模型训练和性能提升起到了关键作用。

7.实验设置和评估指标

  • 超参数调整:研究者根据模型的不同调整了训练周期和学习率。
  • 评估指标:使用单词准确率作为主要评估指标,确保了评估的公平性。

结果与讨论

  • 幂律关系的确立:研究确立了OCR领域中模型规模、数据量和计算量与模型性能之间的幂律关系。
  • 模型训练原则:发现大规模模型更有效利用样本,特定任务预训练模型更有效,以及数据来源比例对模型性能有显著影响。
  • 性能提升:基于上述原则,研究者训练的模型在多个测试基准上达到了97.42%的新最高准确率。
  • 成本与效益:虽然大规模模型性能更好,但其训练成本也更高,因此需要仔细选择超参数以优化性能。
  • 未来方向:研究者提出未来将探索在更具挑战性的数据集上应用扩展规律,如手写文本和历史文献。

本论文的研究不仅为OCR领域提供了宝贵的见解,也为未来模型设计和训练提供了指导性原则。-

CV-OCR必读论文合集:

CV-OCR必读论文合集

希望这些论文能帮到你!如果觉得有用,记得点赞关注哦~ 后续还会更新更多论文合集!!


http://www.ppmy.cn/news/1558130.html

相关文章

dns一般设置为多少

谷歌DNS‌(Google DNS):8.8.8.8 和 8.8.4.4。谷歌DNS以其快速的解析速度和稳定的连接而闻名,被广泛应用于全球。 ‌阿里DNS‌(AliDNS):223.5.5.5 和 223.6.6.6。阿里DNS由阿里巴巴提供&#xf…

【ETCD】【实操篇(十二)】分布式系统中的“王者之争”:基于ETCD的Leader选举实战

分布式系统中,Leader选举是一个非常重要的概念。Leader选举确保系统中的某个节点(Leader)负责执行关键任务,而其他节点作为备份,等待Leader的失效或者任务完成后重新选举出新的Leader。通过Leader选举机制,…

MFC/C++学习系列之简单记录3——不同IDE版本和MSFlexGrid的使用

MFC/C学习系列之简单记录3——不同IDE版本和MSFlexGrid的使用 前言VC 6.0与VS 2008MSFlexGrid的使用以及单元格输入简单介绍几个功能的使用编辑单元格内容 引用总结 前言 常学常新,简单记录! VC 6.0与VS 2008 暂时发现的区别: MFC创建Dial…

GitLab 停止为中国区用户提供 GitLab.com 账号服务

GitLab 通知中国区用户将停止提供 GitLab.com 账号服务,建议现有用户迁移到极狐。 中国 IP 地址现在访问 GitLab.com 会跳转到 about.gitlab.com,推荐用户访问极狐。 Gundaz Aghayev 写道:GitLab 在发送中国地区用户的电子邮件通知中称&…

C# OpenCV机器视觉:缺陷检测

在一个阳光明媚的早晨,阿强正准备享受他的一杯咖啡,突然接到了老板的电话。“阿强,我们的生产线出现了问题!有几个产品的质量不合格,客户投诉不断!你能不能想办法解决这个问题?” 阿强一听&…

【java设计模式】1 - 软件设计原则

1,软件设计原则 在软件开发中,为了提高软件系统的可维护性和可复用性,增加软件的可扩展性和灵活性,程序员要尽量根据6条原则来开发程序,从而提高软件开发效率、节约软件开发成本和维护成本。 1.1 开闭原则 对扩展开…

信息安全技术——防火墙、入侵检测技术

防火墙技术 防火墙基本概念 防火墙是位于两个信任程度不同的网络之间(如企业内部网络和Internet之间)的软件或硬件设备的组合,它对两个网络之间的通信进行控制,通过强制实施统一的安全策略, 防止对重要信息资源的非法…

重温设计模式--外观模式

文章目录 外观模式(Facade Pattern)概述定义 外观模式UML图作用 外观模式的结构C 代码示例1C代码示例2总结 外观模式(Facade Pattern)概述 定义 外观模式是一种结构型设计模式,它为子系统中的一组接口提供了一个统一…