文档矫正算法:DocTr++

embedded/2024/9/24 13:22:02/

文档弯曲矫正(Document Image Rectification)的主要作用是在图像处理领域中,对由于拍摄、扫描或打印过程中产生的弯曲、扭曲文档进行校正,使其恢复为平整、易读的形态。

一. 论文和代码

论文地址:https://arxiv.org/abs/2304.08796
代码地址:https://github.com/fh2019ustc/DocTr-Plus

二. 原理简介

论文提出了一种新的数据处理方式,解决了以前文档矫正只能处理带有边界信息的完整文档,文章通过数据处理定义了三种类型的训练数据。(a)包含完整文档边界,(b)包含部分文档边界,(c)不包含文档边界。
在这里插入图片描述
算法框架如下:对于任意弯曲的文档,作者首先通过CNN抽取特征,然后通过transformer结构进行编码和解码,最后用Flow Head预测偏移场,用偏移场矫正弯曲图片。
在这里插入图片描述
网络架构如下图所示:
在这里插入图片描述
首先, 在畸变特征编码器中,DocTr++采用自注意力机制捕获形变文档的结构特征,并构建多尺度编码器,进行特征提取和融合。其中,编码器由三个子模块组成,每个子模块包含两个标准的 Transformer 编码层。这使得本方法既能编码具有高分辨率纹理细节的特征,又能获得低分辨率具有高层语义信息的特征。
接下来,矫正解码器接收编码器输出的多尺度特征以及可学习的矫正提示向量序列(Learnable Queries),输出解码后的表征用于后续坐标映射矩阵的预测。其中,可学习的矫正提示向量序列零初始化,并加上固定的位置编码。

三. 实验细节

input:288x288
output:288x288
learning rate:1e-4
实验结果如下:
在这里插入图片描述

四. 总结

DocTr++突破了现有多数矫正方法的场景局限性,能够恢复日常生活中常见的各种形变文档图像。为了实现优秀的矫正效果,DocTr++采用了一种多尺度编解码器结构,构建各类形变文档图像与无形变文档图像之间的逐像素映射关系。

五. 博主点评

  1. 优点:该论文是2023年的IEEE,在当时的指标上达到了SOTA;
  2. 缺点:后处理过于简单,对于无边界的文档,处理后mask以外的区域没有填补,跟商用矫正算法还存在较大差距。

欢迎技术交流:
在这里插入图片描述


http://www.ppmy.cn/embedded/116107.html

相关文章

[leetcode刷题]面试经典150题之5多数元素元素(简单)【附Boyer-Moore 投票算法(摩尔投票法)】

很有意思的一个题,想了半天没想出来,最后发现两行代码就做出来了。写完后学习到还可以用Boyer-Moore 投票算法,能减小空间复杂度,我把它写在后面,可以进一步学习。 题目 多数元素 给定一个大小为 n 的数组 nums &am…

Golang Beego+Vue打造的高校科研工作管理系统,让信息发布更及时,项目管理更透明

🍊作者:计算机毕设匠心工作室 🍊简介:毕业后就一直专业从事计算机软件程序开发,至今也有8年工作经验。擅长Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等。 擅长:按照需求定制化开发项目…

TCL25届校招测评笔试TAS人才测评题库:高分攻略真题分析

🌟 职场新人必看:TCL校招测评全解析 🌟 亲爱的小伙伴们,你是否正准备踏入职场,或是对即将到来的校招感到既兴奋又紧张?今天,我将带你深入了解TCL校招中的TAS人才测评,让你在面试前做…

ASP .NET CORE 6 项目实现WebSocket通信实践

一、简介 WebSocket 是一种计算机通信协议,提供了全双工通信通道,特别适用于需要频繁更新数据的应用,如实时聊天、在线游戏和股票行情等。它在 Web 应用中有着广泛的应用,因为它能够在客户端和服务器之间建立持久连接,…

floodfill算法(2)

一:太平洋大西洋水流问题 题目: 存在一个m*n的网格岛屿,岛屿的上面边界和左边边界都为太平洋,然后右边和下边边界都为大西洋,网格中的数值高的单元格中的水可以流进相邻单元格数值小的那个,编写一个程序&…

Unity Transform 组件

在 Unity 中,Transform 是一个非常重要的组件,它定义了物体的位置、旋转和缩放,几乎每个 GameObject 都包含一个 Transform 组件。Transform 组件的主要属性如下: 1. position 表示物体在世界空间中的位置。可以通过 transf…

如何使用ssm实现新媒体视域下的中国古诗词展演+vue

TOC ssm678新媒体视域下的中国古诗词展演vue 绪论 课题背景 身处网络时代,随着网络系统体系发展的不断成熟和完善,人们的生活也随之发生了很大的变化。目前,人们在追求较高物质生活的同时,也在想着如何使自身的精神内涵得到提…

MQ高级(二):死信交换机--延迟消息及DelayExchange插件--超时订单案例实现

目录 1.延迟消息 1.1.死信交换机和延迟消息 1.1.1.死信交换机 1.1.2.延迟消息 1.2.DelayExchange插件 1.2.1.下载 1.2.2.安装 1.2.3.声明延迟交换机 1.2.4.发送延迟消息 1.3.超时订单问题 1.3.1.定义常量 1.3.2.配置MQ 1.3.3.改造下单业务,发送延迟消息…