高精度的“文件转换excel”背后藏着这些解题思路!

news/2024/11/29 11:50:24/

 

表格是文档中常见的对象。从学生经常填写的报名表,到办公场景中涉及的财务报表、票据,表格识别的需求广泛存在于个人生活、社会生产之中。尤其在进入九月之后,随着高校开学,企业开始着手下一年度的发展规划,表格处理的任务不断加重。高精确度的表格识别技术能够大幅节省文件处理时间,是合合信息智能文字识别技术中,图像处理和复杂场景文字识别技术的重要应用。

用深度学习技术解决表格识别难点

表格识别主要包括表格检测和表格结构识别两大任务。表格检测主要检测表格主体,即从图片中确认表格区域;表格结构识别是对表格区域进行分析,提取表格中的数据与结构信息,得到表格的行列逻辑结构。

两大任务均具有相当的复杂性。首先,表格类别多样,根据有无边框可以分为有线表、少线表、无线表等。从有线表、少线表到无线表,表格识别难度逐渐增加。同时,表格文件中常见的背景填充、单元格行列合并等情况,会进一步增加表格识别难度。其他外部因素,如图片倾斜褶皱、背景干扰等问题,都会对表格识别带来挑战。

                               合合信息通用智能文字识别引擎对合并单元格表格进行识别

近年来人工智能技术飞速发展,计算机视觉(CV)、自然语言处理(NLP)和图神经网络等深度学习方法被广泛引入表格识别任务中,例如语义分割、目标检测、序列预测等。在16年领域深耕中,合合信息智能文字识别技术覆盖了图片、PDF格式文档中多种类的表格识别需求,包括有线表,三线表,无线表等,并且支持合并单元格、多表格并存等复杂情况的识别。

基于分治思想,合合信息引入深度学习技术,将表格识别分为有线表识别和无线表识别两种方案。有线表识别中,合合信息利用语义分割、角点回归等技术方案还原有线表,在财报相关表格识别测试中,有线表识别单元格结构准确率高于98%。

无线表识别是表格识别中的难点,教科书上的部分统计表、药品配方表,都存在框线不完整甚至无框线的情况。无线表缺少表格线,直接套用有线表识别方案无法得到理想的表格结构。合合信息无线表识别采用序列模型、规则匹配等方案,通过自研模型直接预测表格的逻辑结构,再得到表格的物理结构,在保证表格区域内容的完整性的同时,检测准确率较传统方法显著提升。

                                 合合信息通用智能文字识别引擎对无线表格进行识别

智能文字识别助力文件处理效率指数级提升

现阶段,合合信息智能文字识别技术中的表格识别技术已被应用于以“扫描全能王”为代表的C端APP中,通过“文件转换excel”功能服务于大众生活和办公需求。生活中,用户可以使用扫描全能王随手拍下手边的清单、个人合同、说明书等,APP将提炼其中的表格内容,起到备忘作用;办公场景下,使用者可扫描、拍摄工作文件,提取图片、PDF中的文字内容,并将其转化为可编辑文档,便于二次编辑和分享。近半年来,“文件转换excel”相关功能累计被调用百万次。

B端领域中,作为合合信息智能文字识别引擎中的重要模块,表格识别技术已落地在保险、银行、证券等行业中,应用于合同、银行流水、物流单据识别等多个场景。以财务场景为例,合合信息表格识别技术被应用于企业发票与订单的数字全流程管理中,曾助力全球知名汽车零配件供应商伟巴斯特实现票据智能扫描、识别、验真、合规自动检查、发票与订单数据匹配、数字化数据、影像留存等全流程财税管理,作业效率提升500%~1000%。

据悉,合合信息曾在2019年国际文档分析识别大会(ICDAR)中获得表格识别竞赛的冠军。公司智能文字识别相关技术还在国际顶会ICPR、ICFHR 等竞赛中获得十余项冠军,并于CVPR、AAAI、ACL、ACM MM等国际顶会上发表。


http://www.ppmy.cn/news/812460.html

相关文章

视频转码:如何批量一键给视频进行转码?

我们做视频剪辑的难免会遇到要给视频进行转码的,那么我们应该要如何批量操作呢?今天就由小编来给大家分享一下我的操作步骤。 首先,我们要进入媒体梦工厂主页面,在板块栏里选择“智能转码”板块 第二步,在进入板块之后…

javascript导出excel中文乱码

背景:html格式内容,但是以xls扩展名存放 症状:右键以记事本查看内容中文显示正常,但是用excel打开中文乱码 解决办法:往文件头加入BOM不可见字符 代码参考: //BOM在字符串拼接中使用\ufeff let template \…

为什么要转码

最近有朋友不停的在问我转码的事情。 这个转码不是计算机中的编码转换,而是转程序员,说白了就是码农。 码农 编程不是什么高大上的东西,绝大部分人都在做同样的事情就是拷贝和张贴。 如果你已经是码农了,你应该知道这个工作的含…

乱码克星:VFP源文件简繁体内码转码器软件

工欲善其事,必先利其器! 由于VFP数据库管理开发平台不支持unicode统一码,简体和繁体版VFP程序在不同华语地区呈现无法识别的乱码。当港台用户安装简体软件或大陆用户安装繁体软件时,即使尝试使用微软Applocle,设置…

华为云手机ExaGear转码补丁的获取方法

华为云手机ExaGear转码补丁的获取方法 0. 看到好多同学在华为云平台技术的论坛里面咨询ExaGear转码补丁的事情。1. ExaGear是个什么东东呢?其实是一个动态二进制指令翻译工具。2. 目前国内外云手机各种大厂投入竞争激烈3. 说了这么多,如何搭建一个云手机…

excel vba 编码转换

<% 1、UTF转GB---将UTF8编码文字转换为GB编码文字 function UTF2GB(UTFStr) for Dig=1 to len(UTFStr) 如果UTF8编码文字以%开头则进行转换 if mid(UTFStr,Dig,1)="%" then UTF8编码文字大于8则转换为汉字 if len(UTFStr) >= Dig+8 then …

Base64转/解码Excel文件

需求&#xff1a; 1、将EXCEL文件进行Base64位转码 2、将Base64字符串解码并解析 1. 将Excel文件进行Base64转码 该方法应该适用于任何文件的转码 /***测试&#xff1a;将文件编码为base64字符串*/ public String base64Encode() throws Exception {// 将文件转化为输入流St…

在线TSV转Excel(xls/xlsx)

在线TSV转Excel(xls/xlsx) 在线TSV转Excel(xls/xlsx) TSV To Excel Converter 可将 TSV 转换为 Excel&#xff0c;在线打开或导入 TSV 文件到 Excel 工作表中。 TSV To Excel Converter 可将 TSV 转换为 Excel&#xff0c;在线打开或导入 TSV 文件到 Excel 工作表中。 TSV To …