文档智能SOTA被刷爆,DocVQA榜单首次突破90大关

news/2024/12/22 20:54:31/

文档智能(DI, Document Intelligence)主要指对于网页、数字文档或扫描文档所包含的文本以及丰富的排版格式等信息,通过人工智能技术进行理解、分类、提取以及信息归纳的过程。文档智能技术广泛应用于金融、保险、能源、物流、医疗等行业,常见的应用场景包括财务报销单、招聘简历、企业财报、合同文书、动产登记证、法律判决书、物流单据等多模态文档的关键信息抽取、文档解析、文档比对等。随着企业数字化、信息化进程不断加速,这类需求越来越强烈,工业界急需前沿技术与易用工具来解决这些问题。百度开源的文心ERNIE-Layout以及自然语言处理开发工具PaddleNLP来得很及时,强烈安利!

文心ERNIE-Layout

重磅开源

近期,百度文档智能团队基于多语言跨模态布局增强的文档智能大模型文心ERNIE-Layout,刷新了五类11项文档智能任务效果。

17aeedf7f758006a859c5776e5829fb3.png

▲ 百度文档智能技术指标

继文心ERNIE-Layout1.0后,文心ERNIE-Layout再次登顶DocVQA榜单,并成为榜单首个突破90分大关技术方案[1]。同时,基于文心ERNIE-Layout的开放文档抽取问答模型DocPrompt, 首次以文档智能模型登顶网页问答榜单WebSRC[2]

d489d96a196f97604f57612c1f208b60.png

▲ DocVQA、WebSRC榜单

飞桨自然语言处理模型库PaddleNLP第一时间为大家开源了文档智能十一边形战士系列模型。

文心ERNIE-Layout多语言跨模态布局增强文档智能大模型 

文心ERNIE-Layout依托文心ERNIE,基于布局知识增强技术,融合文本、图像、布局等信息进行联合建模,能够对多模态文档(如文档图片、PDF文件、扫描件等)进行深度理解与分析,为各类上层应用提供SOTA模型底座。

  • 前往GitHub获取详情:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout

欢迎STAR收藏,跟踪最新开源工作

DocPrompt开放文档抽取问答模型(基于ERNIE-Layout)

文档智能技术广泛应用于金融、保险、能源、物流、医疗等行业,常见的应用场景包括各类多模态文档的关键信息抽取、文档解析、文档比对等。基于前沿的文档智能技术,PaddleNLP正持续开源一系列产业实践范例,解决开发者们实际应用难题。

  • 前往GitHub获取详情:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/document_intelligence

本次重磅开源的DocPrompt开放文档抽取问答模型,以文心ERNIE-Layout为底座,可精准理解图文信息,推理学习附加知识,准确捕捉图片、PDF等多模态文档中的每个细节。通过PaddleNLP Taskflow,仅用三行Python代码即可快速体验DocPrompt功能。

from paddlenlp import Taskflow
docprompt = Taskflow("document_intelligence", model='docprompt')
docprompt({"doc": "./invoice.jpg", "prompts": ["发票金额", "左侧抬头日期是什么?"]})

DocPrompt零样本问答效果非常强悍!能够推理学习空间位置语义,准确捕捉跨模态文档信息,轻松应对各类复杂文档。

986851f0fccb90e1e672f477e9a92f5b.png

▲ 可支持空间位置语义理解

ddd59bd350e3843186d4c8f8f1ea66f1.png

▲ 可准确捕捉图文混排多模态语义

针对网页、表格和试卷等复杂布局文档,DocPrompt也能结合上下文及表头信息,给出精准答案。

864b337bc843a30e27d3f0573b4fff09.png

▲ 网页理解优于半结构化抽取方案

5cabacc56eec1810591630d298384b20.png

▲ 支持多维度无框线表格问答

3356f58d5c3001b039e270288016272e.png

▲ 试卷解析问答

以文心ERNIE-Layout为底座的DocPrompt,还具备跨语言多语种的抽取亮点!

4fe45fa16b68b161663da4814219eb39.png

▲ 支持10+语种的多语言提问

推荐大家访问Huggingface 文心ERNIE-Layout空间,快速体验DocPrompt带来的惊喜!

https://huggingface.co/spaces/PaddlePaddle/ERNIE-Layout

0a95f40484d93234ee1b67b4619841bf.png

▲ Huggingface 文心ERNIE-Layout空间

直播课预告

10月25日,文心ERNIE-Layout论文作者,百度高工将带来直播讲解,介绍文档智能的前沿技术,深度解读多语言跨模态布局增强文档智能大模型文心ERNIE-Layout与开放文档抽取问答模型DocPrompt,并带来基于PaddleNLP的实践范例。欢迎扫码入群,获取直播课程链接。入群还有更多福利:

  • 与百度飞桨官方技术团队深度交流

  • 官方团队整理的10GB NLP学习大礼包

  • TextMind智能文档分析平台合作咨询

fa25d2ced0b9a3b620f80a87a4596077.jpeg

f51ab8b90819d9af75d44061fc392ad2.jpeg

核心技术方案

文心ERNIE-Layout以文心ERNIE为底座,融合文本、图像、布局等信息进行跨模态联合建模,创新性引入布局知识增强,提出阅读顺序预测、细粒度图文匹配等自监督预训练任务,升级空间解耦注意力机制。输入基于VIMER-StrucTexT大模型[3]提供的OCR结果,在各数据集上效果取得大幅度提升,相关工作已被EMNLP 2022 Findings 会议收录[4]。

a345fbce318abb0cd50acbe82ee28a47.png

▲ 文心ERNIE-Layout 技术框架

文心ERNIE-mmLayout为进一步探索不同粒度元素关系对文档理解的价值,在文心ERNIE-Layout的基础上引入基于GNN的多粒度、多模态Transformer层,实现文档图聚合(Document Graph Aggregation)表示。最终,在多个信息抽取任务上以更少的模型参数量超过SOTA成绩,相关论文被ACM MM 2022会议收录[5]

2f4d4ae8c9a47fa73146fe0b5f2255e2.jpeg

▲ 文心ERNIE-mmLayout 技术框架

文档智能技术体系

与应用平台

文档智能(DI, Document Intelligence)主要指对于网页、数字文档或扫描文档所包含的文本以及丰富的排版格式等信息,通过人工智能技术进行理解、分类、提取以及信息归纳的过程[6]。百度文档智能技术体系立足于强大的NLP与OCR技术积累,以多语言跨模态布局增强文档智能大模型文心ERNIE-Layout为核心底座,结合图神经网络技术,支撑文档布局分析、抽取问答、表格理解、语义表示多个核心模块,满足上层应用各类文档智能分析功能需求。

d2ea4bae344dde27e8e0cd5f3f72b787.png

▲ 文档智能技术体系

百度TextMind智能文档分析平台[7]可提供包括文档信息抽取、文本内容审查、企业文档管理、文档格式解析、文档内容比对等全方位一站式的文档智能服务,已形成一套完整的企业文档场景化解决方案,满足银行、券商、法律、能源、传媒、通信、物流等不同行业和场景的文档处理需求,以AI助力企业的办公智能化升级和数字化转型。

开源地址

https://github.com/PaddlePaddle/PaddleNLP

【更多精彩直播推荐】

dd4ec9fbecae9d2ed298668c95b35ef7.jpeg

*本文封面图背景由文心ERNIE-ViLG大模型生成,欢迎点击参考链接[8],体验更多百度AI开放能力。

参考链接

[1]DocVQA榜单

https://rrc.cvc.uab.es/?ch=17&com=evaluation&task=1 

[2]网页问答榜单WebSRC

https://x-lance.github.io/WebSRC/index.html

[3]VIMER-StrucTexT

https://github.com/PaddlePaddle/VIMER#structext

[4]文心ERNIE-Layout: Layout-Knowledge Enhanced Multi-modal Pre-trainingfor Document Understanding 

https://arxiv.org/abs/2210.06155

[5]文心ERNIE-mmLayout: Multi-grained MultiModal Transformer for Document Understanding

https://arxiv.org/abs/2209.08569

[6]崔磊,徐毅恒,吕腾超,韦福如. 文档智能: 数据集、模型和应用[J]. 中文信息学报, 2022, 36(6): 1-19.

[7]百度AI开放平台——智能文档分析平台

https://ai.baidu.com/tech/nlp/Textanalysis

[8]文心ERNIE-ViLG

https://wenxin.baidu.com/moduleApi/ernieVilg


http://www.ppmy.cn/news/681603.html

相关文章

聚焦智慧民航 | 民航飞联网,构建智慧民航新业态

随着民用航空事业的快速发展,民航领域逐步累积了大量航空数据。作为其中一类典型数据,民航飞行轨迹数据包括时空位置、速度、高度和航向等诸多信息,蕴含了飞机飞行过程中的行为特征与时空特性,这些特征对于民航安全运行和高效管理…

万能PDF转换迅捷PDF转换成Word转换器评测

国内知名度迅捷PDF转换成Word转换器软件近期发布了最新的万能集成版,在原PDF转换成Word文件格式的基础上,进行了深度研发整合,融汇八大PDF转换模式包括PDF转Word、PDF转Excel、PDF转图片、PDF转PPT、PDF转换HTML、PDF转TXT、PDF转EPUB、OFFIC…

三星国行词典diodict移植到红米2,反编译

之前一直在用三星s3,s系列除了拍照好,,还有一个词典我特别喜欢,,完全离线,带发音,带例句,非常好用。后来,,手机屏摔碎了。 不得已又入手了一部便宜的红米2&a…

“犇”向5G,九州云惊艳亮相MWC21上海

新春伊始,万物复苏!2021开年国际旗舰版科学盛会--2021 MWC上海如期而至! 2月23-25日,以“和合共生”为主题的“2021年世界移动通信大会上海展(以下简称:2021 MWC上海 )”在上海新国际博览中心盛…

百度输入法AI 赋能大华会议平板,带你体验会议大屏的手写自由

1996年,初创公司Palm推出了一款名为Pilot的掌上电脑(PDA),本以为只是微软和苹果“神仙打架”的陪衬,却在18个月的时间内卖出了100多万台,远远将苹果的Newton、微软的Pocket PC甩在了身后。 对于Palm在PDA市…

云帆考试系统更新说明:v6.4.0

1、试卷导出存档、支持导出试卷为PDF格式进行存档(含答题内容及人脸截图等); 2、考试增加积分规则,允许按考试得分配置不同积分策略; 3、考试增加证书规则,允许按考试得分颁发不同证书; 4、知…

迅捷pdf在线转换html,迅捷pdf在线转换成word免费版在线版

迅捷pdf转换成word转换器是一款功能强大,简单好用的pdf文件转换成word文件的软件,软件界面简单,功能稳定,支持批量转换,迅捷pdf转换器操作起来非常方便,完美支持将pdf文档转成word文档,无需安装…

【深度学习】日常笔记8

过拟合是指模型在训练集上表现良好,但在验证集和测试集上表现不佳的现象。这是因为模型在训练过程中过度学习了训练数据中的噪声和细节,而忽略了更一般的特征和规律,导致模型泛化能力不足。 具体来说,当模型在训练集上进行训练时&…