1、引言
文档解析是开发者在业务实践中会频繁面临的场景,不管是用AI辅助日常工作,还是从事产品研发,从非结构化文本中提取文字、图片等信息具有很大的挑战。
目前市面上的文档解析工具普遍存在繁杂无序,缺乏统一评估标准,集成难度大、调试周期长,给个人开发者及中小企业带来沉重负担。对此,合合信息发布了智能文档处理“百宝箱”,为开发者提供了免费AI工具,针对文档解析处理的不同场景,用维护稳定、持续更新、可用性强的代码组件帮助开发者真正实现项目落地。
2、智能文档处理“百宝箱”核心技术
智能文档处理“百宝箱”是合合信息针对文档解析处理流程中的多个节点及多个场景,精心打造的一款工具与模型的集合。它包括可视化文档解析前端组件TextIn ParseX、向量化模型acge_text_embedding模型、文档解析测评工具markdown_tester三部分,覆盖了从文档解析、信息提取到数据治理等多个环节。
2.1、可视化文档解析前端组件TextIn ParseX
在解析文档进行结果审核校对、效果测评等场景下,为了达到高质量的解析目的,需要可视化展示文档解析后的结果。针对这一需求,基于React框架,使用ES6开发了可视化文档解析前端TextInParseX工具。
在文档解析环节,开发者可以使用该前端组件对解析效果进行可视化交互,包括提取各类解析元素,定位解析元素在文档中的位置,还原展示各级目录树等,适用于国家标准文件、年报、研报等各种复杂版面的文件解析。组件还支持对结果进行编辑修正,以实现更高精度的解析效果。
该可视化文档解析前端TextInParseX项目已经开源,项目地址:
https://github.com/intsig-textin/parsex-frontend
1)TextIn ParseX前端组件提供丰富的文档的可视化和交互功能:
2)支持预览渲染主流图片格式和pdf文件,提供缩放和旋转功能:
3)markdown结果渲染,支持各级标题、文本、表格渲染:
4)各类解析元素提取展示,支持查看表格、公式、图片,和原始 JSON 结果:
5)解析元素文档位置溯源,原文画框标注各元素位置,可点击画框跳转解析结果,也可点击结果跳转原文画框:
6)各级目录树还原展示,支持点击跳转相应章节
2.2、向量化acge-embedding模型
大模型领域也对解析文档、训练高质量问答存在需求。为了解决大模型幻觉问题,此次“百宝箱”还提供了向量化模型acge_text_embedding模型(简称“acge模型”)代码,支持在不同场景下构建通用分类模型、提升长文档信息抽取精度,提升大模型问答准确率。
基于高效的文本处理能力以及强大的语义信息捕捉能力,研发了文本向量化模型 acge_text_embedding。acge_text_embedding 模型属于Word Embeddings模型,模型将海量的文本数据转化为一个有方向有数值的列表(向量),利用计算机高效率计算文本相似性,适用于情感分析、文本生成等复杂的NLP任务。这一模型获得MTEB中文榜单(C-MTEB)第一的成绩:
相关成果将有助于大模型更快速地在千行百业中产生应用价值。可以看到acge模型在分类、聚类任务准确率很高;应用场景广泛,在相似性检索、信息检索和推荐系统中都有很好的效果;模型在设计时考虑到不同行业,不算规模应用的需要,支持定制服务,满足多样化需求。不仅如此,与榜单前五名其他几个模型相比,acge模型有以下的优势:
- 占用资源少;
- 模型输入长度较长,可以满足上下文关联的需求;
- 支持可变输出维度,可以根据具体场景合理分配资源。
算法团队在模型升级迭代过程中采取了多项措施,以克服行业中存在的技术难点,并不断优化Embedding模型的性能和效果。该模型有以下技术特点:
- 对比学习技术,通过最小化正对之间的距离和最大化负对之间的距离来呈现文本语义表示
- 数据挖掘,构造多场景、数量庞大的数据集提升模型泛化能力,挑选高质量数据集加快模型收敛
- 多任务混合训练,多loss适配场景,适应各种下游任务
- MRL训练,训练可变维度的嵌入,提高了处理速度,降低了存储需求
- 持续学习, 改善引入新数据后模型灾难性遗忘问题
目前,acge模型已在多个关键应用场景中充分展现其卓越性能:
- 文档分类:acge模型通过结合OCR技术,能够精准识别图片、文档等场景中的文字内容。利用强大的文本编码能力,结合先进的语义相似度匹配技术,构建高效的通用文档分类模型,实现快速且准确的文档分类。
- 长文档信息抽取:面对复杂的长文档,acge模型通过独特的文档解析引擎和层级切片技术,能够快速生成精准的向量索引。这些索引不仅提高了检索效率,还使得我们能够精确抽取内容块,从而显著提升长文档信息抽取模型的精度和效率。
- 知识问答:acge模型通过文档解析引擎和层级切片技术,能够迅速生成向量索引,并精准定位文件内容。能够为用户提供更加精准、高效的知识问答服务,满足用户对信息检索和查询的多样化需求。
2.3、文档解析测评工具markdown_tester
文档解析测评工具markdown_tester能够针对表格、段落、标题、阅读顺序、公式进行定量测评:
并提供了直观的雷达图:
开发者可直观地看到文本识别、解析和翻译的结果,便捷评估产品的效果。
目前该工具已经开源,可以去主页上查看:https://github.com/intsig/markdown_tester
现阶段,合合信息的智能文档解析技术在文档识别方面的效果,在多个指标上处于领先的地位:
3、智能文档处理“百宝箱”的场景应用
在智能文档解析技术的强力加持下,智能文档处理“百宝箱”可用于知识库开发、智能文档抽取、大模型预训练语料与数据治理快速入库、文档翻译等多种场景,助力广大开发者群体提升工作效率、实现技术创新。
3.1、助力知识库(RAG)
知识库(RAG)是先进文档处理技术,超越传统方法仅基于字符长度进行索引、检索和生成内容的局限,通过深入理解文档内容逻辑,将文本智能地分块,并生成分块摘要,精准识别并提取文档中的关键元素(文本、图像、表格等)显著提高处理效率,优化输出效果。随着行业数字化转型的深入,知识库逐渐成为企业获取竞争优势的重要工具。
智能文档处理“百宝箱”能够帮助企业高效地导入和解析各式各样的多版式文档,有效地提高了知识库数据的全面性和准确性。
3.2、智能文档抽取
在智能文档抽取领域,“百宝箱”能够帮助我们快速准确地从文档中抽取关键信息。无论是文本字段还是表格字段,都能够通过“百宝箱”中的文档解析工具和模型进行高效的抽取和处理。
3.3、大模型预训练语料与数据治理快速入库
大模型预训练语料与数据治理快速入库高效且精细的数据处理流程,迅速整合并优化海量训练语料,通过专业操作数据清洗、精确标注、高效入库等,保数据准确性和多样性,为人工智能大模型预训练提供坚实基础,运用场景广泛。
智能文档处理“百宝箱”提供了高效的文档解析和信息抽取能力,能够帮助我们快速地将文档数据转化为预训练语料,同时实现数据的快速入库和治理。
3.4、文档翻译
智能文档处理“百宝箱”可以应用于文档翻译领域,支持常见的52种语言的翻译。“百宝箱”在助力文档翻译时有以下多个优点:
- 还原度:翻译整篇文档,且保留原有格式。
- 准确性:可以理解并精确翻译复杂句子,减少错误并提高翻译质量。
- 翻译速度:可以在几秒钟内处理并翻译大量文档,比人类翻译快的多。
- 上下文意识:能够理解对话或叙述的上下文,确保翻译保留原意和语气。
- 多语言支持:可以同时处理多种语言,使其成为全球内容分发的多功能工具。
5、最后
智能文档处理"百宝箱",针对文档处理的不同场景,用维护稳定、持续更新、可用性强的代码组件帮助开发者真正实现项目落地,在提升工作效率的同时,实现持续的技术创新。
- 依赖强大的文档解析能力,解决了复杂版式文档难处理的难题,高效助力知识库开发。
- 可视化文档解析前端组件,让开发者在文档解析后能轻松进行审核校对与二次优化。
- acge-embedding文本向量化模型,进一步推动信息构建、检索、查询智能化与高效化进程。
如需了解更多文档处理权益,欢迎点击下方链接,加入交流社群,随时获得最新资讯及福利:
立即体验