【TextIn:开源免费的AI智能文字识别产品(通用文档智能解析识别、OCR识别、文档格式转换、篡改检测、证件识别等)】

ops/2024/11/2 5:04:11/

TextIn:开源免费的AI智能文字识别产品(通用文档智能解析识别、OCR识别、文档格式转换、篡改检测、证件识别等)

产品的官网:TextIn官网

希望感兴趣以及有需求的小伙伴们多多了解,因为这篇文章也是源于管网介绍才产出的,是智能文档处理的“百宝箱”,提升大家文档处理类工作效率,无论是工作中、学习中还是生活中,希望能成为大家高效的文档处理和识别的小助手!!!

首次官网注册使用享有免费福利哦

【产品福利】
100次通用文档解析
100次通用文字识别
100次智能文档抽取

以下是结合AI大模型实现的当下热门产品,为用户提供智能图像处理、文字表格识别、文档内容提取,保单票据智能抽取,通用文档解析百页pdf仅需2s,快来体验吧!

体验入口

文档解析:
https://cc.co/16YSLE
智能文档抽取:
https://cc.co/16YSLF

一、简介

TextIn是合合信息旗下智能文字识别产品,拥有智能文字识别技术和企业服务经验,产品提供公有云API、私有化部署、端侧SDK、AIoT(支持硬件设备集成,扫描仪、扫描笔等)多种部署方式,可查看详细的API文档:API文档。致力于为企业、开发者及个人用户提供一站式智能文字识别服务。TextIn智能文字识别引擎可以从图像和PDF文档中提取印刷、手写、印章、公式、表格、图片等富文本信息,支持50+多语言识别,众多文档类型,包括商业文件、发票、账单、收据、名片和海报。在财务共享系统中可以从混贴的发票中切分、分类、提取字段信息,支持发票中错行、倾斜、重叠、遮挡、形变、光照不均等复杂场景;在证件识别系统中支持13类国家证件识别,覆盖个人和企业所需的200+种证件识别;在人机结合系统中实现精准100%识别,远超越人类的辨识度;支持华为云、阿里云、腾讯云、百度云、Azure、AWS等云平台部署,同时支持GPU、CPU、NPU、iOS、Android、HarmonyOS、鲲鹏、飞腾、麒麟等主要国内外平台;TextIn识别引擎在通用场景中平均1s处理完一张文本图像。

总结就是:TextIn是合合信息公司旗下结合AI最新最高效的文字识别产品服务一站式平台,无论是企业、用户、还是开发者都可以使用,支持API请求访问、在线平台测试、私有化部署等,我个人用的比较多的场景还是文档解析、文档格式转换等、OCR票据识别等。公司我就不介绍了,旗下以下产品肯定有使用过的小伙伴吧。

在这里插入图片描述

二、背景

智能文字识别(OCR,Optical Character Recognition)技术通过将图像中的文字信息转换为可编辑的数字文本,帮助用户提高工作效率。随着深度学习和计算机视觉技术的快速发展,OCR 技术的准确性和应用范围不断提升。企业希望通过自动化工具减少人力成本,提高数据处理的速度和准确性,从而加速业务决策。目前,市场上已经出现了多种OCR解决方案,覆盖了从基础的文字识别到复杂的文档处理任务。这些解决方案通常依赖于深度学习模型来提升识别精度,适用于不同类型的文档,包括票据、合同、名片等。

然而,很多现有的OCR产品在实际应用中仍面临一些挑战,例如:

  1. 准确率不足:对于复杂排版或低质量图像,识别精度可能受到影响。
  2. 多场景支持不足:许多产品只能适用于特定场景,缺乏灵活性。
  3. 部署方式单一:传统产品往往局限于云端或本地部署,缺乏多样化选择。
TextIn的优势

TextIn以其高精准度和多场景化的产品设计,针对在私有领域的知识问答和企业知识管理领域,使用检索增强型生成模型(Retrieval-Augmented Generation, RAG)大模型(Large Language Model, LLM)已成为一种趋势,但是在RAG的文档预处理和检索阶段会出现由于解析精度不足导致LLM回答专业知识领域并不高效准确,公司自主研发的向量表征模型-acge_text_embedding,针对当前市场的痛点提供了有效解决方案。具体优势包括:

  • 高精准度识别引擎:TextIn采用先进的深度学习技术,经过大量真实场景的数据训练,确保在各种文档类型下均能实现高准确率。
  • 多种部署方式:支持云端、边缘和本地部署,满足不同用户的需求,无论是大企业还是中小型组织都可以根据自身情况选择最合适的部署方式。
  • 场景化产品设计:针对不同的业务场景,TextIn提供了定制化的解决方案,例如发票处理、合同扫描、证件识别等,大幅提升文档处理的效率。

对上述自研技术感兴趣的小伙伴可以访问【文档智能 & RAG】RAG新基建-RAG性能增强关键技术点及通用文档解析工具和开源Embedding模型,有效提升中文语义理解与召回,相信会给研究RAG的小伙伴带来启发!

三、文档解析

直接通过上面的链接进入,如下所示,填写手机号注册即可体验。

在这里插入图片描述

下面是通用文档解析的工作台界面,左边是一个可缩进的菜单,里面有“临时文件”的功能开关按钮,这里可以鼠标光标移动到“临时文件”旁边的圆形感叹号图标查看功能说明。

省流版本:TextIn(在线工作台)默认不存储您上传的任何文件,关闭或者刷新页面会清空文件列表,左下面的上传文件按钮也是可以点击上传文件的。

在这里插入图片描述

这里我们开启开关查看相关功能和说明,临时文件——>我的文件,但是文件数量过多,默认只保留最近30天的文件。上传文件支持的格式有:png、jpg、jpeg、pdf、bmp、tiff、webp、doc、docx、html、mhtml,单个文件大小不超过500MB

在这里插入图片描述

这里我们可以点击中间灰色区域任何地方或者拖拽文件到上面灰色区域即可,左上角还有“API文档、私有化部署、消耗次数0/100”的功能显示。左上角有一个“示例样本”,我们可以点击看看

在这里插入图片描述

这是一个包含了“13页的本科毕业论文排版格式文档”,我们可以清晰的对比左边是pdf格式原始文档和右边转换的markdown结果,原始文档中的表格、公式、图片、手写、原始JSON都会被智能解析出来,我们可以点击想要查看的内容,这里就不一一展示了哈。(tips:左边还有一个目录看到没?点击目录的多级标题中任意标题,中间的原始文档和右边转换的markdown结果会直接定义到你点击的标题内容版面中去,方便你检查文档解析的效果,超级直观好用!!!

接下来我们看看这个样例文本解析后的markdown结果右下角“编辑、高级模式、复制结果、导出结果”四个功能。

编辑:顾名思义就是可以在右侧的markdown结果中在线编辑里面的内容。里面的图片、公式都可以编辑修改,都是markdown语法的方式哦,不熟悉该格式的可以查看markdown教程简单学习下哈!

**高级模式:**里面有pdf密码、文件分辨率、解析起点页码、解析页数、识别标题、等多个参数设置,方便对文档解析有定向要求的用户使用,解码模型支持auto和scan方式,期待小伙伴自行尝试,这里就不一一展示了。

在这里插入图片描述

**复制结果:**就是复制markdown里面的结果。

**导出结果:**支持将解析后的文字导出保存,导出格式主要是md和txt格式,如果想要导出指定公式、图片等,可选择性的导出。记得在markdown里面显示,需要加在行内显示公式,使用单个美元符号;公式单独占一行,可以使用双美元符号。下面演示其中的公式
1 2 π ∫ R e − x 2 2 = 1 。 \frac { 1 } { \sqrt { 2 \pi } } \int _ { R } e ^ { - \frac { x ^ { 2 } } { 2 } } = 1 。 2π 1Re2x2=1

在这里插入图片描述

导出成md格式文件,展示效果如下:

在这里插入图片描述

这里我上传一篇OpenAI官网的《OpenAI ol System Card》的核心技术文档,个人体验感觉识别的很精准,识别速度很快,我这里识别了文档前20页。

在这里插入图片描述

这是上传前面一张md文档截图的识别效果:

在这里插入图片描述

小小总结:真的识别速度又快有准,小伙伴有其他格式的可以自行体验!

四、智能文档抽取

老规矩,体验入口还是我放在了简介前面了,这里你进入在线体验的,时候,会有新手指导,建议第一次使用的人可以看看详细的官方功能介绍。

在这里插入图片描述

这里还是先简单介绍下工作台面板,左边就是几个需要抽取内容的示例图片,中间就是需要文档抽取的文件,需要上传,右边是抽取的结果展示。

在这里插入图片描述

这里先随便使用一张示例图片来测试下效果(原始抽取字段):

在这里插入图片描述

下面是我添加几个字段后的识别内容:

在这里插入图片描述

接下来我会添加一张自己准备的电子保单的jpg图片,看看智能文档抽取的效果

在这里插入图片描述

这是导出结果的文件展示

在这里插入图片描述

这谁JSON显示的结果

在这里插入图片描述

这里我采用我们TextIn的宣传海报截取部分带有表格的海报用来识别,效果如下:

在这里插入图片描述

购物小票的识别,这里简单说明下,因为这个图片是样例小票,小票内容文本字段和默认字段并没有“支付金额”等明确字段名表示,但是还是能够识别出我想要表达的字段信息,还是比较优秀的,根据官网的说明,这里就是使用了依托于垂直领域的语义模型,就是结合了大模型去做的语义理解和高质量的基础数据预料作为模型的通识能力。

在这里插入图片描述

小小总结:识别的是真的快,抽取的字段又很准确!

总结

TextIn是真的挺好用的,上面内容展示了文档解析和智能文档抽取,还有更多更好玩的OCR识别等你们体验,目前合合信息团队也将TextIn ParseX 项目开源了,不仅仅可以在线使用他们的服务,我们也可以本地部署该服务,这个再提供他们开源的github仓库地址:Parsex-Frontend,这里如果本地部署实践是需要我们去TextIn工作台申请API的,需要得到x-ti-app-idx-ti-secret-code两个密钥在打开本地项目-高级设置里面去填写这两个密钥就可以使用了,详细的项目结构就不介绍了,小伙伴可以自行去研究,以上内容是在在线平台上操作使用的,详细可以去TextIn工作台去体验,里面API文档支持在线调试功能等,希望小伙伴们多多分享使用经验,有任何疑问可以直接联系他们官网的客服人员反馈。

如需了解更多文档处理权益,欢迎点击下方链接,加入交流社群,随时获得最新资讯及福利。
百宝箱大礼包


http://www.ppmy.cn/ops/130336.html

相关文章

使用Django REST framework构建RESTful API

使用Django REST framework构建RESTful API Django REST framework简介 安装Django REST framework 创建Django项目 创建Django应用 配置Django项目 创建模型 迁移数据库 创建序列化器 创建视图 配置URL 配置全局URL 配置认证和权限 测试API 使用Postman测试API 分页 过滤和排序…

Linux通过ifconfig命令ens33没有显示ip地址解决方式

一、问题&#xff1a;登录linux输入ifconfig, ether 00:0c:29:8f:a8:72 ens33: flags4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500ether 00:0c:29:55:f5:0b txqueuelen 1000 (Ethernet)RX packets 0 bytes 0 (0.0 B)RX errors 0 dropped 0 overruns 0 frame 0…

用Python设置、更新和获取Excel单元格的值

Excel工作簿作为一款广泛使用的数据管理工具&#xff0c;与Python相结合&#xff0c;可以使得自动化处理大量数据成为可能。通过Python来设置、更新以及读取Excel单元格的值&#xff0c;不仅可以极大地提高工作效率&#xff0c;减少重复劳动&#xff0c;还能增强数据处理流程的…

vue3父子组件传值,子组件暴漏方法

1.父传子 defineProps 父组件直接通过属性绑定的方式给子组件绑定数据&#xff0c;子组件通过defineProps接收函数接收 其中v-model是完成事件绑定和事件监听的语法糖。v-model算是v-bind和v-on的简洁写法&#xff0c;等价于 <c-input ref"inputRef" :modelValue…

GPT-4V 是什么?

GPT-4V 是一种能够“看图说话”的人工智能。传统的聊天机器人只能理解文字&#xff0c;而 GPT-4V 不仅能理解文字&#xff0c;还能看图&#xff0c;并回答跟图片相关的问题。 用简单的例子解释&#xff1a; 假设你给 GPT-4V 发一张图片&#xff0c;它能描述出图片里有什么&am…

【ROS2】hbm_img_msgs/msg/HbmMsg1080P 转 opencv cv::Mat

1、简述 在ROS2中处理图像时,经常会用的OpenCV,因此常常会涉及到ROS2话题和cv::Mat的转换 ROS2内置消息 sensor_msgs::msg::Image 可以使用 cv_bridge 转换成 OpenCV的 cv::Mat。 参见博客:【ROS2】cv_bridge:ROS图像消息和OpenCV的cv::Mat格式转换库 在使用地平线X3派时…

Java面试经典 150 题.P122. 买卖股票的最佳时机 II(008)

本题来自&#xff1a;力扣-面试经典 150 题 面试经典 150 题 - 学习计划 - 力扣&#xff08;LeetCode&#xff09;全球极客挚爱的技术成长平台https://leetcode.cn/studyplan/top-interview-150/ 题解&#xff1a; class Solution {public int maxProfit(int[] prices) {int…

D-ID 推出能模仿用户的头部动作以及实时互动的 AI 头像

D-ID 宣布推出两种新型 AI 头像 — — Express 和 Premium&#xff0c;旨在提升内容创作的灵活性和人性化。这些头像将为企业在营销、销售和客户支持等领域的视频制作提供便利。用户只需少量文本输入和视觉数据&#xff0c;即可生成更自然的商业视频。 Express 头像可以通过约一…