PDF 解析格式化输出 API 数据接口

news/2025/3/14 16:39:45/

PDF 解析格式化输出 API 数据接口

支持输出 TEXT HTML XML TAG,多种格式输出,超精准识别率。

gugudata_api_cover

1. 产品功能

  • 通用的识别接口, 支持标准 PDF 文件解析;
  • 多种格式输出,支持 TEXT HTML XML TAG;
  • HTML 包含完美排版格式;
  • 基于机器学习不断提高的识别率;
  • 1M 文件毫秒级识别性能;
  • 数据持续更新与维护;
  • 全接口支持 HTTPS(TLS v1.0 / v1.1 / v1.2 / v1.3);
  • 全面兼容 Apple ATS;
  • 全国多节点 CDN 部署;
  • 接口极速响应,多台服务器构建 API 接口负载均衡;
  • 接口调用状态与状态监控

2. API 文档

接口详情: https://www.gugudata.com/api/details/pdf2format

接口地址: https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}

返回格式: application/json; charset=utf-8

请求方式: POST

请求协议: HTTPS

请求示例: https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}

数据预览: https://www.gugudata.com/preview/pdf2format

接口测试: https://api.gugudata.com/imagerecognition/pdf2format/demo

3. 请求参数

参数名参数类型是否必须默认值备注
appkeystringYOUR_APPKEY付费后获取的 APPKEY
typestringYOUR_VALUE定义输出格式,可选 text|html|xml|tag
pdffilefileYOUR_VALUE文件格式参数,待转换的 PDF 文件

4. 返回参数

参数名参数类型备注
DataStatus.StatusCodeint接口返回状态码
DataStatus.StatusDescriptionstring接口返回状态说明
DataStatus.ResponseDateTimestring接口数据返回时间
DataStatus.DataTotalCountint此条件下的总数据量,一般用于分页计算
Data.Datastring接口解析 PDF 返回数据,格式由 type 参数决定

5. 接口 HTTP 响应标准状态码

状态码状态码解释备注
200接口正常响应业务状态码参见下方 接口自定义状态码
403请求频率超限CDN 层通过 IP 请求频率智能判断,一般的高频请求不会触发此状态码

6. 接口响应状态码

状态码状态码解释备注
100正常返回可通过判断此状态码断言接口正常返回
-1请求失败请求处理请求失败
501参数错误请检查您传递的参数个数以及参数类型是否匹配
502请求频率受限一般建议每秒请求不超过 100 次
503APPKEY 权限超限/订单到期请至开发者中心检查您的 APPKEY 是否到期或是否权限超限
504APPKEY 错误请检查传递的 APPKEY 是否为开发者中心获取到的值
505请求的次数超出接口限制请检查对应接口是否有请求次数限制以及您目前的接口请求剩余次数
900接口内部响应错误接口可用性为 99.999%,如获取到此状态码请邮件联系我们

7. 开发语言请求示例代码

示例代码包含的开发语言:C#, Go, Java, jQuery, Node.js, Objective-C, PHP, Python, Ruby, Swift 等,其他语言进行对应的 RESTful API 请求实现即可。

code demo

8. 常见问题 Q&A

  • Q: 数据请求有缓存吗?

    A: 所有的数据都是直接返回的,部分周期性数据在更新周期内数据是缓存的。

  • Q: 如何保证请求时 key 的安全性?

    A: 一般建议将对我们 API 的请求放置在您应用的后端服务中发起,您应用的所有前端请求都应该指向您自己的后端服务,这样的架构也更加地纯粹且易维护。

  • Q: 接口可以用于哪些开发语言?

    A: 可以使用于所有可以进行网络请求的开发语言,用于您项目快速地进行数据构建。

  • Q: 接口的性能可以保证吗?

    A: 接口后台架构和我们给企业提供的商业项目架构一致,您可以通过访问测试接口查看接口相关返回性能与信息。


咕咕数据,专业的数据提供商,提供专业全面的数据接口、商业数据分析,让数据成为您的生产原料。

image-20200716141435988

咕咕数据基于我们七年来为企业客户提供的千亿级数据存储与性能优化、相关海量基础数据支撑,将合规的部分通用数据、通用功能抽象成产品级数据 API,大大满足了用户在产品开发过程中对基础数据的需求,同时降低了海量数据的存储与运维成本,以及复杂功能的技术门槛与人力开发成本。

除了我们已开放的分类数据与功能接口外,还有海量数据正在整理、清洗、整合、构建中,后期会开放更多的数据与云端功能接口 API 供用户使用。

目前已开放的数据接口 API

  • [条码工具] 通用二维码生成
  • [条码工具] Wi-Fi 无线网二维码生成
  • [条码工具] 通用条形码生成
  • [图像识别] 通用 OCR
  • [图像识别] 通用图片 OCR 到 Word
  • [图像识别] HTML 转 PDF
  • [图像识别] HTML 转 Word
  • [图像识别] Markdown 转 PDF
  • [图像识别] PDF 解析格式化输出
  • [区域/坐标] 全国大学高校基础信息
  • [区域/坐标] 地理坐标逆编码
  • [区域/坐标] IP 地址定位
  • [区域/坐标] 全国省市区街道区域信息
  • [区域/坐标] 地理坐标系转换
  • [元数据/字典] 历年高考省录取分数线
  • [元数据/字典] 历年高考高校录取分数线
  • [元数据/字典] 历年高考专业录取分数线
  • [新闻/资讯] 软件开发技术博文头条
  • [新闻/资讯] 获取任意链接文章正文
  • [新闻/资讯] 公众号头条文章
  • [新闻/资讯] 获取任意链接正文图片
  • [新闻/资讯] 获取公众号文章封面
  • [新闻/资讯] 幽默笑话大全
  • [短信/语音] 手机归属地查询
  • [短信/语音] 国际手机号码检查纠正
  • [文字/文本] 中文文本分词
  • [文字/文本] 中英文排版规范化
  • [文字/文本] 百万中国对联数据
  • [文字/文本] 国际标准书号 ISBN
  • [文字/文本] 简体繁体互转
  • [文字/文本] 唐诗宋词大全
  • [文字/文本] 关键字摘要智能提取
  • [文字/文本] 文本语义相似度检测
  • [文字/文本] NLP中文智能纠错
  • [文字/文本] 人工智能对联生成
  • [文字/文本] NLP 语种检测
  • [天气/空气质量] 全国天气预报信息
  • [天气/空气质量] 全国实时空气质量指数
  • [天气/空气质量] 日出与日落时间
  • [天气/空气质量] 农历与二十四节气
  • [网站工具] 获取任意站点标题与图标
  • [股票行情] 美股实时行情数据
  • [股票行情] 美股历史行情数据
  • [股票行情] 美股分时交易数据
  • [股票行情] 美股历年基本财务数据
  • [股票行情] 港股实时行情数据
  • [股票行情] 港股历史行情数据
  • [股票行情] 港股分时交易数据
  • [股票行情] 港股上市公司公告
  • [股票行情] 港股历年三大财务报表
  • [股票行情] A 股实时行情数据
  • [股票行情] A 股历史行情数据
  • [股票行情] A 股分时交易数据
  • [股票行情] A 股历年三大财务报表
  • [股票行情] 中国股票指数数据
  • [股票行情] A 股个股信息查询
  • [股票行情] A 股历年财务指标
  • [股票行情] A 股指数成分数据
  • [股票行情] A 股指数历史数据
  • [股票行情] A 股盘前数据
  • [股票行情] A 股分笔交易数据
  • [股票行情] A 股交易日历
  • [股票行情] 期权实时行情数据
  • [股票行情] 基金基本信息列表
  • [股票行情] 指数型基金基本信息
  • [股票行情] 开放式基金净值实时数据
  • [股票行情] 开放式基金净值历史数据
  • [股票行情] 科创板历史行情数据
  • [股票行情] 美股粉单实时行情数据
  • [股票行情] 分类美股实时行情数据
  • [股票行情] 公募开放式基金实时数据
  • [股票行情] 公募开放式基金历史数据
  • [股票行情] 场内交易基金实时数据
  • [股票行情] 场内交易基金历史数据
  • [股票行情] 场内交易基金分时行情
  • [体育/比赛] 历年奥运比赛数据

http://www.ppmy.cn/news/30258.html

相关文章

Pytorch处理数据与训练网络问题汇总(协同训练)

基础语法 模型训练 【Swin-Unet】官方代码预训练权重加载函数load_from() 实际上由于SwinUnet是一个encoder-decoder对称的结构,因此加载权重时,作者并没有像通常那样仅仅加载encoder部分而不加载decoder部分,而是同时将encoder的权重对称地…

滚动升级回滚

滚动升级回滚 ReplicationController 资源文件 apiVersion: v1 kind: ReplicationController metadata:name: kubia-v1labels:app: kubia spec:replicas: 3template:metadata:name: kubialabels:app: kubiaspec:containers:- image: luksa/kubia:v1name: nodejes --- apiVer…

【ONE·C || 文件操作】

总言 C语言:文件操作。    文章目录总言1、文件是什么?为什么需要文件?1.1、为什么需要文件?1.2、文件是什么?2、文件的打开与关闭2.1、文件指针2.2、文件打开和关闭:fopen、fclose2.3、文件使用方式3、文…

【Java】反射机制和代理机制

目录一、反射1. 反射概念2. 反射的应用场景3. 反射机制的优缺点4. 反射实战获取 Class 对象的四种方式二、代理机制1. 代理模式2. 静态代理3. 动态代理3.1 JDK动态代理机制1. 介绍2.JDK 动态代理类使用步骤3. 代码示例3.2 CGLIB 动态代理机制1.介绍2.CGLIB 动态代理类使用步骤3…

Hyperf使用RabbitMQ消息队列

Hyperf连接使用RabbitMQ消息中间件 传送门 使用Docker部署RabbitMQ&#xff0c;->传送门<使用Docker部署Hyperf&#xff0c;->传送门-< 部署环境 安装amqp扩展 composer require hyperf/amqp安装command命令行扩展 composer require hyperf/command配置参数 假…

如何打造一款专属于自己的高逼格电脑桌面

作为一名电脑重度使用者&#xff0c;你是否拥有一款属于你自己的高逼格电脑桌面呢&#xff1f;你是不是也像大多数同学一样&#xff0c;会把所有的内容全部都堆积到电脑桌面&#xff0c;不仅找东西困难&#xff0c;由于桌面内容太多还会导致C盘空间不足&#xff0c;影响电脑的反…

G. Special Permutation(构造)

1、题目 G. Special Permutation 这道题的意思是给我们从111到nnn的排列&#xff0c;然后我们对这个排列的顺序上进行调换&#xff0c;需要满足的条件是任意两个相邻元素的绝对值的差满足条件&#xff1a;2≤∣pi−pi1∣≤42\leq |p_i-p_{i 1}|\leq 42≤∣pi​−pi1​∣≤4 …

守护进程 || 精灵进程

目录 守护进程&#xff08;deamon&#xff09; || 精灵进程 特点 什么是前台进程组 把自己写的服务器deamon deamon代码 守护进程&#xff08;deamon&#xff09; || 精灵进程 特点 01. 他的PPID是1&#xff08;附件特征&#xff09;02. COMMAND --- 称为进程启动的命令03…