MinerU 是一款将PDF转化如markdown、json工具

server/2024/9/23 10:24:44/

MinerU

项目简介

MinerU是一款将PDF转化为机器可读格式的工具(如markdownjson),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。 相比国内外知名商用产品MinerU还很年轻,如果遇到问题或者结果不及预期请到issue提交问题,同时附上相关PDF。

2、demo网址

点击
导入pdf文件使用,有示例pdf效果还挺好

3、吸引点

也就是按照PDF全部转换过来,

  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片标题、表格、表格标题
  • 自动识别文档中的公式并将公式转换成latex

不足点:表格数据还是以图片的方式转过来的


http://www.ppmy.cn/server/103615.html

相关文章

【数模修炼之旅】06 决策树分类模型 深度解析(教程+代码)

【数模修炼之旅】06 决策树分类模型 深度解析(教程代码) 接下来 C君将会用至少30个小节来为大家深度解析数模领域常用的算法,大家可以关注这个专栏,持续学习哦,对于大家的能力提高会有极大的帮助。 1 决策树分类模型…

Hermite 三次插值可编辑样条

欢迎关注更多精彩 关注我,学习常用算法与数据结构,一题多解,降维打击。 问题描述 利用三次样条和Hermite插值制作一个类似于ppt里的曲线工作。 基本思路 对于给定点,初始生成时用参数化三次函数插值的方式生成。三次样条函数插…

【git】问题解决---Failed to connect to github.com

场景 最近运行命令git push,git pull或者git clone的时候总会报如下错误 fatal: unable to access https://github.com/xxxxx/xxxxxx.git/: **Failed to connect to github.com** port 443 after 21052 ms: Couldnt connect to server原因 一般是网络配置原因造成的, 如果能…

集团数字化转型方案(三)

集团数字化转型方案通过系统整合人工智能(AI)、大数据、云计算和物联网(IoT)技术,建立了一个全面智能化的业务管理平台,涵盖从业务流程自动化、数据驱动决策支持,到客户体验优化和供应链管理的各…

go语言基础之斐波那契数列

概述 本文描述了用go语言分别用递归与循环的方式,计算出斐波那契数列,并对比了执行程序所花销的时间 递归函数的时间复杂度是TnO(f(n)),它表示随问题规模n的增大,算法的执行时间增长率和f (n)增长率成正比,这称作算法的渐进时间…

11结构型设计模式——外观模式

一、外观模式简介 外观模式(Facade Pattern)是一种结构型设计模式,它提供了一个统一的接口来访问子系统中的一组接口,使得子系统的使用更加简单和方便。通过外观模式,可以将复杂的子系统封装在一个外观类(…

【小程序开发】答案之书——引子

《答案之书》小程序开发之旅 项目灵感&概述 在生活中,我们时常会面临各种选择和困惑:今天的工作会顺利吗?这次旅行会给我带来惊喜吗? 《答案之书》便是在这样一种灵感下诞生的。 它是一款带有神秘色彩的小程序,旨…

推荐一个开源的kafka可视化客户端GUI工具(Kafka King)

大佬的博客地址: https://blog.ysboke.cn/posts/tools/kafka-king Github地址: https://github.com/Bronya0/Kafka-King Kafka-King功能清单 查看集群节点列表(完成)支持PLAINTEXT、SASL PLAINTEXT用户名密码认证(完…