【记录】Python3| 将 PDF 转换成 HTML/XML(✅⭐⭐⭐⭐pdf2htmlEX)

ops/2024/9/23 20:15:58/
xmlns="http://www.w3.org/2000/svg" style="display: none;">

本文将会被汇总至 【记录】Python3|2024年 PDF 转 XML 或 HTML 的第三方库的使用方式、测评过程以及对比结果(汇总),更多其他工具请访问该文章查看。


文章目录

  • html" title=pdf>pdf2htmlEX 使用体验与评估
    • 1 安装指南
    • 2 测试代码
    • 3 测试结果
      • 3.1 转 HTML 的结果
      • 3.2 转 XML 的结果
    • 4 总体评价:✅⭐⭐⭐⭐
    • 5 补充说明

html" title=pdf>pdf2htmlEX__9">html" title=pdf>pdf2htmlEX 使用体验与评估

Github 阅读:https://github.com/shandianchengzi/PDF2HTML_Samples/blob/main/results/html" title=pdf>pdf2htmlEX.md
CSDN 阅读:【记录】Python3| 将 PDF 转换成 HTML/XML(✅⭐⭐⭐⭐html" title=pdf>pdf2htmlEX)

参考:html" title=pdf>pdf2htmlEX:将 PDF 转换为 HTML 的高效工具

PDF2HTMLEX 是一款功能强大的 PDF 转 HTML 工具,尽管它并不通过 Python 的包管理工具 pip 进行安装,但其易用性和转换效果仍然备受赞誉。下面,我们将详细介绍如何安装 PDF2HTMLEX,并通过一个测试案例来展示其使用方法和效果。

1 安装指南

PDF2HTMLEX 提供了 Windows 版本的 EXE 文件供用户下载和使用。您可以通过点击以下链接下载最新版本的 PDF2HTMLEX:html" title=pdf>pdf2htmlEX Windows Version | RubyPdf Technologies。

下载完成后,您可以直接运行 EXE 文件进行使用。安装过程简单明了,按照提示完成即可,如下图所示。

在这里插入图片描述

2 测试代码

为了更好地帮助您理解 PDF2HTMLEX 的用法,我们提供了一个测试代码示例。您可以在以下 GitHub 仓库中找到相关代码和样本文件:https://github.com/shandianchengzi/PDF2HTML_Samples/tree/main/python_samples/test_html" title=pdf>pdf2htmlEX。

请注意,该测试代码示例使用了相对路径来指定文件路径。这是因为 PDF2HTMLEX 在处理文件路径时存在一个已知的 bug。当使用绝对路径时,它会在输出文件的路径前自动添加 ./,导致绝对路径不可用并报错。

例如如下报错:

`Error: Cannot open ./D:\Github\PDF2HTML_Samples\python_samples\test_html" title=pdf>pdf2htmlEX\outputs\to_html_table_test.html for writing`

以下是测试代码示例的目录结构:

目录结构

3 测试结果

3.1 转 HTML 的结果

经过测试,PDF2HTMLEX 在将 PDF 转换为 HTML 的过程中表现出色。转换后的 HTML 页面保留了原始 PDF 的格式和布局,使得阅读体验得以延续。然而,需要注意的是,在某些情况下,转换后的大纲可能会出现问题,例如出现重复的章节标题(如下重复出现 10.12)。

以下是转换后的 HTML 页面示例:

转 HTML 结果1
转 HTML 结果2

3.2 转 XML 的结果

需要注意的是,PDF2HTMLEX 目前并不支持将 PDF 直接转换为 XML 格式。因此,在测试过程中,我们无法提供相关的转换结果。

4 总体评价:✅⭐⭐⭐⭐

总体来说,PDF2HTMLEX 是一款非常优秀的 PDF 转 HTML 工具。尽管在处理文件路径时存在一些小问题,但这并不影响其出色的转换效果。

它支持多种转换参数,并且能够在保留原始 PDF 格式的基础上,生成易于阅读和编辑的 HTML 页面。参数详情可以点此跳转。

5 补充说明

在转换过程中,PDF2HTMLEX 转换的时候能够保留格式,不过不会自动设置成 DOM 树节点。用户可以用不同的 className 来获得章节,挺方便的!

此外,PDF2HTMLEX 还具备一些特殊功能,例如根据数字区分的书签功能,使得用户在阅读时能够快速定位到所需的章节。如上11.2会被识别成一个小章。


本文将会被汇总至 【记录】Python3|2024年 PDF 转 XML 或 HTML 的第三方库的使用方式、测评过程以及对比结果(汇总),更多其他工具请访问该文章查看。


本账号所有文章均为原创,欢迎转载,请注明文章出处:https://blog.csdn.net/qq_46106285/article/details/138356607。百度和各类采集站皆不可信,搜索请谨慎鉴别。技术类文章一般都有时效性,本人习惯不定期对自己的博文进行修正和更新,因此请访问出处以查看本文的最新版本。


http://www.ppmy.cn/ops/31705.html

相关文章

基于微服务和DDD的架构模板

基于微服务和DDD的架构模板 常用技术选型逻辑架构模板基于DDD的代码结构模板 常用技术选型 反向代理:Nginx开发框架:Spring Boot数据库:MySQL缓存:Redis微服务解决方案:Spring Cloud Alibaba 注册中心:Nac…

Spring Boot微服务架构实战

Spring Boot微服务架构实战是一个涉及到多个关键技术和步骤的过程,以下是关于其详细论述: 一、微服务架构概述 微服务架构是一种将单个应用程序拆分为一组小的服务的方法,每个服务都运行在其独立的进程中,服务与服务之间通过轻量…

Covalent Network(CQT)为 Arbitrum 生态提供 250 万美元的资助,以促进 Web3 的创新与发展

Covalent Network(CQT)作为 Web3 领先的“数据可用性”层,宣布将提供 250 万美元的资金以支持 Arbitrum 生态项目,包括 Arbitrum One、Nova、Orbit 或 Stylus。此举旨在通过提供资源和帮助,推动利用 Arbitrum 网络上 C…

【大语言模型LLM】-基于大语言模型搭建客服助手(2)

🔥博客主页:西瓜WiFi 🎥系列专栏:《大语言模型》 很多非常有趣的模型,值得收藏,满足大家的收集癖! 如果觉得有用,请三连👍⭐❤️,谢谢! 长期不…

npm ERR! Invalid dependency type requested: alias解决

错误说明: 在使用vue通过npm进行依赖下载的时候出现: npm ERR! Invalid dependency type requested: alias 原因是使用的是nodejs版本比较低,其中附带的npm版本也比较低,较低npm 版本不支持使用别名(alias&#xff0…

ASP.NET网络在线考试系统

摘 要 随着计算机技术的发展和互联网时代的到来,人们已经进入了信息时代,也有人称为数字化时代。数在数字化的网络环境下,学生希望得到个性化的满足,根据自己的情况进行学习,同时也希望能够得到科学的评价&#xff0c…

Spring Boot面试知识点总结(经典15问)

Spring Boot面试知识点总结(问答合集) 文章目录 Spring Boot面试知识点总结(问答合集)一、Spring Boot简介二、核心特性三、面试问题及答案问题1:Spring Boot的核心配置文件是什么?问题2:Spring…

【算法】唯一分解定理及最lcm和gcd关系 宝石组合

前言 今天在做一道宝石组合的题目时了解到了这个定理,还是蛮有意思的。 思想 唯一分解定理: 对于任何正整数n,有 n p 1 a 1 p 2 a 2 . . . p k a k n p_1^{a1} \times p_2^{a2} \times ... \times p_k^{ak} np1a1​p2a2​...pkak​ …