Python pdf转换为html

Python pdf转换为html

news/2024/11/14 14:55:30/

描述：

最近在工作中遇到 pdf转换为html,找了很多个库，最后发现两个好用的pdf转html的库，特此记录

1.方法一：使用`Spire.PDF for Python`

Spire.PDF是收费的,但是pdf转换为html的效果是最好的

 pip install Spire.PDF

python">from spire.pdf.common import *
from spire.pdf import *# spire.pdf pdf转换为html
def spire_convert_html(pdf_path, html_path):try:# 创建一个 PdfDocument 类的对象doc = PdfDocument()# 加载一个 PDF 文档doc.LoadFromFile(pdf_path)# 将文档转换为 HTML 格式并保存doc.SaveToFile(html_path, FileFormat.HTML)doc.Close()except Exception as e:print(e)

2.方法二：使用PyMuPDF(fitz) pdf转换为html

PyMuPDF是开源免费的，效果还可以

tqdm是Python进度条库，若不用可以不安装该库

pip install PyMuPDF
pip install tqdm

python">import fitz
from tqdm import tqdm# PyMuPDF(fitz) pdf转换为html
def fitz_convert_html(pdf_path, html_path):try:doc = fitz.open(pdf_path)html_content = ("<!DOCTYPE html><html lang=\"zh-CN\"><head><meta ""charset=\"UTF-8\"><title>Title</title></head><body>")# tqdm是Python进度条库, 若不用: for page in docfor page in tqdm(doc):html_content += page.get_text('html')html_content += "</body></html>"# 保存htmlwith open(html_path, 'w', encoding='utf8') as f:f.write(html_content)except Exception as e:print(e)

http://www.ppmy.cn/news/1528362.html

相关文章

使用Renesas R7FA8D1BH (Cortex®-M85)实现多功能UI

使用Renesas R7FA8D1BH (Cortex®-M85)实现多功能UI

目录概述 1 系统框架介绍 1.1 模块功能介绍 1.2 UI页面功能 2 软件框架结构实现 2.1 软件框架图 2.1.1 应用层API 2.1.2 硬件驱动层 2.1.3 MCU底层驱动 2.2 软件流程图 4 软件功能实现 4.1 状态机功能核心代码 4.2 页面功能函数 4.3 源代码文件 5 功能测试 5.1…

阅读更多...

iOS 知识点记录

iOS 知识点记录

王巍博客地址：OneVs Den git地址：onevcat (Wei Wang) GitHub 江湖人称喵神，目前就职于line。喵神的博客涉及方面比较广, 有Obejctive-C, Swift, SwiftUI, Unity等等。博客内容很有深度，非常值得关注。戴铭博客地址：戴铭的博客 git地址：ming1016 (戴铭) GitHub 《i…

阅读更多...

VirtualBox Install MacOS

VirtualBox Install MacOS

环境搭建 git clone https://github.com/myspaghetti/macos-virtualbox 脚本配置修改macos-guest-virtualbox.sh部分内容为 vm_name"macOS" # name of the VirtualBox virtual machine macOS_release_name"Catalina" # install &quo…

阅读更多...

Langchain-chatchat源码部署及测试实验

Langchain-chatchat源码部署及测试实验

一年多前接触到Langchain-chatchat的0.2版本，对0.2版本进行了本地部署和大量更新，但0.2版本对最新的大模型支持不够好，部署框架支持也不好且不太稳定，特别是多模态大模型，因此本次主要介绍0.3版本的源码部署，希望对大家有所帮助。Langchain-chatchat从0.3版本开始，支持更…

阅读更多...

Git使用详解：从安装到精通

Git使用详解：从安装到精通

前言什么是Git Git是一个分布式版本控制工具，主要用于管理开发过程中的源代码文件（Java类、xml文件、html页面等），在软件开发过程中被广泛使用。可以理解： git是一个管理源代码的工具，主要用于企业团队开…

阅读更多...

JAVA毕业设计176—基于Java+Springboot+vue3的交通旅游订票管理系统(源代码+数据库)

JAVA毕业设计176—基于Java+Springboot+vue3的交通旅游订票管理系统(源代码+数据库)

毕设所有选题： https://blog.csdn.net/2303_76227485/article/details/131104075 基于JavaSpringbootvue3的交通旅游订票管理系统(源代码数据库)176 一、系统介绍本项目前后端分离(可以改为ssm版本)，分为用户、管理员两种角色 1、用户： …

阅读更多...

（k8s）Kubernetes 从0到1容器编排之旅

（k8s）Kubernetes 从0到1容器编排之旅

一、引言在当今数字化的浪潮中，Kubernetes 如同一艘强大的航船，引领着容器化应用的部署与管理。它以其卓越的灵活性、可扩展性和可靠性，成为众多企业和开发者的首选。然而，要真正发挥 Kubernetes 的强大威力，仅仅掌握…

阅读更多...

Linux系统编程（基础指令）上

Linux系统编程（基础指令）上

1.Linux常见目录介绍 Linux目录为树形结构 /：根目录，一般根目录下只存放目录，在Linux下有且只有一个根目录。所有的东西都是从这里开始。当你在终端里输入“/home”，你其实是在告诉电脑，先从/（根目录&…

阅读更多...

最新文章