如何用Python将pdf文件转化为高清图片

ops/2025/1/24 19:27:10/

最近在整理文档,需要将文档进行OCR识别,然后结构化。直接解析pdf文档,行不通,因为文档里面是图片。于是采取先转图片,然后OCR,然后结构化。下面是pdf文档转图片的方法。

import fitz  # PyMuPDFdef pdf_to_images(pdf_path, images_folder):# 打开PDF文件document = fitz.open(pdf_path)for page_num in range(len(document)):# 获取页面page = document[page_num]# 将页面渲染为图片,默认输出为RGB颜色空间,96 DPIpix = page.get_pixmap(dpi=300)# 图片文件名image_name = f"page_{page_num + 1}.png"image_path = f"{images_folder}/{image_name}"# 保存图片pix._writeIMG(image_path, format_="JPG", jpg_quality=300)# 关闭PDF文档document.close()# 使用示例
pdf_path = 'example.pdf'  # PDF文件路径
images_folder = 'images'  # 图片保存文件夹
pdf_to_images(pdf_path, images_folder)

清晰度可以通过dpi参数控制。

如果你还没有安装 pymupdf,请安装:

pip install pymupdf


http://www.ppmy.cn/ops/152823.html

相关文章

IOS 安全机制拦截 window.open

摘要 在ios环境,在某些情况下执行window.open不生效 一、window.open window.open(url, target, windowFeatures) 1. url:「可选参数」,表示你要加载的资源URL或路径,如果不传,则打开一个url地址为about:blank的空…

Linux磁盘空间不足,12个详细的排查方法

在Linux系统运维过程中,磁盘空间不足是一个常见且棘手的问题。当磁盘空间被占满时,系统的正常运行会受到影响,甚至可能导致服务中断。因此,迅速有效地排查和解决磁盘空间问题显得尤为重要。本文将详细介绍16个排查Linux磁盘空间问…

除了基本的事件绑定,鸿蒙的ArkUI

鸿蒙操作系统(HarmonyOS)是由华为技术有限公司开发的分布式操作系统,旨在为多种智能设备提供一个统一的操作平台。它不仅适用于智能手机,还适用于平板电脑、智能手表、智能电视等物联网设备。为了使开发者能够更加便捷地创建跨设备…

C#/.NET/.NET Core技术前沿周刊 | 第 22 期(2025年1.13-1.19)

前言 C#/.NET/.NET Core技术前沿周刊,你的每周技术指南针!记录、追踪C#/.NET/.NET Core领域、生态的每周最新、最实用、最有价值的技术文章、社区动态、优质项目和学习资源等。让你时刻站在技术前沿,助力技术成长与视野拓宽。 欢迎投稿、推荐…

ubuntu设置系统自动更新

在Ubuntu中设置系统自动更新可以通过以下步骤完成: 1. 安装 unattended-upgrades 包 unattended-upgrades 是用于自动安装安全更新的工具。 sudo apt update sudo apt install unattended-upgrades2. 配置自动更新 编辑配置文件 /etc/apt/apt.conf.d/50unattend…

ChromeOS 132 版本更新

ChromeOS 132 版本更新 1. 企业定制化 Chrome Web Store 管理员现在可以使用新设置定制 Chrome Web Store 以适应他们管理的用户,包括以下功能: 添加公司标志添加首页横幅和自定义公告策划扩展集合实施基于类别的控制 这些设置可以通过管理员控制台进…

linux网络 | 传输层TCP | 认识tcp报头字段与分离

前言: 本节内容继续传输层的讲解, 本节讲解的是tcp协议。 tcp协议是我们日常中最常用的协议。就比如我们浏览网页,我们知道网页时http或者https协议。 其实http或者https底层就是用的tcp协议。tcp协议,全名又称为传输控制协议&…

ChatGPT大模型极简应用开发-CH2-深入了解 GPT-4 和 ChatGPT 的 API

文章目录 2.1 基本概念2.2 OpenAI API 提供的可用模型2.3 在 OpenAI Playground 中使用 GPT模型2.4 开始使用 OpenAI Python 库2.4.1 OpenAI 访问权限和 API 密钥2.4.2 Hello World 示例程序 2.5 使用 GPT-4 和 ChatGPT2.5.1 ChatCompletion 端点的输入选项2.5.2 ChatCompletio…