实战经验:使用 Python 的 PyPDF 进行 PDF 操作

ops/2025/1/21 1:00:39/

在这里插入图片描述

文章目录

    • 1. 为什么选择 PyPDF?
    • 2. 安装 PyPDF
    • 3. PDF 文件的合并与拆分
      • 3.1 合并 PDF 文件
      • 3.2 拆分 PDF 文件
    • 4. 提取 PDF 文本
    • 5. 修改 PDF 元信息
    • 6. PDF 加密与解密
      • 6.1 加密 PDF
      • 6.2 解密 PDF
    • 7. 页面旋转与裁剪
      • 7.1 旋转页面
      • 7.2 裁剪页面
    • 8. 实战经验总结

PDF 是一种非常常见的文件格式,用于文档共享、电子书、合同等场景。对于开发者来说,能够高效地操作 PDF 文件是一个重要技能。本文将介绍如何使用 Python 的 PyPDF 库完成一些常见的 PDF 处理任务,并分享实战经验。

1. 为什么选择 PyPDF?

PyPDF 是一个轻量级且功能强大的 PDF 操作库,支持以下功能:

  • 合并和拆分 PDF 文件
  • 提取文本和元信息
  • 添加或修改文档的元数据
  • 加密和解密 PDF
  • 自定义 PDF 页面旋转或裁剪

以下是一些实战场景的详细实现。


2. 安装 PyPDF

首先,需要安装 PyPDF 库。可以使用 pip:

pip install pypdf

确保安装的是最新版,以获得最新功能和性能改进。


3. PDF 文件的合并与拆分

3.1 合并 PDF 文件

合并多个 PDF 文件在生成报告或整理文档时非常有用。

python">from pypdf import PdfMerger# 初始化合并器
merger = PdfMerger()# 添加需要合并的 PDF 文件
merger.append("file1.pdf")
merger.append("file2.pdf")# 保存合并后的文件
merger.write("merged.pdf")
merger.close()
print("PDF 合并完成!")

3.2 拆分 PDF 文件

将一个 PDF 文件拆分为多个独立的页面文件。

python">from pypdf import PdfReader, PdfWriter# 读取 PDF 文件
reader = PdfReader("input.pdf")# 拆分每一页
for i, page in enumerate(reader.pages):writer = PdfWriter()writer.add_page(page)with open(f"page_{i+1}.pdf", "wb") as output_file:writer.write(output_file)
print("PDF 拆分完成!")

4. 提取 PDF 文本

提取 PDF 文件中的文本内容,可以用于数据分析或自动化处理。

python">from pypdf import PdfReader# 读取 PDF 文件
reader = PdfReader("input.pdf")# 提取每页的文本
for page in reader.pages:print(page.extract_text())

注意事项

  • 文本提取的效果取决于 PDF 的结构。如果 PDF 中的文本是以图像形式存储的,则无法直接提取文本。

5. 修改 PDF 元信息

修改 PDF 的元数据,例如标题、作者等。

python">from pypdf import PdfReader, PdfWriterreader = PdfReader("input.pdf")
writer = PdfWriter()# 复制所有页面到新 PDF
writer.add_pages(reader.pages)# 修改元信息
writer.metadata = {"/Title": "新的标题","/Author": "作者名","/Subject": "主题描述"
}with open("output.pdf", "wb") as output_file:writer.write(output_file)
print("元信息修改完成!")

6. PDF 加密与解密

6.1 加密 PDF

为 PDF 文件添加密码保护。

python">from pypdf import PdfWriterwriter = PdfWriter()
writer.append("input.pdf")# 设置密码
writer.encrypt(user_password="user123", owner_password="owner123")with open("encrypted.pdf", "wb") as output_file:writer.write(output_file)
print("PDF 加密完成!")

6.2 解密 PDF

解密受密码保护的 PDF 文件。

python">from pypdf import PdfReaderreader = PdfReader("encrypted.pdf")# 提供密码解密
reader.decrypt("user123")for page in reader.pages:print(page.extract_text())

7. 页面旋转与裁剪

7.1 旋转页面

旋转 PDF 的页面,例如将横向页面转为纵向。

python">from pypdf import PdfReader, PdfWriterreader = PdfReader("input.pdf")
writer = PdfWriter()# 旋转每一页
for page in reader.pages:page.rotate(90)  # 顺时针旋转 90 度writer.add_page(page)with open("rotated.pdf", "wb") as output_file:writer.write(output_file)
print("页面旋转完成!")

7.2 裁剪页面

裁剪页面边框以去掉不必要的内容。

python">from pypdf import PdfReader, PdfWriterreader = PdfReader("input.pdf")
writer = PdfWriter()for page in reader.pages:# 设置裁剪框 (左, 下, 右, 上)page.mediabox.lower_left = (50, 50)page.mediabox.upper_right = (500, 700)writer.add_page(page)with open("cropped.pdf", "wb") as output_file:writer.write(output_file)
print("页面裁剪完成!")

8. 实战经验总结

  1. 处理异常:在实际操作中,确保捕获文件读写或解析过程中的异常,例如文件不存在或解密失败。
  2. 测试 PDF 文件:由于 PDF 文件格式的多样性,在批量处理前需要先对样本文件进行测试。
  3. 性能优化:对于大文件,使用分批加载的方式处理。
  4. 安全性:避免在代码中硬编码敏感信息,例如密码。

通过本文,您应该对 PyPDF 的常用功能有了清晰的理解,并能应用到实际项目中。如果有更复杂的场景,可以参考官方文档或社区资源深入探索。


http://www.ppmy.cn/ops/151796.html

相关文章

使用libwebsocket技术总结

一、编译libwebsocket 1) 需要使用Cmake工具,将根目录下CMakeLists.txt打开后,需要配置openssl库的路径 2) 当前libwebsocket v3.2版本需要使用openssl v1.1.x以上版本,否则ssl安全协议支持只能选择内置ssl模块,一般都选择opens…

08、如何预防SQL注入

目录 1、分析及其存在哪些危险 2、预防SQL注入 1、分析及其存在哪些危险 原理: SQL 注入是一种常见的网络攻击手段,攻击者通过在用户输入中插入恶意的 SQL 语句,利用程序对用户输入处理不当的漏洞,使恶意 SQL 语句被数据库服务器执行。 通常发生在应用程序将用户输入直接拼…

Web安全|渗透测试|网络安全

基础入门(P1-P5) p1概念名词 1.1域名 什么是域名? 域名:是由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称,用于在数据传输时对计算机的定位标识(有时也指地理位置)。 什么是二级域名多级域名…

【python_钉钉群发图片】

需求: **在钉钉群发图片,需要以图片的形式展示,如图所示:**但是目前影刀里面没有符合条件的指令 解决方法: 1、在钉钉开发者后台新建一个自建应用,发版,然后获取里面的appkey和appsecret&am…

【设计模式】 单例模式(单例模式哪几种实现,如何保证线程安全,反射破坏单例模式)

单例模式 作用:单例模式的核心是保证一个类只有一个实例,并且提供一个访问实例的全局访问点。 实现方式优缺点饿汉式线程安全,调用效率高 ,但是不能延迟加载懒汉式线程安全,调用效率不高,能延迟加载双重检…

【Idea】编译Spring源码 read timeout 问题

Idea现在是大家工作中用的比较多的开发工具,尤其是做java开发的,那么做java开发,了解spring框架源码是提高自己技能水平的一个方式,所以会从spring 官网下载源码,导入到 Idea 工具并编译,但是发现build的时…

vue3+vite+ts+router4+Pinia+Axios+sass 从0到1搭建

1、使用vite构建项目 npm create vitelatest 填写项目名的时候不能大写 2、跑起来之后配置下 import { defineConfig } from vite import vue from vitejs/plugin-vue import { resolve } from path // https://vite.dev/config/ export default defineConfig({plugins: [vue…

二、点灯基础实验

嵌入式基础实验第一个就是点灯,地位相当于编程界的hello world。 如下为LED原理图,要让相应LED发光,需要给I/O口设置输出引脚,低电平,二极管才会导通 2.1 打开初始工程,编写代码 以下会实现BLINKY常亮&…