python 删除pdf 空白页

server/2024/9/29 5:31:00/

环境

python == 3.10
PyPDF2 ==3.0.1

安装

python">pip install PyPDF2

流程

  • 将空白页和内容页读取出来,看看内部结构有什么不同
  • 以此为依据,遍历整个PDF 文件,标记处有内容的页面,写入到另外一个PDF文件。

python__12">python 代码

python"># 每一个页都是一个字典对象,看第一层没区别
# 参考文章中 第一层 keys 一样, 但是 /Resources下结构有所不同,空白页没有"/XObject"键
# 我的第一层keys 不一样,  但是 /Resources下结构一样
# 另外 PyPDF2 版本不一样,各个模块有更新,自己看源码进行更新,或者根据报错提示进行更新from PyPDF2 import PdfReader, PdfWriterdef remove_pdf_blank_pages(path):pdfReader = PdfReader(open(path, 'rb'))writer = PdfWriter()pages = len(pdfReader.pages)# blank = pdfReader.pages[1]# full = pdfReader.pages[2]#print('*'*10)#print(blank.keys())# dict_keys(['/Type', '/Parent', '/Resources', '/MediaBox', '/Contents'])#print(full.keys())# dict_keys(['/Type', '/Parent', '/Resources', '/MediaBox', '/Annots', '/Tabs', '/StructParents', '/Contents'])#print(blank['/Resources'])#{'/Font': IndirectObject(600, 0, 139632281578944), '/XObject': {'/Im553': IndirectObject(553, 0, 139632281578944), '/Im7': IndirectObject(7, 0, 139632281578944)}, '/ProcSet': ['/PDF', '/Text', '/ImageC', '/ImageI', '/ImageB']}#print(full['/Resources'])#{'/Font': IndirectObject(600, 0, 139632281578944), '/XObject': {'/Im553': IndirectObject(553, 0, 139632281578944), '/Im7': IndirectObject(7, 0, 139632281578944)}, '/ProcSet': ['/PDF', '/Text', '/ImageC', '/ImageI', '/ImageB']}#print('*' * 10)for i in range(pages):page = pdfReader.pages[i]# if "/XObject" in page["/Resources"].keys() or "/Font" in page["/Resources"].keys():#     writer.add_page(page)if "/StructParents" in page.keys() or "/Tabs" in page.keys() or "/Annots" in page.keys():writer.add_page(page)writer.write(open(path, 'wb'))

参考

使用Python批量删除扫描PDF中的空白页


http://www.ppmy.cn/server/45002.html

相关文章

Godot引擎小白入门指南

哈喽,大家好呀,淼淼有来和大家见面啦,前几期和大家讲了Godot引擎的优势,Godot引擎是一款开源的跨平台游戏引擎,具有易学易用、功能强大、社区活跃等特点,因此备受开发者青睐。对于初学者来说,掌…

网页中的音视频裁剪拼接合并

一、需求描述 项目中有一个配音需求: 1)首先,前台会拿到一个英语视频,视频的内容是A和B用英语交流; 2)然后,用户可以选择为某一个角色配音,假如选择为A配音,那么视频在播…

【全开源】知识库文档系统源码(ThinkPHP+FastAdmin)

知识库文档系统源码:构建智慧知识库的基石 引言 在当今信息爆炸的时代,知识的有效管理和利用对于企业和个人来说至关重要。知识库文档系统源码正是为了满足这一需求而诞生的,它提供了一个高效、便捷的平台,帮助用户构建、管理、…

本地开发正常 线上CI/CD构建项目过程报错文件未能正确引用

问题快照 原因分析: 一般遇到这样的错误就是 文件路径或者文件名称未能正确匹配 或者文件不存在 会报这样的错误 以为很好解决 但这次 都排查 了 就是 没发现原因 不管怎么说还是要感谢 GPT的能力(分析问题的能力) 先上图 当我看到 第四步的时候 我立马 去仓库里查…

「Electron」Electron 应用程序详解

Electron 作为一个强大的框架,让开发者能够使用熟悉的 Web 技术栈来构建桌面应用程序。下面我将对您提供的要点进行扩展,以便更深入地理解 Electron 开发的各个方面。 一、知其然 Electron 基础深入 核心概念:Electron 应用由主进程(main.js)和渲染进程(可以有多个,对应…

js实现元素根据鼠标滚轮滚动向左右上下滑动着从模糊到清楚显示出来

html代码 <div ref{test} id"animatedElement" className"not-animated"> <div style{{width:"100px",height:"50px",backgroundColor:"red"}}> </div> </div> JS代码 const te…

牛客Linux高并发服务器开发学习第八天

父子进程之间关系 区别&#xff1a; 1.fork()函数的返回值不同 父进程中&#xff1a;>0 返回子进程的ID 子进程中&#xff1a; 0 2.pcb中的一切数据 当前的进程的pid 当前的进程的父进程的ppid 信号集 共同点&#xff1a; 某些状态下&#xff1a;子进程刚被创建出来&#…

HTML <from>表单

定义&#xff1a;<form>元素定义了一个表单&#xff0c;用户可以在表单中输入数据&#xff0c;这些数据可以被提交到服务器。 属性&#xff1a; action&#xff1a;指定表单提交时的目标URL&#xff08;服务器端脚本的地址&#xff09;。 method&#xff1a;定义提交表…