python将pdf转换图片

news/2024/11/23 0:32:37/

一:python将pdf转换图片(进程)

# -*- coding:utf-8 -*-
# Author :  yyzhang56
# 所有的图片与PDF转换的操作都在这里进行定义from multiprocessing import Pool
# 安装fitz需要安装PyMuPDF才能使用
import fitz
import ostmp = r'C:\Users\Downloads\'   #pdf路径export_file=r"D:\new_dates\数据"save_path=r"D:\new_dates\ocr_result"
os.makedirs(export_file,exist_ok=True)
pdf_dir = [i for i in os.listdir(tmp) if os.path.splitext(i)[-1] == ".pdf"]
def pdf_to_jpg(name):# lock.acquire()#拼接pdf的文件路径pwd_name=os.path.join(tmp,name)doc=fitz.open(pwd_name)# 将文件名同我们的保存路径拼接起来(保存图片的文件夹)dir_name=os.path.splitext(name)[0]pdf_name = os.path.join(export_file,  dir_name)# print(pdf_name)temp = 0#(保存图片的文件夹)不存咋则生成# exsitsdir.judge(pdf_name)os.makedirs(pdf_name,exist_ok=True)for pg in range(doc.pageCount):page = doc[pg]temp += 1rotate = int(0)# 每个尺寸的缩放系数为2,这将为我们生成分辨率提高四倍的图像。zoom_x = 2.0zoom_y = 2.0trans = fitz.Matrix(zoom_x, zoom_y).preRotate(rotate)pm = page.getPixmap(matrix=trans, alpha=False)pic_name = '{}.jpg'.format(temp)#拼接生成pdf的文件路径pic_pwd = os.path.join(pdf_name, pic_name)# print(pic_pwd)pm.writePNG(pic_pwd)def main():pool = Pool(10)for i in pdf_dir:res = pool.apply_async(pdf_to_jpg, (i,))pool.close()pool.join()if __name__ == '__main__':main()       #需要pdf切图就开启

二:图片转pdf

#Author:yyzhang56
from PIL import Image
import os
from PyPDF2 import PdfFileReader, PdfFileWriter
# 单张图片转pdf
# img = Image.open('优化.png')
# img.save('pypdf01.pdf', 'PDF')  # 通过PIL库保存为pdf格式# 多张图片转pdf
# ilst = ['D:/docOfStu/pypdf2-mindmap-01.jpg', 'D:/docOfStu/pypdf2-mindmap-02.jpg']  # 图片列表
path=r"C:\Users\Desktop\pdf\tif_pic"
ilst=os.listdir(path)
out_pdf = PdfFileWriter()
sdfs=[os.path.join(path,i) for i in ilst ]
print(sdfs)
for f in sdfs:img = Image.open(f)fw = f.replace('.png', '.pdf')img.save(fw)out_pdf.appendPagesFromReader(PdfFileReader(open(fw, 'rb')))  # 也可拆这句为 sc_pdf=PdfFileReader(open(fw,'rb')); out_pdf.addPage(sc_pdf.getPage(0))
out_pdf.write(open('./pypdf2.pdf', 'wb'))

三:pdf转docx

import os
from pdf2docx import Converter'''
author--yyzhang
'''pdf_path = r"C:\Users\Desktop\pdf\files"  # pdf路径
docx_path = r"C:\Users\Desktop\pdf\docx"  # 保存docx路径
# 如果保存的路径不存在可以自动生成
if os.path.exists(docx_path):pass
else:os.makedirs(docx_path)pdf_files = os.listdir(pdf_path)
# 遍历pdf路径下的文件
for pdf_file in pdf_files:if pdf_file.endswith(".pdf") or pdf_file.endswith(".PDF"):head_name = os.path.splitext(pdf_file)[0]   #获取文件名docx_name = head_name + ".docx"             #创建docx名称file_path = os.path.join(pdf_path, pdf_file)    #获取pdf绝对路径docx_file_path = os.path.join(docx_path, docx_name)   #获取docx绝对路径cv = Converter(file_path)cv.convert(docx_file_path, start=0, end=None)cv.close()


http://www.ppmy.cn/news/803280.html

相关文章

手机html转换为pdf,html转换为pdf(示例代码)

将html转换为pdf的工具有两个:phantomjs和wkhtmltopdf,下面分别对两个工具进行介绍。 phantomjs phantomjs不仅仅只是一个html2pdf的工具,这个是一个Headless WebKit(现在chrome也支持这种模式运行了),可以用来写前端测试等一系列…

java文件转换pdf模糊_java 库将 pdf 文件转换成高清图片方法

近期需要将 pdf 文件转成高清图片,使用库是 pdfbox、fontbox。可以使用 renderimagewithdpi 方法指定转换的清晰度,当然清晰度越高,转换需要的时间越长,转换出来的图片越大,越清晰。 说明:由于 adobo 软件越来越强大,支持的格式越来越多,这造成了 java 软件有些不能转换…

xdf文件转换成pdf_PDF文件转换成PPT演示文稿教程

现在很多的工作都需要做工作总结和报告,我们经常会用到PPT演示文稿来进行会议的演讲和汇总。可是有时候上司或者同事给的一些资料都是PDF文件格式的,因为有一些文件是比较机密的,需要通过加密的PDF文件进行保存。这时候我们应该怎么办呢?大家有没有遇到类似的问题呢?其实解…

如何将 PDF 转换为音频

您有很多 PDF 需要阅读,但没有时间?所以这个解决方案在这篇文章中。您可以将任何 PDF 转换为音频,并在做其他事情的同时收听它。 1.简介 作为学生、科学家或任何喜欢阅读的人。我们几乎每天都阅读 PDF。它可以是一个故事、一本书、一篇论文…

Python爬虫(1)一次性搞定Selenium(新版)8种find_element元素定位方式

selenium中有8种不错的元素定位方式,每个方式和应用场景都不一样,需要根据自己的使用情况来进行修改 8种find_element元素定位方式 1.id定位2.CSS定位3.XPATH定位4.name定位5.class_name定位6.Link_Text定位7.PARTIAL_LINK_TEXT定位8.TAG_NAME定位总结 …

【编程实践】在 Java 中将 PDF 转换为 PowerPoint 演示文稿 / Convert PDF to PowerPoint Presentation in Java

在 Java 中将 PDF 转换为 PowerPoint 演示文稿 / Convert PDF to PowerPoint Presentation in Java When working with PDF files, there are times when you may need to convert PDFs to other office file formats based on different needs. If you are going to present a…

PDF转换word,三种方法在这里

现在生活工作中,大家都经常接触到PDF文件,微信上大家也经常分享PDF文件,工作中大家接触到PDF文件并且还可能需要编辑PDF文件,编辑PDF文件可以使用PDF编辑器,但是有些编辑功能在PDF编辑器上不能实现,可能需要…

如何把pdf文件转换为excel表格

现如今的职场办公当中,每天大量使用得文件格式就是pdf文件。各式各样的文件格式都会转换为pdf文件格式进行保存。因为pdf文件格式安全性高,以pdf格式保存文件内容就不易泄露。可是pdf文件却无法直接进行编辑修改,当把excel表格转化为pdf文件进…