PDF转文本以及转图片:itextpdf

news/2025/1/12 21:40:47/

文章目录

  • 🐒个人主页:信计2102罗铠威
  • 🏅JavaEE系列专栏
    • 📖前言:
    • 🎀 1. itextpdf
        • 1.1导入itextpdf的maven依赖
        • 1.2 提取文本代码
        • 1.3 pdf转换成图片代码(本地图片地址还是线上PDF的URL地址均支持)

🐒个人主页:信计2102罗铠威

🏅JavaEE系列专栏

📖前言:

PDF转文本的插件常用的有:pdfbox ,itextpdf 和 spire.pdf 这几个,

pdf_5">🎀 1. itextpdf

pdfmaven_6">1.1导入itextpdf的maven依赖
        <!--2.itexpdf依赖--><dependency><groupId>com.itextpdf</groupId><artifactId>itextpdf</artifactId><version>5.5.13.3</version></dependency>
1.2 提取文本代码
import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;
import java.io.*;public class Main_itextPdf {public static void main(String[] args) throws Exception {System.out.println("------------------------pdf提取文本开始------------------------------");// 2. 加载PDF文件File file = new File("C:/Users/Administrator/Desktop/罗铠威个人简历.pdf");PdfReader reader = new PdfReader(file.getAbsolutePath());// 3. 解析PDF文件,获取页面数据int page = 1; // 获取第一页String text = PdfTextExtractor.getTextFromPage(reader, page);System.out.println(text);// 4. 关闭PdfReaderreader.close();System.out.println("------------------------pdf提取文本结束------------------------------");}
}
pdfPDFURL_41">1.3 pdf转换成图片代码(本地图片地址还是线上PDF的URL地址均支持)
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.*;
import java.net.URL;
import java.net.URLConnection;
import java.util.Scanner;public class Main_itextPdf {public static void main(String[] args) throws Exception {System.out.println("------------------------pdf转图片开始------------------------------");
//        InputStream inputStream = readPdfFromUrl("http://minio.xxxx/xxxx.pdf");//线上的pdf文件InputStream inputStream = new FileInputStream("C:/Users/Administrator/Desktop/罗铠威个人简历.pdf") ;byte[] bytes = streamToByte(inputStream);InputStream newStream = new ByteArrayInputStream(bytes);//将pdf流转换成png图片流InputStream imgStream = pdfToImg(newStream);//存储图片imgStream到桌面ImageIO.write(ImageIO.read(imgStream), "png", new File("C:/Users/Administrator/Desktop/1.png"));System.out.println("------------------------pdf转图片结束------------------------------");}//支持线上pdf文件地址urlpublic static InputStream readPdfFromUrl(String pdfUrl) throws IOException {URL url = new URL(pdfUrl);URLConnection connection = url.openConnection();BufferedInputStream bufferedInputStream = new BufferedInputStream(connection.getInputStream());return bufferedInputStream;}public static ByteArrayInputStream pdfToImg(InputStream pdfStream) throws Exception {// 将 InputStream 转换为 PDDocumentPDDocument document = PDDocument.load(pdfStream);// 创建 PDFRenderer 对象PDFRenderer pdfRenderer = new PDFRenderer(document);// 选择第一页面来生成图片// 可以根据需要改成遍历所有页面并保存BufferedImage bufferedImage = pdfRenderer.renderImageWithDPI(0, 300); // 0 表示第一页,300 DPI 提供高质量图像// 将 BufferedImage 转换为 InputStreamByteArrayOutputStream byteArrayOutputStream = new ByteArrayOutputStream();ImageIO.write(bufferedImage, "PNG", byteArrayOutputStream);document.close();// 返回一个新的 InputStreamreturn new ByteArrayInputStream(byteArrayOutputStream.toByteArray());}public static byte[] streamToByte(InputStream inputStream) throws Exception {ByteArrayOutputStream buffer = new ByteArrayOutputStream();int nRead;byte[] data = new byte[1024];while ((nRead = inputStream.read(data, 0, data.length)) != -1) {buffer.write(data, 0, nRead);}buffer.flush();return buffer.toByteArray();}}

http://www.ppmy.cn/news/1562607.html

相关文章

机器学习之基本概念 - 数据集、训练集、特征向量、独立同分布的

机器学习是对能通过经验自动改进的计算机算法的研究. ——汤姆米切尔(Tom Mitchell)[Mitchell, 1997] 思考一个问题&#xff1a; 如何让计算机能自动识别手写的数字&#xff1f; ————------------------———————分割线—————————————————-------…

Excel如何分区设置密码,一个区域一个密码,数据收集时使用太方便了

大家好&#xff0c;我是小鱼。 很多小伙伴在使用Excel表格的时候&#xff0c;有可能需要为不同的区域设置不同的密码&#xff0c;比如搜集公司不同的部门&#xff0c;或者学校不同的班级的信息时&#xff0c;为了使收集的信息不被别人改动&#xff0c;这时就需要为他们各自设置…

apache age:22023,42883,等报错信息

apache age 各种类型不匹配 函数找不到 以下是对Apache AGE、PostgreSQL以及Cypher语法的详细介绍: 一、Apache AGE 定义:Apache AGE(A Graph Extension)是一个基于PostgreSQL的图数据库扩展插件。它结合了PostgreSQL的先进SQL查询功能和事务支持,以及图数据库的灵活性和…

HDFS编程 - 使用HDFS Java API进行文件操作

文章目录 前言一、创建hdfs-demo项目1. 在idea上创建maven项目2. 导入hadoop相关依赖 二、常用 HDFS Java API1. 简介2. 获取文件系统实例3. 创建目录4. 创建文件4.1 创建文件并写入数据4.2 创建新空白文件 5. 查看文件内容6. 查看目录下的文件或目录信息6.1 查看指定目录下的文…

YOLOv10-1.1部分代码阅读笔记-ops.py

ops.py ultralytics\utils\ops.py 目录 ops.py 1.所需的库和模块 2.class Profile(contextlib.ContextDecorator): 3.def segment2box(segment, width640, height640): 4.def scale_boxes(img1_shape, boxes, img0_shape, ratio_padNone, paddingTrue, xywhFalse): …

SpringBoot操作spark处理hdfs文件

SpringBoot操作spark处理hdfs文件 1、导入依赖 <!-- spark依赖--><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.12</artifactId><version>3.2.2</version></dependency><depend…

《PC 上的开源神经网络多模态模型:开启智能交互新时代》

《PC 上的开源神经网络多模态模型&#xff1a;开启智能交互新时代》 一、引言二、多模态模型基础剖析&#xff08;一&#xff09;核心概念解读&#xff08;二&#xff09;技术架构探秘 三、开源多模态模型的独特魅力&#xff08;一&#xff09;开源优势尽显&#xff08;二&…

【面试题】简单聊一下什么是云原生、什么是k8s、容器,容器与虚机相比优势

云原生&#xff08;Cloud Native&#xff09; 定义&#xff1a;云原生是一种构建和运行应用程序的方法&#xff0c;旨在充分利用云计算的优势。它涵盖了一系列技术和理念&#xff0c;包括容器化、微服务架构、自动化部署与管理等。特点&#xff1a;云原生应用程序被设计为可弹性…