推荐使用 pdf2htmlEX(因为确实做的比较全)
pdf2htmlEX
是一个开源工具,可以将PDF文件转换为HTML文件。你需要先安装pdf2htmlEX
工具,并确保它在你的系统路径中可用。(花时间最多就是找包)
-
安装
pdf2htmlEX
可以从 pdf2htmlEX的GitHub页面 下载和安装。(下载特别慢)
-
我自己创建一个库pdf2htmlEX 方便下载;(主要适用于linux环境,需要一点点编译)
-
Java window环境可以参考编译好的包(百度云盘方便大家下载)
链接:https://pan.baidu.com/s/1-w4nnuYu8OyaI61QR7AImg 提取码:ipe4
使用Java调用 pdf2htmlEX
你可以通过Java的 Runtime
或 ProcessBuilder
来调用 pdf2htmlEX
工具。
public static void convertPdfToHtml(String pdfPath, String htmlPath) {List list = new ArrayList();list.add("cmd.exe");list.add("/c");list.add("C:\\wp\\project\\pdf2htmlEX\\pdf2htmlEX\\pdf2htmlEX.exe");list.add("\"" + pdfPath + "\"");list.add("\"" + htmlPath + "\"");ProcessBuilder processBuilder = new ProcessBuilder(list);try {Process process = processBuilder.start();BufferedReader reader = new BufferedReader(new InputStreamReader(process.getInputStream()));String line = "";while ((line = reader.readLine()) != null) {System.out.println(line);}process.waitFor();System.out.println("PDF conversion completed.");} catch (IOException | InterruptedException e ) {System.out.println("应用程序不存在!");e.printStackTrace();}}
public static void main(String[] args) {String pdfFilePath = "test.pdf";String xmlFilePath = "wptest.html";EscapeUtil.convertPdfToHtml(pdfFilePath,xmlFilePath);}
执行之后的效果 PDF文件
生成html的文件
个人有一些开源项目 北斗位置服务平台(GPS跟踪平台)