pdf2htmlEX:pdf 转 html,医学指南精细化处理第一步

devtools/2024/9/24 10:04:01/

html" title=pdf>pdf2htmlEX:html" title=pdf>pdf 转 html,医学指南精细化处理第一步

      • 单文件转换
      • 多文件转换

 


代码:https://github.com/coolwanglu/html" title=pdf>pdf2htmlEX

拉取html" title=pdf>pdf2htmlEX 的 Docker:

docker pull bwits/html" title=pdf>pdf2htmlex
# 拉取 bwits/html" title=pdf>pdf2htmlex

不用进入容器,直接创建 3 个 文件夹

mkdir html" title=pdf>pdf2html
mkdir html" title=pdf>pdf2html/html" title=pdf>pdf_files    # 所有需要转换的html" title=pdf>pdf
mkdir html" title=pdf>pdf2html/html_files   # 用于存放转换好的 html 文件

单文件转换

  • html" title=pdf>pdf_files 文件夹下面有一个 test_1.html" title=pdf>pdf,运行命令:
docker run -ti --rm -v ~/html" title=pdf>pdf2html:/html" title=pdf>pdf2html bwits/html" title=pdf>pdf2htmlex html" title=pdf>pdf2htmlEX --dest-dir /html" title=pdf>pdf2html/html_files /html" title=pdf>pdf2html/html" title=pdf>pdf_files/test_1.html" title=pdf>pdf

 

多文件转换

Docker命令本身并不支持在单个命令中处理多文件或使用通配符执行迭代。因此,您需要使用一些shell脚本逻辑来达到这个目的。

以下是一个在Linux环境下使用bash脚本处理目录中所有PDF文件的方法。

这段脚本将迭代 html" title=pdf>pdf_files 目录中的所有PDF文件,并对每个文件运行 bwits/html" title=pdf>pdf2htmlex 容器:

#!/bin/bash# 设定本地PDF文件的目录
PDF_DIR="/home/bobuser/html" title=pdf>pdf2html/html" title=pdf>pdf_files"# 设定HTML输出目录
HTML_DIR="/home/bobuser/html" title=pdf>pdf2html/html_files"# 遍历html" title=pdf>pdf_files目录中的所有PDF文件
for html" title=pdf>pdf in "$PDF_DIR"/*.html" title=pdf>pdf; doecho "转换文件:$(basename "$html" title=pdf>pdf")"# 运行Docker命令来转换当前PDF文件docker run -ti --rm -v /home/bobuser/html" title=pdf>pdf2html:/html" title=pdf>pdf2html bwits/html" title=pdf>pdf2htmlex html" title=pdf>pdf2htmlEX --dest-dir /html" title=pdf>pdf2html/html_files "/html" title=pdf>pdf2html/html" title=pdf>pdf_files/$(basename "$html" title=pdf>pdf")"
doneecho "所有PDF文件转换完成。"

将上述脚本保存到一个文件中,比如命名为 convert_html" title=pdf>pdfs.sh,然后执行以下步骤:

  1. 给予脚本执行权限:
    chmod +x convert_html" title=pdf>pdfs.sh
    
  2. 执行脚本:
    ./convert_html" title=pdf>pdfs.sh
    

这段脚本将对 html" title=pdf>pdf_files 目录中的每个PDF文件执行 html" title=pdf>pdf2htmlEX 命令,将结果输出到 html_files 目录。

这种方法假设所有PDF文件都存储在 /home/bobuser/html" title=pdf>pdf2html/html" title=pdf>pdf_files 目录中,并且输出的HTML文件将存储在 /home/bobuser/html" title=pdf>pdf2html/html_files 目录中。

 


转换后:

在这里插入图片描述


http://www.ppmy.cn/devtools/38477.html

相关文章

AI绘画Stable Diffusion 插件篇:智能标签提示词插件sd-danbooru-tags-upsampler

大家好,我是向阳。 关于智能标签提示词插件,在很早之前就介绍过很多款了,今天再给大家介绍一款智能标签提示词插件sd-danbooru-tags-upsampler。该智能提示词插件是今年2月23号才发布的第一版V0.1.0,算是比较新的智能提示词插件。…

前端面试题 | 常考题整理

本文为面试中出现的高频次考题,具体还是要看所有题。 目录 css 1、☆介绍下 BFC 及其应用 3、☆浮动清除 17、☆说几个未知宽高元素水平垂直居中方法 js 9、☆箭头函数与普通函数的区别是什么?构造函数可以使用 new 生成实例,那么箭头…

Python基础学习之sys模块

在Python编程中,sys模块是一个非常重要的内置模块,它提供了与Python解释器及其环境(如命令行参数、标准输入输出流等)进行交互的接口。今天,我们就来详细探讨一下sys模块的常见用法和功能。 导入sys模块 首先&#x…

【神经网络】08 - 损失函数反向传播

08 - 损失函数&反向传播 概念 损失函数 损失函数:在深度学习模型中,损失函数(Loss Function)是一种衡量模型预测与真实值之间差距的函数。换句话说,它是模型的性能指标。在训练过程中,我们的目标就是…

「 网络安全常用术语解读 」通用配置枚举CCE详解

1. 背景介绍 NIST提供了安全内容自动化协议(Security Content Automation Protocol,SCAP)为漏洞描述和评估提供一种通用语言。SCAP组件包括: 通用漏洞披露(Common Vulnerabilities and Exposures, CVE):提供一个描述…

Apple 发布新款 iPad Pro 和 iPad Air:性能和设计的巨大飞跃

Apple 发布新款 iPad Pro 和 iPad Air:性能和设计的巨大飞跃 概述 苹果公司最近的“Let Loose”活动在科技界掀起了轩然大波,推出了最新的 iPad Pro 和 iPad Air 型号,在性能、设计和功能方面取得了前所未有的改进。在本文中,我…

UE5自动生成地形一:地形制作

UE5自动生成地形一:地形制作 常规地形制作地形编辑器地形管理添加植被手动修改部分地形的植被 置换贴图全局一致纹理制作地貌裸露岩石地形实例 常规地形制作 地形制作入门 地形导入部分 选择模式:地形模式。选择地形子菜单:管理->导入 …

【Qt】常用控件(一)

文章目录 一、核心属性1、enabled代码示例: 通过按钮2 切换按钮1 的禁用状态 2、geometry代码示例: 控制按钮的位置代码示例:window frame 的影响代码示例: 感受 geometry 和 frameGeometry 的区别 3、windowTitle4、windowIcon代码示例: 通过 qrc 管理图片作为图标…