GitHub开源的PDF管理工具Stirling-pdf

ops/2024/9/24 14:53:09/

Stirling pdf

    • 手动搭建
    • docker搭建

官网:https://github.com/Stirling-Tools/Stirling-PDF

手动搭建

Ubuntu2404环境

安装所需软件包

apt install -y git  automake  autoconf  libtool  libleptonica-dev  pkg-config zlib1g-dev make g++ openjdk-21-jdk python3 python3-pip

克隆并构建 jbig2enc,如果拉取失败,可以去gitlab下载,再上传

mkdir ~/.git
cd ~/.git &&\
git clone https://github.com/agl/jbig2enc.git &&\
cd jbig2enc &&\
./autogen.sh &&\
./configure &&\
make &&\
sudo make install

安装 LibreOffice 用于转换,安装 ocrmypdf 用于 OCR,以及安装 opencv 用于模式识别功能

apt install -y libreoffice-writer libreoffice-calc libreoffice-impress unpaper ocrmypdf pip3 install uno opencv-python-headless unoconv pngquant WeasyPrint --break-system-packages

克隆并构建 Stirling-PDF

cd ~/.git &&\
git clone https://github.com/Stirling-Tools/Stirling-PDF.git &&\
cd Stirling-PDF &&\
chmod +x ./gradlew &&\
./gradlew build

如果报超时:就手动下载/gradle-8.7-bin.zip,然后上传到Stirling-PDF,执行./gradlew build
Exception in thread “main” java.io.IOException: Downloading from https://services.gradle.org/distributions/gradle-8.7-bin.zip failed: timeout

构建过程完成后,目录.jar中将生成一个文件build/libs。可以将此文件移动到所需位置,例如/opt/Stirling-PDF/。还必须将下载的 Stirling-PDF 存储库中的脚本文件夹移动到此目录。使用 OpenCV 的 Python 脚本需要此文件夹

mkdir /opt/Stirling-PDFmv ./build/libs/Stirling-PDF-*.jar /opt/Stirling-PDF/mv scripts /opt/Stirling-PDF/

安装语言包

apt install -y 'tesseract-ocr-*'

运行 Stirling-PDF,两者皆可

./gradlew bootRun
java -jar /opt/Stirling-PDF/Stirling-PDF-*.jar

如果出现
[Thread-7] INFO s.s.SPDF.utils.ProcessExecutor - mkdir: cannot create directory ‘/run/user/1501’: Permission denied
则配置

mkdir temp
export DBUS_SESSION_BUS_ADDRESS="unix:path=./temp"

重新启动

java -jar ./Stirling-PDF-*.jar

界面访问:IP:8080
在这里插入图片描述
测试

在这里插入图片描述

可选:将 Stirling-PDF 作为服务运行

创建一个.env 文件,可以在其中存储环境变量

touch /opt/Stirling-PDF/.env
vim /etc/systemd/system/stirlingpdf.service
[Unit]
Description=Stirling-PDF service
After=syslog.target network.target[Service]
SuccessExitStatus=143User=root
Group=rootType=simpleEnvironmentFile=/opt/Stirling-PDF/.env
WorkingDirectory=/opt/Stirling-PDF
ExecStart=/usr/bin/java -jar Stirling-PDF-0.17.2.jar
ExecStop=/bin/kill -15 $MAINPID[Install]
WantedBy=multi-user.target
systemctl daemon-reload
systemctl start stirlingpdf.service
systemctl stop stirlingpdf.service
systemctl restart stirlingpdf.service

docker搭建

Ubuntu配置docker环境

apt -y install apt-transport-https ca-certificates curl software-properties-commoncurl -fsSL https://mirrors.aliyun.com/docker-ce/linux/ubuntu/gpg | sudo apt-key add -add-apt-repository "deb [arch=amd64] https://mirrors.aliyun.com/docker-ce/linux/ubuntu $(lsb_release -cs) stable"apt-get -y install docker-ce

设置开机自启

systemctl enable --now docker

拉取镜像

docker pull frooodle/s-pdf:latest

docker直接run

docker run -d \-p 8080:8080 \-v ./trainingData:/usr/share/tessdata \-v ./extraConfigs:/configs \-v ./logs:/logs \-e DOCKER_ENABLE_SECURITY=false \-e INSTALL_BOOK_AND_ADVANCED_HTML_OPS=false \-e LANGS=en_GB \--name stirling-pdf \frooodle/s-pdf:latest 

或者compose也可

version: '3.3'
services:stirling-pdf:image: frooodle/s-pdf:latestports:- '8080:8080'volumes:- ./trainingData:/usr/share/tessdata #Required for extra OCR languages- ./extraConfigs:/configs
#      - ./customFiles:/customFiles/
#      - ./logs:/logs/environment:- DOCKER_ENABLE_SECURITY=false- INSTALL_BOOK_AND_ADVANCED_HTML_OPS=false- LANGS=en_GB

界面直接访问:IP:8080


http://www.ppmy.cn/ops/99045.html

相关文章

入门re 正则表达式

1.字符匹配: a:匹配字符 a。 abc:匹配字符串 abc。 import reresult re.search(r"a", "abcabcd", re.I) print(result, type(result), result.start(), result.end(), result.group())result re.findall(r"abc…

HTTP?HTTPS?HTTP2.0

Http HTTP(HyperText Transfer Protocol,超文本传输协议)是一种用于分布式、协作式、超媒体信息系统的应用层协议。它基于TCP/IP通信协议来传递数据,如HTML文件、图片文件等。以下是HTTP的详细解析: 一、HTTP的基本…

C++中如何将类的非静态成员函数绑定到函数指针上

简介 在c11中,可以通过std::bind将非静态成员函数绑定到function对象上,但是如何绑定到c中的函数指针上,可以借助function 实现 简单实现 typedef int (*ProcessCallbackT)(int, int); void register_with_library(ProcessCallbackT func…

【数据结构】链表

目录 1.链表的概念及结构 2.单链表的实现 2.1 SLTPrint()打印链表 2.2 SLTBuyNode() 申请空间 2.3 SLTPushBack() 尾插 2.4 SLTPushFront() 头插 2.5 SSLTPopBack() 尾删 2.6 SLTInesert(…

进阶SpringBoot之 Druid 数据源

Druid 是开源平台上一个数据库连接池实现&#xff0c;具备日志监控功能 Druid 可以很好的监控 DB 连接池和 SQL 的执行情况&#xff0c;天生就是针对监控而生的 DB 连接池 Maven 仓库 pom.xml 文件导入 Durid 的 jar 包 <!-- Druid依赖 --><dependency><grou…

【超实用!】一文搞懂Transformer原理!‍✨

Hey小伙伴们&#xff01;&#x1f44b; 今天要和大家分享一个超酷的技术点&#xff1a;Transformer模型的原理&#xff01;如果你对深度学习和自然语言处理感兴趣&#xff0c;那么这篇文章绝对不容错过&#xff01;&#x1f469;‍&#x1f4bb;✨ &#x1f4da; Transformer是…

flutter 中 ssl 双向证书校验

SSL 证书&#xff1a; 在处理 https 请求的时候&#xff0c;通常可以使用 中间人攻击的方式 获取 https 请求以及响应参数。应为通常我们是 SSL 单向认证&#xff0c;服务器并没有验证我们的客户端的证书。为了防止这种中间人攻击的情况。我么可以通过 ssl 双向认证的方式。即…

设计模式-结构性模式-桥接模式

1.桥接模式定义 桥接模式就是将抽象部分与他的实现部分分离&#xff0c;使他们都可以独立的变化&#xff1b; 桥接模式用一种巧妙地方式处理多层继承存在的问题&#xff0c;用抽象关联来取代传统的多层继承&#xff0c;将类之间的静态继承关系转变为动态的组合关系&#xff0c;…