python 获取pdf文件中的超链接

news/2024/9/23 22:35:16/
python">pip install pymupdf
pip install fitzimport fitz  # PyMuPDFdef get_pdf_links(pdf_path):# 打开PDF文件document = fitz.open(pdf_path)links = []for page_num in range(len(document)):page = document[page_num]# 获取当前页面的链接for link in page.get_links():links.append((page_num, link))document.close()return links
link=get_pdf_links(pdf_path)
print(link)

如图所示
在这里插入图片描述

这段代码会打开指定的PDF文件,遍历每一页,并获取每一页上的超链接。每个链接是一个元组,包含页码(从0开始)和链接的字符串


http://www.ppmy.cn/news/1511380.html

相关文章

基于 Airtest 的 APP 爬取实战

爬取APP :https://app5.scrape.center 思路分析 遍历首页已有的所有电影条目, 一次模拟点击每个电影条目,进入详情页 爬取详情页的数据,之后模拟点击回退按钮返回首页 当首页已有的电影条目即将爬取完毕时, 模拟上…

mac如何查看shell是 zsh还是bash

怎么确定mac使用的 shell类型 在终端中输入echo $0命令查看你所使用的 shell(默认使用的zsh) echo $0# 或者 echo $SHELL 如果是 bash 配置文件则为:~/.bash_profile 是 zsh,则配置文件为:~/.zshrc 如何更改默认 S…

一键切换全球优质Linux 系统软件源及 Docker 源,轻松安装 Docker —— 适配广泛、零门槛、超强功能的开源脚本!

概述 linuxMirrors开源脚本为 GNU/Linux 系统用户提供了强大的工具,帮助用户轻松更换系统软件源并安装 Docker。脚本适配了多种国内外镜像站,经过测试具备良好的下载速度和 IPv6 兼容性,并且还包括了中国大陆教育网镜像站的选项。无需技术背景,文档提供了详尽的操作指引和常…

【Linux】【系统纪元】Linux基础指令

快乐的流畅:个人主页 个人专栏:《C游记》《进击的C》《Linux迷航》 远方有一堆篝火,在为久候之人燃烧! 文章目录 引言一、文件管理1.1 ls1.2 pwd1.3 cd1.4 mkdir1.5 touch1.6 rm1.7 cp1.8 mv 二、文件输出2.1 echo2.2 cat2.3 less…

R 语言学习教程,从入门到精通,R CSV 文件使用(17)

1、R CSV 文件 R 作为统计学专业工具,如果只能人工的导入和导出数据将使其功能变得没有意义,所以 R 支持批量的从主流的表格存储格式文件(例如 CSV、Excel、XML 等)中获取数据。 1.1、CSV 表格交互 CSV(Comma-Separ…

RabbitMQ-消息队列之routing使用

1、安装rabbitmq 怎么安装rabbitmq请查看之前课程,如果已经安装,请略过此步。 2、创建vendor文件夹或是直接采用PHP框架 mkdir vendor 3、进入文件 cd vendor 4、安装php扩展 composer require php-amqplib/php-amqplib 5、进入上级创建routing文…

Linux使用技巧(一) - SCP 传输文件

简介 scp(Secure Copy Protocol)是 Linux 和 Unix 系统中用于在本地和远程之间安全地传输文件的工具。它基于 SSH(Secure Shell)协议进行文件传输,从而确保数据在传输过程中的安全性和完整性。scp 命令的基本语法如下…

【nginx】nginx的核心模块配置

Nginx 账户认证功能 由 ngx_http_auth_basic_module 模块提供此功能 [rootNginx ~]# htpasswd -cmb /usr/local/nginx/conf/.htpasswd admin lee #-b 表 示非交互建立用户认证 Adding password for user admin [rootNginx ~]# htpasswd -mb /usr/local/nginx/conf/.htpasswd…