什么是标记 PDF(Tagged PDF)?

news/2025/3/3 17:08:09/

什么是标记 PDF(Tagged PDF)?

标记 PDF 是一种包含额外信息的 PDF 文件,这些信息用于定义文档的结构(如文本流、标题、表格、段落等)。这非常有用,因为它可以使内容更加可访问(文本流明确定义后,可以用于屏幕阅读器朗读),同时也便于内容的重用和处理。标记 PDF 文件的内容可以通过许多库(包括我们的 JPedal PDF 库)提取为 XML/HTML。

 

所有 PDF 文件都是标记 PDF 吗?

很遗憾,并不是。目前只有大约 20% 的 PDF 文件是标记 PDF,而其余的大部分文件在可用性方面要差得多。标记 PDF 只能在创建 PDF 文件时启用,无法在之后添加。过去,人们反对标记 PDF 的理由是它会使文件体积稍大一些。但在当今存储空间以 TB 计算的时代,相比于文件略小,标记 PDF 带来的可访问性、可搜索性和可重用性价值显然更重要,因此这个理由已经不再成立。

 

哪些 PDF 创建工具可以生成正确的标记 PDF?

LibreOffice、Microsoft Office、InDesign 和 Acrobat 都可以创建标记 PDF 文件(但需要确保已启用相关设置)。如果您想检查自己的 PDF 文件是否包含标记内容,可以阅读我们的文章 《如何判断 PDF 文件是否具有结构化内容》。

 

请使用标记 PDF 文件!

我们强烈建议 始终 创建标记 PDF 文件。即使您现在觉得无所谓,但在未来,它会让您的 PDF 文件更容易使用。

 

我们的主页:PDF 转 HTML5、Java 图像库、Java PDF SDK - IDRsolutions

 


http://www.ppmy.cn/news/1576335.html

相关文章

[特殊字符]【CVPR2024新突破】Logit标准化:知识蒸馏中的自适应温度革命[特殊字符]

文章信息 题目:Logit Standardization in Knowledge Distillation论文地址:paper代码地址:code年份:2024年发表于CVPR 文章主题 文章的核心目标是改进知识蒸馏(KD)中的一个关键问题:传统KD方…

UDP接收方法使用Task替代Thread(解决关闭程序未响应的问题)

UDP接收方法使用Task替代Thread(解决关闭程序未响应的问题) 1 前言1.1 问题原因及解决方案1.2 Unity主线程被阻塞的原因和解决办法1.3 在Unity中,Task 和 Thread的区别1.4 在WinForm和Unity中使用Thread和Task的区别 2 代码示例2.1 Thread 接…

多元数据直观表示(R语言)

一、实验目的: 通过上机试验,掌握R语言实施数据预处理及简单统计分析中的一些基本运算技巧与分析方法,进一步加深对R语言简单统计分析与图形展示的理解。 数据: 链接: https://pan.baidu.com/s/1kMdUWXuGCfZC06lklO5iXA 提取码: …

避坑!用Docker搞定PHP开发环境搭建(Mac、Docker、Nginx、PHP-FPM、XDebug、PHPStorm、VSCode)

本次更新主要是对环境版本进行了更新,例如php 7.3.7升级到了7.3.8,另外之前的版本有同学踩了坑,主要是官方docker镜像php:7.3.7-fpm和php:7.3.8-fpm使用了不同版本的debian,后面会提到,请各位同学留意。 因为最近换电脑…

【vue-echarts】——01.认识echarts

文章目录 前言一、echarts二、使用步骤1.vue cli创建项目并安装第三方模块echarts2.显示图表总结前言 定制的数据可视化图表。ECharts最初由百度团队开源,并于2018年初捐赠给Apache基金会,成为ASF孵化级项目。2021年1月26日晚,Apache基金会官方宣布ECharts项目正式毕业。 一…

动态内存池设计与环形缓冲区实现详解

一、动态内存池设计 在嵌入式系统中,频繁使用 malloc 和 free 会导致内存碎片和性能问题。动态内存池通过预分配固定大小的内存块,并统一管理分配与释放,显著提高内存使用效率和实时性。 静态内存分配:在编译时确定大小&#xf…

实现dify与docker下载安装

1.先要下载安装wsl ,先在任务面板进行一些勾选操作,控制面板快捷键ctrlx 2.下载安装wsl 在cmd中输入 wsl --status,如果报错则进行wsl --update,下载过慢则先按ctrlc终止程序,后输入wsl --update -web download 3.下…

LabVIEW 项目长时间稳定运行注意事项

利用 LabVIEW 开发的上位机显示界面通过网络与数字板实现数据通讯,运行一周左右会出现一次数据掉线(数据采集不上来),需重新 Connect 才能恢复的问题。 出现这种情况,可能是以下几方面原因导致: 网络通讯方…