目录
前言
pdf4llm-toc" style="margin-left:0px;">安装Pymupdf4llm
多模态具体应用
API 文档
前言
PymuPDF4llm 是最新推出的pdf提取工具,针对LLM进行了专门优化,它支持markdown提取和LlamaIndex文档输出,可以准确提取pdf中的结构化数据,包括文字/表格/图像/单词,其中文字以markdown的形式提取,图像则以路径的形式插入到文字中并且存储在对应路径中。使用PymuPDF4llm 获取多模态数据后,多模态LLM可以利用各种图文信息来执行更多样的任务,提高应用程序的性能。在试用之后发现文字和图像的识别效果很不错,表格和单词由于场景较少所以暂时没有直观体验。
pdf4llm">安装Pymupdf4llm
pip install pymupdf4llm
简单使用,提取markdown格式文本:
import pymupdf4llm
# 提取 markdown 格式的文本
md_text = pymupdf4llm.to_markdown(doc="input.pdf")
print(md_text)
# 存储为 markdown 格式的文件
import pathlib
output_file = pathlib.Path("output.md")
output_file.write_bytes(md_text.encode())
复杂使用,提取文本、图像、表格、单词并以字典形式保存。扩展 to_markdown 函数的参数:
md_text = pymupdf4llm.to_markdown(doc="input.pdf", # 输入文档
pages = [0, 1, 2], # 选中页码
page_chunks = True, # 进行chunk切分
write_images = True, # 提取图片
image_path = "/content/images", # 图片保存路径
image_format = "jpg", # 图片保存格式
dpi = 200, # 图片分辨率
extract_words = True) # 提取单词
多模态具体应用
更多详细信息可阅读以下实践和api文档
Building a Multimodal LLM Application with PyMuPDF4LLM
API 文档
https://pymupdf.readthedocs.io/en/latest/pymupdf4llm/index.html