langchain入门系列之六 使用langchain构建PDF解析助手

news/2024/9/18 21:00:59/ 标签: langchain, pdf, chatgpt

本文将介绍如何使用langchain构建一个pdf解析助手,在此文中你将学习到langchain如何与web应用(fastapi)相结合,向量持久化等知识,话不多说,现在开始。

安装环境

pip install fastapi
pip install python-dotenv 
pip install uvicorn

直接在pycharm新建一个fastapi项目也可!
python-dotenv 管理环境变量,我们会将llm的一些相关变量放在其中。
新建一个.env文件

touch .env
-------------------
在.env 文件中放入千帆相关参数:
QIANFAN_AK = "your key"
QIANFAN_SK = "your secret key"

项目结构图:
在这里插入图片描述

langchain_20">新建一个langchain文件
from langchain.document_loaders import PyPDFLoader
from langchain.vectorstores import Chroma
from langchain.embeddings import QianfanEmbeddingsEndpoint
from langchain.text_splitter import RecursiveCharacterTextSplitter
from dotenv import load_dotenv
# 加载环境变量
load_dotenv()
# 创建embedding模型
embeddings_model = QianfanEmbeddingsEndpoint()
embedding = QianfanEmbeddingsEndpoint()
persist_directory = f'本地持久化路径'# 解析pdf并保存到本地向量数据库中
def save_pdf(file_path, file_name):loader = PyPDFLoader(file_path)# 分割text_spliter = RecursiveCharacterTextSplitter(chunk_size=200,chunk_overlap=5,  # 每个块之间的重叠长度length_function=len,)pages = loader.load_and_split(text_spliter)persist_path = persist_directory + file_name# 持久化到本地Chroma.from_documents(documents=pages,embedding=embedding,persist_directory=persist_path)# 加载向量索引
def load_index(file_name):persist_path = persist_directory + file_nameprint(persist_path)index = Chroma(persist_directory=persist_path, embedding_function=embedding)return index# 在向量中查询
def query(index, question):idx = load_index(index)return len(idx.similarity_search(question))

这个文件我们主要用来解析和保存pdf文件,其中query用来查询pdf文件内容有多少与查询内容相关的内容个数,你也可以调用parse相关函数解析成str或list返回。

pdf_67">fastapi上传pdf文件接口
import logging
import os
from pydantic import BaseModel
from fastapi import FastAPI
from typing import Annotated
from fastapi import File, Form, UploadFile
from langchain_helper import save_pdf, query@app.post("/upload")
async def upload_file(file: Annotated[UploadFile, File()],index_name: Annotated[str, Form()]
):file_upload_target_path = os.path.join(os.getcwd(), file.filename)with open(file_upload_target_path, "wb+") as f:f.write(file.file.read())save_pdf(file_upload_target_path, index_name)return {"message": f"File uploaded successfully", "file_name": file.filename, "index_name": index_name}

这个接口就是上传pdf,并调用我们上面写的解析和保存pdf的方法,完成pdf的向量持久化。
接口调用成功,成功上传pdf并保存
在这里插入图片描述

fastapi查询接口
class Query(BaseModel):index_name: strquery_question: str@app.post("/search")
def query_index(request: Query):logging.info("--------------------------------------")index_name = request.index_namequery_question = request.query_questionlogging.info(f"index_name: {index_name}, question: {query_question}")return query(index_name, query_question)

这里的index_name与上一个上传接口的index_name相同!
调用成功,成功返回内容!
在这里插入图片描述
以上就是langchain解析pdf保存在本地,通过web 接口查询相关内容,这是一个很简单的示例,希望能够做到抛砖引玉,通过以前的文章,在此基础上,我们可以使用langchain玩出更多花活,比如我们在查找书中某些内容的时候,同时让langchain解析其中内容以解惑。


http://www.ppmy.cn/news/1518096.html

相关文章

智能优化特征选择|基于鹦鹉优化(2024年新出优化算法)的特征选择(分类器选用的是KNN)研究Matlab程序 【优化算法可以替换成其他优化方法】

智能优化特征选择|基于鹦鹉优化(2024年新出优化算法)的特征选择(分类器选用的是KNN)研究Matlab程序 【优化算法可以替换成其他优化方法】 文章目录 一、PO基本原理PO基本原理基本流程示例应用 二、实验结果三、核心代码四、代码获…

苹果 iOS / iPadOS 18 beta8和iOS / iPadOS 18.1 beta3版本更新

苹果今日向iPhone和iPad用户推送了 iOS / iPadOS 18 开发者预览版 Beta 8 更新(内部版本号:22A5350a)和iOS / iPadOS 18.1 开发者预览版 Beta 3 更新(内部版本号:22B5034e),本次更新距离上次发布…

c语言(二叉树)

第4章 二叉树和BST 树与二叉树 基本概念 树是一种非线性结构,其严格的数学定义是:如果一组数据中除了第一个节点(第一个节点称为根节点,没有直接前驱节点)之外,其余任意节点有且仅有一个直接前驱&#xff…

华为OD机试(C卷,200分)- 园区参观路径

题目描述 园区某部门举办了Family Day,邀请员工及其家属参加; 将公司园区视为一个矩形,起始园区设置在左上角,终点园区设置在右下角; 家属参观园区时,只能向右和向下园区前进,求从起始园区到终点园区会有多少条不同的参观路径。 输入描述 第一行为园区的长和宽; 后…

为什么要选择JDK15.0.2

JDK16开始,Oracle移除了JDK中JavaSE的很多类。导致我们用IDK15以后的版本做项目,Maven导入的一些第三方依赖会出现找不到ava工具类的情况,而且更有甚者异常信息也不会提示找不到哪些类,直接就报运行错误。这就让我们调试程序无从下…

【软件文档】软件质量保证计划书(Word完整版)

1 概述 2 质量目标 3 项目基本情况 4 资源 4.1 人员 4.1.1 组织结构 4.1.2 职责 4.2 工具及设施 5 质量保证的主要工作 6 质量保证工作量估算 7 质量保证工作提交的产物 8 变更管理 9 评价标准 10 形成的记录 软件全套资料部分文档清单: 工作安排任务书,…

aspose.pdf实现图片转pdf

/*** 图片转pdf*/ public static void ImagesToPdf(){String folderPath "D:\\Desktop\\xuanku";File folder new File(folderPath);List<String> images new ArrayList<>();// 检查文件夹是否存在if (folder.exists() && folder.isDirectory…

【论文速读】| ARVO: 开源软件可重现漏洞的全景图

本次分享论文&#xff1a;ARVO: Atlas of Reproducible Vulnerabilities for Open Source Software 基本信息 原文作者&#xff1a;Xiang Mei, Pulkit Singh Singaria, Jordi Del Castillo, Haoran Xi, Abdelouahab (Habs) Benchikh, Tiffany Bao, Ruoyu Wang, Yan Shoshitai…

js基础速成-条件语句

条件语句 条件语句用于根据不同的条件做出决策。 默认情况下&#xff0c;JavaScript 中的语句是从上到下顺序执行的。如果处理逻辑需要&#xff0c;可以通过两种方式改变执行的顺序&#xff1a; 条件执行&#xff1a;如果某个表达式为真&#xff0c;将执行一个或多个语句的代…

一起搭WPF之列表数据绑定

一起搭WPF之列表数据绑定 1 前言2 数据绑定2.1 前端2.2 后端实现2.2.1 界面后台2.2.2 模型与逻辑 3 问题3.2 解决 总结 1 前言 之前已经简单介绍了列表的大致设计&#xff0c;在设计完列表界面后&#xff0c;我们可以开展列表的数据绑定&#xff0c;在前端显示我们的数据&…

房产报备小程序房产报备系统源码搭建方案

房产客户报备小程序开发&#xff0c;php开发语言&#xff0c;前端是uniapp。 房产报备小程序三个端&#xff1a;报备端&#xff08;经纪人报备客户&#xff09;&#xff0c;确客端&#xff08;员工确认报备的客户&#xff09;&#xff0c;管理后台 一 报备端 经纪人报备客户…

特异性心肌细胞靶向肽(PCM);WLSEAGPVVTVRALRGTGSW;CAS:771479-86-8

【特异性心肌细胞靶向肽(PCM) 简介】 特异性心肌细胞靶向肽&#xff08;PCM&#xff09;是一种设计用于识别和结合心肌细胞特有的受体或分子标记的多肽序列。PCM可以通过其氨基酸序列的特定配置和表面特性实现对心肌细胞的选择性靶向&#xff0c;从而在心脏病治疗中递送药物、作…

Linux文件编程(进阶)

文章目录 Linux文件编程内核数据结构重定向dup2函数代码示例&#xff1a;将定义为输入重定向符号&#xff0c;将-定义为输出重定向符号 fcntl函数代码示例&#xff1a;使用O_APPEND标志位保证原子操作 I/O处理方式代码示例&#xff1a;阻塞I/O模型代码示例&#xff1a;非阻塞I/…

Nosql数据库redis集群配置详解

一、Redis的安装 环境介绍&#xff1a; 一主双从&#xff1a;10&#xff08;redis-node1&#xff09;主&#xff0c;20&#xff08;redis-node2&#xff09; 30&#xff08;redis-node3&#xff09;从——使用的是红帽9.1系统 源码安装redis [rootredis-node1 ~]# tar zxf red…

Ceruletide 雨蛙素;雨蛙肽;硫酸化蓝肽 简介

目录号 M9316 Ceruletide 雨蛙素&#xff1b;雨蛙肽&#xff1b;硫酸化蓝肽 Ceruletide (Caerulein) 是从澳大利亚青蛙皮肤中分离的生物活性十肽&#xff0c;是一种缩胆囊素受体 (cholecystokinin receptor) 激动剂。此外&#xff0c;Ceruletide还可用于构建小鼠急性胰腺炎模型…

强烈推荐!大模型辅助软件开发

图书推荐 作者介绍 很喜欢作者在书上的这句话了&#xff1a;是人类工程师的能力&#xff0c;而不是大模型的能力&#xff0c;决定了大模型协作式开发的上限。 本书内容 软件开发正在经历一场前所未有的范式变革。人工智能的飞速发展&#xff0c;特别是大型语言模型所取得的成…

tortoisegit突然停止工作

TortoiseGit突然停止工作可能由多种原因引起&#xff0c;以下是一些可能的原因及相应的解决方案&#xff1a; 可能原因及解决方案 Git进程冲突 描述&#xff1a;当TortoiseGit检测到有其他Git进程正在运行或之前崩溃未清理完全时&#xff0c;可能会出现冲突&#xff0c;导致T…

鸿蒙开发5.0【基于Swiper的页面布局】

场景一&#xff1a;Swiper页面支持自定义动画 方案&#xff1a; 给Swiper组件设置.nextMargin(50).prevMargin(50)属性。 给Swiper组件添加onChange事件&#xff0c;设置当前this.currentIndexindex&#xff0c;当currentIndex为首页或者尾页时&#xff0c;设置上一张以及下一…

黑马JavaWeb开发笔记10(前端完结)——Vue路由介绍入门、前端工程打包、nginx前端部署

文章目录 前言一、Vue路由1. 介绍2. 路由入门 二、打包部署1. 前端工程打包2. 部署前端工程2.1 nginx介绍2.2 部署 总结 前言 本篇文章是2023年最新黑马JavaWeb开发笔记10&#xff1a;Vue路由介绍&入门、前端工程打包、nginx前端部署的总结&#xff0c;帮助需要学习Web开发…

Python自动化测试requests库深度详解

前言 发送HTTP请求 import requests# 登录的接口地址url http://............/login# 登录的参数params {"mobile_phone": 18300000000,"pwd": 12345678}# 请求头headers {X-Lemonban-Media-Type: lemonban.v2}# 发送登录请求# 请求类型为 Content-Typ…