基于langchain 的文档问答 最佳实践(附源码)

news/2025/1/16 2:34:37/

文档问答的原理

  1. 文档读取并切割,用句向量 向量化,存入向量数据库
  2. 问题向量化,在向量数据库中进行相似性检索,并存出top K
  3. 把问题和top K 答案组成 prompt 并发给大模型,等大模型答案

文档问答流程图

这里面涉及到的技术点有:

  • 文档加载和切分
  • 句向量
  • 向量存储
  • 向量相似度计算
  • promot 生成
  • 大模型(LLM)

langchain 把这些技术都整合到一起,让我们可以方便的搭建自己的应用。

文档问答的原型搭建

网上有很多demo ,最简单的是用llama-index,openai,gradio 进行搭建

llama-index 是基于文件的向量数据库,gradio 是web 服务器,实现了基本的ui页面,还可以提供域名服务。句向量和大模型用的openai.

这种demo 需要一台服务器,能连上openai. langchain 的安装有也些bug. 现在还是0.5的版本。 我在window2012 上安装,用miniconda, 和 visual studio,langchain 中有些c++的代码编译需要

这种应用搭demo 还可以的,但是在生产环境是不可行

  • 很费钱。使用openai 的2个服务,embedding, gpt-3.5-turbo, 我训练了3篇doc 文档,就花了0.4$.
  • 使用llama-index 并不是数据库,它是文件存储。检索速度慢很多。

下面我基于demo 进行了改进

  • 句向量 使用 HuggingFace ‘m3e-base’,这是目前测试效果不错的句向量模型,不需要GPU 也可以跑。
  • 向量数据库选用了Annoy,它是Facebook 推出的向量数据库,基于 k 树算法进行检索。
标题demo改进
句向量openai embeddingHuggingFace ‘m3e-base’
大模型openai gpt-3.5-turbogpt-3.5-turbo
向量数据库llama_indexAnnoy
import os
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import Annoy
from langchain.text_splitter import CharacterTextSplitter
from langchain import OpenAI, VectorDBQA
from langchain.chat_models import ChatOpenAI
from langchain.document_loaders import DirectoryLoader
from langchain.chains import RetrievalQA
from langchain.indexes import VectorstoreIndexCreator
import time
from langchain import PromptTemplate
from langchain.embeddings import HuggingFaceEmbeddings,HuggingFaceInstructEmbeddings
# openAI的Key
os.environ["OPENAI_API_KEY"] = 'xxxx'def create_index(path):loader = DirectoryLoader('D:/download/', glob='**/*.docx')documents = loader.load()text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)split_docs = text_splitter.split_documents(documents)embeddings = HuggingFaceEmbeddings(model_name='moka-ai/m3e-base')vector_store_path = r"./storage4"docsearch = Annoy.from_documents(documents=split_docs,embedding=embeddings,persist_directory=vector_store_path)docsearch.save_local(vector_store_path)def search(txt):embeddings = HuggingFaceEmbeddings(model_name='moka-ai/m3e-base')vector_store_path = r"./storage4"docsearch = Annoy.load_local(vector_store_path,embeddings=embeddings)start = time.time()prompt_template = """请注意:请谨慎评估query与提示的Context信息的相关性,只根据本段输入文字信息的内容进行回答,如果query与提供的材料无关,请回答"对不起,我不知道",另外也不要回答无关答案:Context: {context}Question: {question}Answer:"""PROMPT = PromptTemplate(template=prompt_template, input_variables=["context", "question"])# qa = VectorDBQA.from_chain_type(llm=ChatOpenAI(temperature=0, model_name="gpt-3.5-turbo-16k"), chain_type="stuff", vectorstore=docsearch, return_source_documents=True)# result = qa({"query": txt})qa = RetrievalQA.from_chain_type(llm=ChatOpenAI(temperature=0, model_name="gpt-3.5-turbo"), chain_type="stuff", retriever=docsearch.as_retriever(search_kwargs={"k": 8}),chain_type_kwargs={"prompt": PROMPT})result = qa.run(txt)print(result)print(time.time() - start)if __name__=="__main__":create_index('')search('xxx')

优化

  • 文档的切分

    文档切分对句向量的生成有很大影响。最理想的效果把相拟的段落切到一起,想实现这样的效果需要对文档内容比较了解,进而切分。

    使用默认的 langchain CharacterTextSplitter chunk_size = 1000,这种切分的效果不是很好。它的分割符是 \n\n,先按chunk 切,再按分割符切。这样会把段落切错。

  • 大模型的选型

    使用openai gpt-3.5-turbo 它是有字数限制,4096个字符,top K选出的答案多了,它都答不上来。可以换用 gpt-3.5-turbo-16k, 它有16k个字符,大大的满足冲破答的需要。

    换用国产大模型,如chatGLM, 它有6B 的小模型,单张GPU上就可以跑。这样也不用国外服务器。


http://www.ppmy.cn/news/973292.html

相关文章

baichuan-7B模型介绍及微调

文章目录 baichuan-7B介绍baichuan-7B 推理baichuan-7B 微调使用微调后的模型推理 baichuan-7B介绍 2023年6月15日,搜狗创始人王小川创立的百川智能公司,发布了70 亿参数量的中英文预训练大模型——baichuan-7B。 baichuan-7B 基于 Transformer 结构&a…

DXFReader.NET 2023 Crack

DXFReader.NET 是一个 .NET 组件,允许直接从 AutoCAD 图形文件格式 DXF(也称为图形交换格式)查看、操作和打印。 DXFReader.NET 之 DXF 是 Drawing eXchange Format 的首字母缩写。DXF 是图形文件内容的复制,支持将文件从一个 CA…

【每日一题】——C - Standings(AtCoder Beginner Contest 308 )

🌏博客主页:PH_modest的博客主页 🚩当前专栏:每日一题 💌其他专栏: 🔴 每日反刍 🟡 C跬步积累 🟢 C语言跬步积累 🌈座右铭:广积粮,缓称…

快速乘法(防止数过大相乘超出long long)

inline LL ksc(LL x,LL y,LL mod){return (x*y-(LL)((long double)x/mod*y)*modmod)%mod; }

线性代数矩阵乘法用C++代码实现,再也不用担心算错啦!

c实现矩阵相乘 矩阵乘法的定义矩阵相乘的代码完整的程序实现线代其它操作的参考链接 线性代数矩阵相乘一旦阶数多了算的可真是让人CPU疼,但可爱的计算机是不怕累又超听话,所以用一个c程序帮助你轻松解决矩阵相乘!! 矩阵乘法的定义…

chatgpt赋能python:Python计算乘数-一文了解Python计算乘数的基础知识和应用

Python 计算乘数 - 一文了解Python计算乘数的基础知识和应用 介绍 Python是一种容易学习且强大的编程语言,它已经成为数据科学和机器学习领域中最受欢迎的语言之一。Python的优点之一是它的语法简单易懂,使得它成为编写计算乘数的理想语言。 在本文中…

2.5.3 乘法

这段话告诉我们,在程序中有一条乘法运算语句。这个程序会让计算机帮助我们完成一个简单的数学问题:计算6乘以2。和我们平常做数学题一样,程序使用*号表示乘法运算。语句 “feet 6 * fathoms;” 可以这样理解:它会找到之前我们定义…

乘法程序

任务目标: 完成简单的乘法功能。 实现步骤: 1,编写activity_main.xml 2,编写MainActivity 运行结果: