使用 LangChain 和 Milvus 构建测试知识库

embedded/2025/2/27 18:28:11/

LangChain 是一个强大的框架,可以与向量数据库(如 Milvus)无缝集成,用于构建基于检索的增强生成(RAG)系统。在测试工程师的场景中,可以将测试资产(如需求文档、测试用例、缺陷报告等)存储在 Milvus 中,然后通过 LangChain 提供的检索功能快速查询和生成相关内容。


功能目标

  1. 存储测试资产:将需求文档、测试用例和缺陷记录等内容转换为向量表示并存储到 Milvus。
  2. 检索测试资产:根据用户输入的查询,快速检索相关内容。
  3. 集成生成模型:结合检索结果,生成测试用例或分析缺陷原因。

架构流程

  1. 文档预处理:

    • 清理和分割文档。
    • 将段落或内容片段转化为易于向量化的文本。
  2. 向量化:

    • 使用嵌入模型(如 OpenAI 的 text-embedding-ada-002 或 Hugging Face 模型)将文本转化为向量。
  3. 存储:

    • 将向量及其元数据存储到 Milvus 向量数据库。
  4. 检索与生成:

    • 根据用户查询,通过向量相似性搜索检索相关内容。
    • 将检索结果与生成模型结合,生成响应。

示例代码:

1. 安装必要的依赖

首先确保安装了以下依赖库:

pip install langchain pymilvus openai sentence-transformers

2. 启动 Milvus

可以通过 Docker 快速启动 Milvus:

docker run -d --name milvus -p 19530:19530 -p 9091:9091 milvusdb/milvus:v2.2.9
2.1 Docker容器化部署(推荐)
  1. 环境准备

    • 启用Windows子系统Linux(WSL)和虚拟机平台:
      bash
      dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart
      dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart
      重启后安装Docker Desktop并启用WSL 2后端。
    • 验证Docker安装:
      bash
      docker --version
      docker-compose --version
  2. 获取并运行Milvus容器

    • 拉取官方镜像:
      bash
      docker pull milvusdb/milvus:latest
    • 启动容器(映射端口19530和19121):
      bash
      docker run -d --name milvus -p 19530:19530 -p 19121:19121 milvusdb/milvus:latest
      服务启动后,通过浏览器访问http://localhost:19121验证。
  3. 持久化存储(可选)

    • 挂载本地目录或使用Docker卷保存数据,避免容器删除后数据丢失。

2.2 预编译包部署(适合开发者)
  1. 下载二进制包

    • 从GitHub仓库matrixji/milvuswindows-test-版本中选择对应版本(如windows-test-v8)。
    • 或直接下载预编译的zip包(含milvus.exeminio.exeetcd.exe)。
  2. 启动服务

    • 解压zip包后依次运行:
      bash
      run_minio.bat 启动MinIO存储服务
      run_etcd.bat 启动etcd元数据服务
      run_milvus.bat 启动Milvus核心服务
  3. 测试连接

    • 使用Python客户端验证:
      python
      from pymilvus import connections
      connections.connect(host=‘localhost’, port=‘19530’)

2.3 图形化界面(Attu)
  1. 安装Attu

    • 下载Attu客户端(如attu-2.4.6-windows-x86_64.zip)并解压。
    • 启动Attu:
      bash
      .\attu.exe
  2. 连接Milvus

    • 在Attu界面输入Milvus服务地址http://localhost:19530完成连接。

注意事项

  • 资源分配:Docker Desktop中可调整CPU/内存限制以满足性能需求。
  • 防火墙设置:确保端口19530(API)和19121(Web)未被拦截。
  • 版本兼容性:若使用旧版Milvus,需注意依赖库(如pymilvus)的兼容性。

3. 示例代码实现

(1) 初始化 Milvus
python">from pymilvus import connections, FieldSchema, CollectionSchema, DataType, Collection# 连接到 Milvus
connections.connect("default", host="localhost", port="19530")# 定义 Milvus 的 schema
fields = [FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True),FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=1536),  # 维度与嵌入模型匹配FieldSchema(name="text", dtype=DataType.VARCHAR, max_length=1000)
]
schema = CollectionSchema(fields, "测试知识库存储需求")# 创建 Collection
collection_name = "test_knowledge_base"
collection = Collection(name=collection_name, schema=schema)

(2) 嵌入模型初始化

使用 Hugging Face 的嵌入模型将文本转化为向量。

python">from langchain.embeddings import HuggingFaceEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter# 初始化 Hugging Face 嵌入模型
embedding_model = HuggingFaceEmbeddings(model_name="bert-base-chinese")# 文本分割器,确保文本块适合向量化
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)

(3) 插入数据到 Milvus

将测试资产(文档、用例、缺陷记录)清洗后分割为小块,并存储到 Milvus 中。

python">def insert_data_to_milvus(collection, texts):"""将文本转换为向量并存储到 Milvus:param collection: Milvus Collection:param texts: 文本列表"""# 分割文本为小块chunks = text_splitter.split_text(texts)# 生成嵌入向量embeddings = embedding_model.embed_documents(chunks)# 插入到 Milvuscollection.insert([embeddings, chunks])# 示例:插入需求文档
test_document = """
用户可以通过系统完成账户注册。
注册时需要填写用户名、密码和邮箱,并完成邮箱验证。
如果邮箱已被注册,系统会提示“邮箱已被使用”。
注册完成后,用户可以登录账户。
"""
insert_data_to_milvus(collection, test_document)

(4) 检索数据

根据用户的查询,通过向量相似性搜索检索相关内容。

python">from langchain.vectorstores import Milvus
from langchain.prompts import PromptTemplate
from langchain.chains import RetrievalQA# 初始化 Milvus 向量存储
vector_store = Milvus(collection_name=collection_name,connection_args={"host": "localhost", "port": "19530"},embedding_function=embedding_model.embed_query
)# 检索相关内容
def retrieve_test_knowledge(query):"""检索相关的测试资产:param query: 用户查询:return: 检索结果"""# 检索相关内容results = vector_store.similarity_search(query, k=3)for i, result in enumerate(results, 1):print(f"结果 {i}: {result.page_content}")# 示例:检索与“邮箱验证”的相关内容
retrieve_test_knowledge("邮箱验证")

(5) 集成生成模型

结合生成模型(如 OpenAI GPT)与检索结果,生成测试工程师需要的内容。

python">from langchain.chains import RetrievalQA
from langchain.chat_models import ChatOpenAI# 初始化生成模型
llm = ChatOpenAI(openai_api_key="your-openai-api-key", temperature=0)# 构建 RetrievalQA
qa_chain = RetrievalQA.from_chain_type(llm=llm,retriever=vector_store.as_retriever(),return_source_documents=True
)# 用户查询
query = "如何设计邮箱验证的测试用例?"
response = qa_chain.run(query)
print("生成的测试用例建议:")
print(response)

4. 参考链接

以下是一些可以参考的资源和文档:

  1. LangChain 官方文档
    • LangChain Documentation
  2. Milvus 官方文档
    • Milvus Documentation
  3. OpenAI 嵌入模型
    • OpenAI Embedding Models
  4. 向量数据库概览
    • 向量数据库介绍

提高落地实践的建议

  1. 数据清洗

    • 在插入数据到 Milvus 前,对测试文档和用例进行清洗和分块,确保内容质量。
    • 使用正则表达式过滤掉无关信息(如模板注释、页眉页脚等)。
  2. 优化嵌入模型

    • 根据具体测试领域,选择更适合的嵌入模型(如 Hugging Face 的领域特定模型)。
    • 对嵌入模型进行微调,增强对测试资产的理解。
  3. 检索增强

    • 设置检索的 k 值(返回的结果数量),根据实际需求调整。
    • 使用 RAG(Retrieval-Augmented Generation)技术,将用户查询的上下文与检索结果结合,提高生成模型的准确性。
  4. 多格式支持

    • 扩展对 docxpdf 等格式的解析,结合 PyPDF2python-docx 等库处理文档数据。

总结

通过 LangChain 和 Milvus,测试工程师可以快速构建一个高效的测试知识库,支持测试资产的存储、检索和生成。本文提供了从环境搭建到代码实现的完整流程,以及提高系统落地实践效果的建议。结合 LangChain 的检索能力和 Milvus 的向量存储性能,这套方案将显著提升测试工作的效率与准确性。


http://www.ppmy.cn/embedded/167598.html

相关文章

nginx 正向代理与反向代理

1. 正向代理(Forward Proxy) 正向代理是指 代理客户端 访问目标服务器,通常用于访问受限资源或隐藏客户端 IP。 工作原理 客户端请求代理服务器(如 nginx)。代理服务器代表客户端向目标网站发起请求。目标网站返回内…

MySQL -安装与初识

博客主页:【夜泉_ly】 本文专栏:【暂无】 欢迎点赞👍收藏⭐关注❤️ 文章目录 安装1. 更新系统包列表2. 安装MySQL服务器3. 启动并验证MySQL服务4. 运行安全配置向导5. 验证MySQL登录6. 设置root用户密码7. 配置远程访问(可选&…

如何去除word页眉上面的横线

问题:如何去除页眉上面的横线 也就是字上面的这一条线 解决方法: 双击选中,然后光标会定位到页眉上,点击下图中的无格式,就可以消除了 消除后的情况如下

【Maven】-- Maven Scope 详解

目录 Maven Scope 详解 1. 引言 2. Maven 依赖范围(Scope)分类 2.1 compile(默认范围) 2.2 provided 2.3 runtime 2.4 test 2.5 system 2.6 import(仅用于 dependencyManagement) 3. Scope 作用范…

MySQL--》如何在MySQL中打造高效优化索引

目录 初识索引 索引结构 性能分析 索引使用 最左前缀法则 SQL提示使用 覆盖索引使用 前缀索引使用 索引失效情况 初识索引 索引(index):是帮助MySQL高效获取数据的数据结构(有序),在数据之外数据库系统还维护着满足特定查找算法的数据结构&…

最小化重投影误差求解PnP

问题描述 已知n个空间点 P i [ x i , y i , z i ] T P_i[x_i,y_i,z_i]^T Pi​[xi​,yi​,zi​]T,其投影的像素坐标 p i [ u i , v i ] T p_i[u_i,v_i]^T pi​[ui​,vi​]T求相机的位姿R,T。 问题分析 根据相机模型,像素点和空间点的位置…

Node.js v16 版本安装

查看自己电脑上有没有node.js 1.打开命令提示符或终端窗口(windows上是cmd,macOS和Linux上是终端)。 2.在命令提示符或终端窗口中输入以下命令:node -v 3.如果你已经安装了Node.js,你将看到一个版本号,例如v14.15.4。 4.如果你看到一个错误消息或者什么…

12个大语言模型平台对比测试-搜索视角

这里写自定义目录标题 1 背景1.1 简单问题设置1.2 答案标准 2 常见大语言模型平台回答表现2.1 ChatGPT-o3-mini2.2 Grok-Grok 3联网2.3 perplexity-pro2.4 通义-Qwen2.5深度搜索2.5 智普清言-GLM 4 Plus2.6 deepseek R1联网2.7 Kimi-k1.5长思考联网2.8 秘塔-R1联网2.9 纳米AI-R…