Milvus - 构建向量数据库并进行相似度查询

ops/2024/9/20 8:13:39/ 标签: milvus, 数据库

向量相似度检索在大规模数据分析和机器学习应用中是一个非常关键的任务,特别是在处理文本、图像或其他嵌入向量时。Milvus 是一个高性能的开源向量数据库,专为存储和检索大规模向量数据设计。本文将介绍如何在 Docker 中安装 Milvus,并展示如何使用 Python 插入向量数据及进行向量相似度查询。

一、在 Docker 中安装并运行 Milvus

Milvus 提供了简便的安装方式,可以通过 Docker 快速启动 Milvus 实例。

1. 安装 Docker

确保你已在系统上安装了 Docker。如果未安装,可以访问 Docker 官方网站 获取安装指南。

2. 在 Docker 中安装 Milvus

通过以下步骤下载并启动 Milvus 实例。

# 下载 Milvus 安装脚本
curl -sfL https://raw.githubusercontent.com/milvus-io/milvus/master/scripts/standalone_embed.sh -o standalone_embed.sh# 启动 Milvus 容器
bash standalone_embed.sh start

运行该脚本后,一个名为 milvus-standalone 的 Docker 容器将启动,并在 19530 端口提供 Milvus 服务。嵌入式的 etcd 也将在同一容器中运行,使用 2379 端口进行服务。

3. 停止和删除 Milvus

你可以随时停止和删除 Milvus 容器及其数据:

# 停止 Milvus
bash standalone_embed.sh stop# 删除 Milvus 容器和数据
bash standalone_embed.sh delete

二、创建向量集合

在 Milvus 中,数据存储在集合(Collection)中,类似于传统数据库中的表。集合可以包含多个字段,包括嵌入向量字段。接下来,我们将通过 Python 创建一个存储文本及其对应向量的集合。

1. 连接 Milvus 并定义集合

首先,我们通过 Python 的 pymilvus 库连接 Milvus 并创建集合。

from pymilvus import connections, FieldSchema, CollectionSchema, DataType, Collection# 连接 Milvus
connections.connect("default", host="localhost", port="19530")# 定义集合 schema
fields = [FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True),FieldSchema(name="user_id", dtype=DataType.INT64),FieldSchema(name="file_id", dtype=DataType.INT64),FieldSchema(name="content", dtype=DataType.VARCHAR, max_length=65535),FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=384),  # 384维向量
]schema = CollectionSchema(fields, description="知识库向量数据")# 创建集合
collection = Collection("knowledge_vector_data", schema=schema)
2. 创建索引

为提高查询效率,Milvus 支持为向量字段创建索引。下面是为向量字段创建索引的示例:

# 创建索引
index_params = {"metric_type": "IP",  # 内积,用于向量相似度"index_type": "IVF_FLAT",  # 索引类型"params": {"nlist": 128}
}
collection.create_index(field_name="embedding", index_params=index_params)
print("Index created.")

三、向量化、插入数据并进行相似度查询

在这个部分,我们将通过 Python 脚本,将测试句子向量化后插入 Milvus,并进行相似度查询。

1. 安装必要的 Python 库

首先,确保安装了 sentence-transformerspymilvus 库:

pip install sentence-transformers pymilvus numpy
2. 完整的 Python 脚本

以下是一个完整的 Python 脚本,包含了向量化句子、插入数据和相似度查询的功能。

import numpy as np
from pymilvus import connections, FieldSchema, CollectionSchema, DataType, Collection, utility
from sentence_transformers import SentenceTransformer# 连接 Milvus
connections.connect("default", host="localhost", port="19530")# 定义集合 schema
fields = [FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True),FieldSchema(name="user_id", dtype=DataType.INT64),FieldSchema(name="file_id", dtype=DataType.INT64),FieldSchema(name="content", dtype=DataType.VARCHAR, max_length=65535),FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=384),  # 384维向量
]schema = CollectionSchema(fields, description="知识库向量数据")# 创建集合
collection = Collection("knowledge_vector_data", schema=schema)# 向量化句子
def vectorize_sentences(sentences):model = SentenceTransformer('all-MiniLM-L6-v2')return model.encode(sentences)# 插入向量到 Milvus
def insert_vectors_to_milvus(sentences, vectors):data = [# [None] * len(sentences),  # ID 自动生成[1] * len(sentences),  # user_id[1] * len(sentences),  # file_idsentences,  # contentvectors.tolist()  # 向量]collection.insert(data)print(f"Inserted {len(sentences)} sentences into Milvus")# 创建索引以加速检索
def create_index():index_params = {"metric_type": "IP",  # 内积,用于向量相似度"index_type": "IVF_FLAT",  # 索引类型"params": {"nlist": 128}}collection.create_index(field_name="embedding", index_params=index_params)print("Index created.")# 查询相似句子
def query_similar_sentences(target_vector, top_k=5):collection.load()search_params = {"metric_type": "IP", "params": {"nprobe": 10}}# 执行查询results = collection.search(data=[target_vector],anns_field="embedding",param=search_params,limit=top_k,output_fields=["content"])for result in results[0]:print(f"Content: {result.entity.get('content')}, Similarity score: {result.score}")if __name__ == "__main__":# 测试句子sentences = ["This is a test sentence.","Another sentence for testing.","Milvus vector database integration."]# 向量化测试句子vectors = vectorize_sentences(sentences)# 插入向量到 Milvusinsert_vectors_to_milvus(sentences, vectors)# 创建索引create_index()# 目标句子,进行相似度查询target_sentence = "This is a test sentence."target_vector = vectorize_sentences([target_sentence])[0]# 查询与目标句子最相似的句子query_similar_sentences(target_vector)

四、总结

通过本文的步骤,我们学习了如何在 Docker 中安装 Milvus,并使用 Python 向量化文本数据、插入数据和执行相似度查询。Milvus 是处理大规模向量数据的理想工具,特别适合于多媒体数据的相似度搜索。


http://www.ppmy.cn/ops/113315.html

相关文章

GO主流开源框架

GO主流开源框架 Go 语言有着丰富的开源框架生态,涵盖了多种应用场景,如 Web 开发、数据库操作、微服务、日志处理等。以下是一些常见的 Go 框架及其典型作用场景: 1. Web 框架 Gin: 作用:一个高性能的轻量级 Web 框架&#xff…

今天不写项目,聊聊后端面试吧

首先感谢大家之前的观看呀~兄弟们~ 这边把我去过几家公司面试的题目都写一下哈,像我大二下,就是前两个月7-9进了公司进行后端实习,哎.....反正就是学学学..话不多说~ 1.Frist 1.HashMap实现原理 HashMap是基于哈希表的Map接口的非同步实现…

网站在线客服插件配置

使用工具:百度爱番番 下载地址: 百度爱番番—企业的一站式智能营销管家 一、下载百度爱番番APP,注册账号 二、 登录app 三、点击设置——站点设置——新建站点 四、设置站点名称——站点地址——PC站点——确定 五、点击配置好的站点的获取代…

leetcode73矩阵置零

思路 想到的就是需要一个数组来记录是不是这行或者这列是不是有零,然后最后再扫描一遍这个矩阵 题解 借助第0行第0列来记录这个行是不是有0,这个列是不是有0 另外,这个矩阵不大,所以可能有重复的置0应该也没事。 class Soluti…

力扣232:用栈实现队列

请你仅使用两个栈实现先入先出队列。队列应当支持一般队列支持的所有操作(push、pop、peek、empty): 实现 MyQueue 类: void push(int x) 将元素 x 推到队列的末尾int pop() 从队列的开头移除并返回元素int peek() 返回队列开头…

签署《AI安全国际对话威尼斯共识》 智源持续推动人工智能安全发展

近日,由AI安全国际论坛(Safe AI Forum)和博古睿研究院(Berggruen Institute) 共同举办的第三届国际AI安全对话(International Dialogues on AI Safety)在威尼斯举办。图灵奖得主Yoshua Bengio、姚期智教授&…

一、编译原理(引论)

目录 【一】、引论 一、编译器 1、编译器 2、编译器与解释器 3、编译器结构 【一】、引论 一、编译器 1、编译器 (1)编译器:将人类易懂的 高级语言 翻译成 硬件可执行的目标机器语言 (2) 高级语言 ⚫ 直接面…

聊一聊测试用例的重要性

对于测试从业人员,测试用例术语应该不会陌生,在工作中用到的概率就像医生的药方,厨师心中的菜配方等等。 不过前者对项目组内人员都是公开的,后者的药方和配方大概率不会公开;前者项目内公开为了让测试用例覆盖率更高…

网络安全(黑客技术)2024年三个月自学计划

🤟 基于入门网络安全/黑客打造的:👉黑客&网络安全入门&进阶学习资源包 前言 什么是网络安全 网络安全可以基于攻击和防御视角来分类,我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术,而“蓝队”…

如何为子域名配置 Nginx 反向代理到 Flask 应用

在这篇博客中,我将介绍如何为你的域名添加子域名,并使用 Nginx 反向代理将子域名请求转发到 Flask 应用。我们将以子域名 app1.example.com 为例,并通过 Nginx 将请求转发到 Flask 应用的 5000 端口。 1. 前提条件 你已经拥有一个域名&…

向日葵好用吗?4款稳定的远程控制软件推荐。

远程控制技术现在已经被应用于很多个领域,像企业办公,远程协助,智能家居,工业控制等等。我们常常会用到的时前两种。而实现远程控制的方式也有多种,但是最方便高效的还是使用第三方软件。我最常使用的是向日葵&#xf…

Flutter - Win32程序是如何执行main函数

Win32程序的主体结构 int APIENTRY wWinMain(_In_ HINSTANCE instance, _In_opt_ HINSTANCE prev,_In_ wchar_t *command_line, _In_ int show_command) {// Attach to console when present (e.g., flutter run) or create a// new console when running with a debugger.if …

Linux 防火墙:Firewalld 常用命令行操作命令

firewalld命令行操作管理 按增删改查分类,前面加上 firewall-cmd : ### 查询操作--get-default-zone 查看当前默认区域 --get-zones 查看所有可用的区域 --get-active-zones …

科技赋能司法:易保全如何重塑法律文书签署与庭审流程

在这个数字化飞速发展的时代,司法领域也迎来了前所未有的变革。随着人工智能、区块链与互联网技术的深度融合,正以前所未有的力量变革着司法服务的格局。 易保全通过将“区块链人工智能互联网司法”相融合,推动公证系统逐步迈向智能化、高效…

C++学习笔记 —— 内存分配 new

//创建数值 int *pi new int; //pi指向动态分配的,未初始化的无名对象 delete pi; int *pi new int(10); //pi指向动态分配的,初始化10 delete pi;//创建数组 int *a new int[5]; //创建一个数组,未初始化数值 delete []a; // new 和 de…

二叉树进阶--AVL树

个人主页:C忠实粉丝 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 C忠实粉丝 原创 二叉树进阶--AVL树 收录于专栏 [C进阶学习] 本专栏旨在分享学习C的一点学习笔记,欢迎大家在评论区交流讨论💌 目录 前提提示: 1 AVL树的…

Leetcode Hot 100刷题记录 -Day17(搜索二维矩阵II)

搜索二维矩阵II 问题描述: 编写一个高效的算法来搜索 m x n 矩阵 matrix 中的一个目标值 target 。该矩阵具有以下特性: 每行的元素从左到右升序排列。每列的元素从上到下升序排列。 示例 1: 输入:matrix [[1,4,7,11,15],[2,5,8,…

win/mac常用命令

这里写目录标题 windows(powershell)mac windows(powershell) Get-ChildItem | ForEach-Object { $_.Name }:打印当前目录中所有文件的名字Get-ChildItem | ForEach-Object { $_.Name } > file_list.txt&#xff1…

防火墙--NAT技术,基于源NAT,NAT服务器,双向NAT

文章目录 防火墙--NAT技术一、基于源NAT**方式**:NAT No-PATNAPT出接口地址方式Smart NAT三元组 NAT 二、基于服务器的NAT多出口场景下的NAT Server 三、双向NAT 防火墙–NAT技术 基于源NAT:用于将内部网络的私有IP地址转换为公共IP地址,以便…

Python | Leetcode Python题解之第419题棋盘上的战舰

题目: 题解: class Solution:def countBattleships(self, board: List[List[str]]) -> int:return sum(ch X and not (i > 0 and board[i - 1][j] X or j > 0 and board[i][j - 1] X)for i, row in enumerate(board) for j, ch in enumerat…