大语言模型学习--向量数据库Milvus实践

devtools/2025/3/13 23:03:41/

       Milvus是目前比较流行的开源向量数据库,其官网地址

Milvus 是什么? | Milvus 文档

1.Milvus简介

Milvus 是一种高性能、高扩展性的向量数据库。Milvus 提供强大的数据建模功能,能够将非结构化或多模式数据组织成结构化的 Collections。它支持多种数据类型,适用于不同的属性模型,包括常见的数字和字符类型、各种向量类型、数组、集合和 JSON。

Milvus 提供三种部署模式

  • Milvus Lite 是一个 Python 库,可以轻松集成到您的应用程序中。作为 Milvus 的轻量级版本,它非常适合在 Jupyter Notebooks 中进行快速原型开发,或在资源有限的边缘设备上运行。
  • Milvus Standalone 是单机服务器部署,所有组件都捆绑在一个 Docker 镜像中,方便部署。
  • Milvus Distributed 可部署在 Kubernetes 集群上,采用云原生架构,专为十亿规模甚至更大的场景而设计。该架构可确保关键组件的冗余。

Milvus 的云原生和高度解耦的系统架构

2.Milvus实践

推荐一个在线python运行环境(再也不用本地windows安装linux虚拟机了)

玻尔 | 全球科学家的 AI for Science 空间站

下面使用Milvus Lite本地实践一下,Milvus Lite,它是pymilvus 中包含的一个 python 库,可以嵌入到客户端应用程序中。

安装Milvus

pip install -U pymilvus

设置向量数据库

from pymilvus import MilvusClient
client = MilvusClient("milvus_demo.db")

创建Collections

if client.has_collection(collection_name="demo_collection"):client.drop_collection(collection_name="demo_collection")
client.create_collection(collection_name="demo_collection",dimension=768,  # The vectors we will use in this demo has 768 dimensions
)

用向量表示文本

import randomdocs = ["Artificial intelligence was founded as an academic discipline in 1956.","Alan Turing was the first person to conduct substantial research in AI.","Born in Maida Vale, London, Turing was raised in southern England.",
]
vectors = [[random.uniform(-1, 1) for _ in range(768)] for _ in docs]
data = [{"id": i, "vector": vectors[i], "text": docs[i], "subject": "history"}for i in range(len(vectors))
]print("Data has", len(data), "entities, each with fields: ", data[0].keys())
print("Vector dim:", len(data[0]["vector"]))

插入数据

res = client.insert(collection_name="demo_collection", data=data)print(res)

向量搜索

# query_vectors = embedding_fn.encode_queries(["Who is Alan Turing?"])
# If you don't have the embedding function you can use a fake vector to finish the demo:
query_vectors = [ [ random.uniform(-1, 1) for _ in range(768) ] ]
res = client.search(collection_name="demo_collection",  # target collectiondata=query_vectors,  # query vectorslimit=2,  # number of returned entitiesoutput_fields=["text", "subject"],  # specifies fields to be returned
)
print(res)

其他一些操作可以参考官网文档

管理数据库 | Milvus 文档


http://www.ppmy.cn/devtools/166876.html

相关文章

一、Jenkins简单配置(使用语言、凭证、SSH)

这里简单讲一下jenkins的使用配置。 一、登陆系统 我们访问jenkins的界面的时候,被要求输入管理员密码,密码可以通过以下方式获取。 # 查看密码, 需要记住这个初始密码 # 在创建角色之后,这个保存密码的文件就会被删除 docker …

NGINX介绍--鱼皮老师课程学习笔记

世界上最受欢迎的web服务器、高性能负载均衡器、反向代理、API网关和内容缓存 Nginx能部署网站,比其他服务器用更少的资源,同时处理更多的用户请求,让网站速度更快更稳定 一、安装nginx windows双击exe启动 linux系统手动编译该目录 sudo …

CTFshow 【WEB入门】信息搜集 【VIP限免】 web1-web17

CTFshow 【 WEB入门】、【VIP限免】 web1 ----源码泄露 首先第一步,看源代码 web2----前台JS绕过 简单点击查看不了源代码,可以强制查看 比如 Ctrl Shift ICtrl U或者在url前加一个view-source: view-source:http://79999ca1-7403-46da-b25b-7ba9…

机器人匹诺曹机制,真话假话平衡机制

摘要: 本文聚焦于机器人所采用的一种“匹诺曹机制”,该机制旨在以大概率保持“虚拟鼻子”(一种象征虚假程度的概念)不会过长,通过在对话中夹杂真话与假话来实现。文章深入探讨了这一机制的原理,分析其背后的…

什么是zookeeper

ZooKeeper 是一个由 Apache 开源的分布式协调服务,专门为分布式系统提供高效、可靠的协同管理功能。它通过简单的接口和高效的设计,帮助开发者解决分布式环境中的常见问题,如配置管理、服务注册与发现、分布式锁、集群选举等。 --- ### 核心…

easy-poi导出and导入一对多数据excel

easy-poi导出and导入一对多数据excel 一、导入jar包 <!-- easy-poi --><dependency><groupId>cn.afterturn</groupId><artifactId>easypoi-spring-boot-starter</artifactId><version>4.4.0</version></dependency> 二…

YashanDB认证,YCA证书认证教程,免费证书,内含真题考试题库及答案——五分钟速成

目录 一.账号及平台注册登录流程 二.登录进行设备调试核验 三.考试&#xff08;考完获取分数&#xff09; 四.获取证书 五.题库及答案 一.账号及平台注册登录流程 1-点击这里进行账号注册&#xff08;首次学习必须先注册&#xff0c;有账号之后可以直接在2号链接登录&#…

手机遥控开关,是一种能让用户通过手机远程控制电器开关

移动管家手机遥控开关&#xff0c;是一种能让用户通过手机远程控制电器开关的智能设备。以YD238 - 6型为例&#xff0c;它可通过手机或座机远程控制&#xff0c;最大输出功率1100W&#xff0c;还可扩展大功率外挂接触器&#xff0c;具备来电、停电通知及记忆功能等&#xff0c;…