低成本+高性能+超灵活!Deepseek 671B+Milvus重新定义知识库搭建

embedded/2025/2/11 18:36:23/

图片

图片

“老板说,这个项目得上Deepseek,还得再做个知识库...”

还有哪个开发者,最近没听到这样的抱怨?

Deepseek爆火,推理端的智能提速,算力成本急剧下降,让不少原本不想用大模型,用不起大模型的企业,一夕之间全部拥抱AI,开启了降本增效。在这个过程中,对于大部分拥有优质私有数据,敏感数据的企业来说,如果不想数据泄露,那么部署本地知识库,就成了拥抱大模型的必经之路。

可是当你真正开始调研的时候,就会发现这事儿没那么简单:

想用开源的蒸馏版模型?效果差强人意,连基本的问答准确度都难以保证。

比如,前不久,我们推出了基于Deepseek 7b+Milvus的本地部署教程,就有不少开发者反应,7B版本,即使加上了向量数据库,也依然效果差强人意。

可是上满血版的大模型?满血的R1,参数有671B,即使已经是FP16精度,需要的显存也高达1342GB,换算成80G的A100,也需要足足17张。而个人电脑,即使采用顶配的24GB的4090,需要的数量也足足高达56张(MoE+量化会降低实际显存需求)……

很显然,别说个人,就是一些中小企业,也没这么多显卡。

那就用开源方案搭建?光是配置环境就够喝一壶的:向量库选型、模型部署、前端界面...每一步都像是在考验你的耐心。

难道就没有一个简单可行的方案吗?

被老板抓着加班部署了一个月后,相信我,Deepseek+Milvus+AnythingLLM,绝对是你部署本地知识库的最优解!

这个方案不仅解决了性能问题,更重要的是,它真的做到了"零门槛",只需要30分钟,就能搭建一个具备企业级性能的私有知识库。而且,整个过程真的像搭积木一样简单,小白也能快速上手。

01

选型思路

首先我们来看一下,这次选型,为什么采用Deepseek+Milvus+AnythingLLM这个组合,它主要解决了目前RAG落地的三大痛点:

1.1 模型性能问题

用过ollama提供的蒸馏版Deepseek的朋友,应该都有同感,虽然也是Deepseek,但效果实在不怎么聪明。总结来说,就是7B太智障,671B用不起。

所以,在这里,我们推荐使用硅基流动以及一些云服务企业的API服务,通过API调用的方式,我们可以用很低的成本获得满血版Deepseek的算力支持。而且,最近一段时间,新注册用户还有免费的额度尝鲜。

1.2 部署难度问题

市面上开源的RAG方案不少,但要么需要复杂的环境配置,要么需要大量的运维工作。而AnythingLLM则提供完整的UI界面,天然的支持向量数据库Milvus以及各种类型的大模型接口,降低了入门用户的使用门槛。

而Milvus在召回效率、支持的数量规模等方面,也是业内毋庸置疑的第一梯队,与此同时,Milvus也是目前github上向量数据库方向,star数量最多的开源产品,属于大部分AI开发者的入门基础课程

1.3 扩展性问题

这个组合最大的亮点在于它的灵活性。可以轻松切换不同的大语言模型,Milvus支持亿级数据的高性能检索,AnythingLLM的插件机制让功能扩展变得简单。

总的来说,这个组合方案既保证了效果,又降低了使用门槛,还具备良好的扩展性。对于想要快速搭建私有知识库的个人来说,是一个非常理想的选择。

224febc420ef6d27b96dba84298e3278.png

02

实战:搭建本地RAG

环境配置要求说明:

本文环境均以MacOS为例,Linux和Windows用户可以参考对应平台的部署文档。

docker和ollama安装不在本文中展开。

本地部署配置:最低CPU:4核、内存8G,建议 CPU:8核、内存16G

(1)Milvus部署

官网:https://milvus.io

1.1下载Milvus部署文件
bash-3.2$ wget https://github.com/milvus-io/milvus/releases/download/v2.5.4/milvus-standalone-docker-compose.yml -O docker-compose.yml
1.2修改配置文件

说明:anythingllm对接milvus时需要提供milvus账号密码,因此需要修改docker-compose.yml文件中的username和password字段。

version: '3.5'
services:etcd:container_name: milvus-etcdimage: registry.cn-hangzhou.aliyuncs.com/xy-zy/etcd:v3.5.5environment:- ETCD_AUTO_COMPACTION_MODE=revision- ETCD_AUTO_COMPACTION_RETENTION=1000- ETCD_QUOTA_BACKEND_BYTES=4294967296- ETCD_SNAPSHOT_COUNT=50000volumes:- ${DOCKER_VOLUME_DIRECTORY:-.}/volumes/etcd:/etcdcommand: etcd -advertise-client-urls=http://127.0.0.1:2379 -listen-client-urls http://0.0.0.0:2379 --data-dir /etcdhealthcheck:test: ["CMD", "etcdctl", "endpoint", "health"]interval: 30stimeout: 20sretries: 3minio:container_name: milvus-minioimage: registry.cn-hangzhou.aliyuncs.com/xy-zy/minio:RELEASE.2023-03-20T20-16-18Zenvironment:MINIO_ACCESS_KEY: minioadminMINIO_SECRET_KEY: minioadminports:- "9001:9001"- "9000:9000"volumes:- ${DOCKER_VOLUME_DIRECTORY:-.}/volumes/minio:/minio_datacommand: minio server /minio_data --console-address ":9001"healthcheck:test: ["CMD", "curl", "-f", "http://localhost:9000/minio/health/live"]interval: 30stimeout: 20sretries: 3standalone:container_name: milvus-standaloneimage: registry.cn-hangzhou.aliyuncs.com/xy-zy/milvus:v2.5.4command: ["milvus", "run", "standalone"]security_opt:- seccomp:unconfinedenvironment:ETCD_ENDPOINTS: etcd:2379MINIO_ADDRESS: minio:9000COMMON_USER: milvusCOMMON_PASSWORD: milvusvolumes:- ${DOCKER_VOLUME_DIRECTORY:-.}/volumes/milvus:/var/lib/milvushealthcheck:test: ["CMD", "curl", "-f", "http://localhost:9091/healthz"]interval: 30sstart_period: 90stimeout: 20sretries: 3ports:- "19530:19530"- "9091:9091"depends_on:- "etcd"- "minio"
networks:default:name: milvus
1.3启动并检查Milvus服务
bash-3.2$ docker-compose up -d

c495c4360c4b32de3f364e1d0d57affc.png

(2)ollama下载向量模型

官网:https://ollama.com/

2.1 下载查看向量模型
bash-3.2$  ollama pull nomic-embed-text
bash-3.2$  ollama list

41d6151613c53ab1bc5f591acc2a2fcf.png

(3)注册硅基流动获取API密钥

官网:https://siliconflow.cn/zh-cn/

ab003ac1ba94f791fc90cfc93a183a4c.png

3.1复制满血版deepseek模型名称

f17cedf99378d35f0b0f047f79581190.png

3.2 创建API密钥并记录

d3956415be4032952fc23646e5c890dc.png

(4)下载安装AnythingLLM

官网:https://anythingllm.com/

58beba5760e3bbbac36398f85fdb7fc8.png

4.1 安装时点击GetStarted

9ac01a72b762b0886527c1f40826f4aa.png

4.2 暂不配置先点下一步

59836370812223817d5bb559e9f18bcc.png

4.3 点击Skip跳过

e756b60a138cccd3fbcf05a9ccd4d507.png

4.4 部署完成进入首页

d709787b26ccd15a339182bda9b1f1df.png

(5)配置AnythingLLM

5.1添加deepseek模型

说明:点击LLM首选项选择提供商Generic OpenAI并填入刚才注册的API密钥、baserul、deepseek模型名称并保存

a928a4571ce79e7ef8978307ee0d0d98.png

5.2 添加milvus向量数据库

说明:点击向量数据库选项选择Milvus并填入刚才部署好的milvus的地址、用户名、密码并保存

e147b50055da741a65e6ccf506bba29d.png

5.3 添加embeding模型

说明:点击Embedder首选项选择ollama并填入刚才部署好的ollama的URL和模型名称并保存

c1e73dbe64de7ed0835dfabe9a57bd67.png

(6)效果演示

6.1 回到首页新建工作区

f28842da75904f096a2810071bc34a45.png

6.2 上传测试数据集

说明:数据集可以从huggingface上获取 网址:https://huggingface.co/datasets

7a2744d48a74d0ea9f9370c68c492153.png

上传区域传入数据集并点击Move向量化后存入milvus

d1fe81accab3fe7886ea21bee0c59465.png

489bf510dc16e7d276bab096130677f4.png

c40967d99d151955e4ef81c01f55c8f9.png

6.3 测试问答效果

说明:对话框中输入“怎么实现向量检索检索?”得到的回复是符合预期的,可以看到回复中引用了本地知识库中的内容。

0ce99af7edcc4fa62fbd316c9f802c3f.png

b86ac5227df1578a7c4295df324d785b.png

03

写在结尾:RAG落地的思考与展望

看到这里,相信你已经成功搭建起了自己的知识库系统。不过除了具体的搭建步骤,我觉得这个方案背后还有一些值得分享的思考。

1.架构设计的前瞻性

这套方案采用了"模型服务+向量数据库+应用前端"的解耦设计。这种架构的好处是显而易见的:

当新的大模型出现时,我们只需要替换模型服务

数据规模扩大时,可以单独升级向量库

业务需求变化时,前端界面也能独立演进

这种松耦合的设计理念,让系统具备了持续进化的能力。在AI技术快速迭代的今天,这一点尤为重要。

2.技术选型的平衡之道

在选择技术栈时,我们需要在多个维度之间找到平衡:

性能与易用性:通过API调用满血版模型,而不是本地部署蒸馏版

开发效率与扩展性:选择开箱即用的AnythingLLM,但保留了插件扩展能力

成本与效果:利用硅基流动等云服务,避免了高昂的硬件投入

这些选择背后,体现的是一种务实的工程思维。

3.RAG应用的演进趋势

从更大的视角来看,这套方案的出现其实反映了几个重要的行业趋势:

知识库建设正在从企业级需求向个人需求扩展

RAG技术栈正在标准化、组件化,降低了使用门槛

云服务的普及让高性能AI能力变得触手可及

未来,随着更多优秀的开源组件出现,RAG的应用场景会越来越丰富。我们可能会看到:

更多细分领域的专业知识库方案

更智能的数据处理和检索算法

更便捷的部署和运维工具

总的来说,这个"Deepseek+Milvus+AnythingLLM"的组合不仅解决了当前的实际需求,也为未来的演进预留了空间。对于想要探索RAG应用的个人和团队来说,现在就是最佳的入局时点。

如对以上案例感兴趣,或想对Milvus做进一步了解,欢迎扫描文末二维码交流进步。

作者介绍

图片

Zilliz 黄金写手:尹珉

推荐阅读

图片图片图片


http://www.ppmy.cn/embedded/161393.html

相关文章

DeepSeek接口联调(postman版)

第一步:获取API key 获取APIkeys链接https://platform.deepseek.com/api_keys 点击创建 API key 即可免费生成一个key值,别忘记保存。 第二步:找到deepseek官方接口文档 文档地址:https://api-docs.deepseek.com/zh-cn/ 第三步…

如何使用 Redux 中间件?

在 Redux 中使用中间件的步骤如下: 1. 安装 Redux 和中间件 如果你还没有安装 Redux,可以通过以下命令安装: npm install redux如果你想使用 Redux-Thunk 或其他中间件,安装它们。例如,安装 Redux-Thunk: npm install redux-thunk2. 引入并应用中间件 在创建 Redux …

【FPGA】模型机下载FPGA设计

目录 模型机下载FPGA设计 框架 仿真 代码 MIOC.v IO.v SoC.v 模型机下载FPGA设计 32位MIPS地址空间采用内存与IO统一编址方式,总共232个存储单元,每个单元默认存放1个字节,即总共4GB。划分为:用户空间和内核空间。 (1)…

Maven玩转

maven是什么? Maven 是一个由 Apache 软件基金会开发的项目管理和构建自动化工具,主要用于 Java 项目的构建、依赖管理和项目信息管理。Maven 的设计理念是基于项目对象模型(Project Object Model,POM),通…

Linux中getifaddrs函数

文章目录 **函数原型****参数****返回值****释放资源****`struct ifaddrs` 结构****示例代码****输出示例****相关函数****总结**getifaddrs 是 Linux(以及其他 Unix-like 系统)中用于获取本机网络接口信息的系统调用。它提供了一种简单的方法来获取所有网络接口的地址信息,…

Python基础语法精要

文章目录 一、Python的起源二、Python的用途三、Python的优缺点优点缺点 四、基础语法(1)常量和表达式(2)变量变量的语法(i)定义变量(ii)变量命名的规则 (3)变…

webpack配置项之---output.asyncChunks

output.asyncChunks output.asyncChunks 是 Webpack 配置中的一个选项,它用于控制是否生成按需加载的异步代码块(chunks)。 一、作用与功能 按需加载:当 output.asyncChunks 设置为 true 时,Webpack 会为动态导入的…

基于Flask的汽车质量投诉可视化分析系统的设计与实现

【FLask】基于Flask的汽车质量投诉可视化分析系统的设计与实现(完整系统源码开发笔记详细部署教程)✅ 目录 一、项目简介二、项目界面展示三、项目视频展示 一、项目简介 随着汽车市场的不断扩大和消费者维权意识的增强,汽车质量投诉问题日益…