DeepSeek r1本地安装全指南

embedded/2025/2/1 11:09:45/

环境基本要求

硬件配置

需要本地跑模型,兼顾质量、性能、速度以及满足日常开发需要,我们需要准备以下硬件:

  • CPU:I9
  • 内存:128GB
  • 硬盘:3-4TB 最新SSD,C盘确保有400GB,其它都可划成D盘;
  • GPU:4080S即可(有条件的上4090D或者双卡),但是4080S已经足足够用了;
  • 风扇:华硕七彩,10个 + 大功能水冷;
  • 机箱:别用什么海景房,什么火山岩,不实用,太小,建议直接就是买那种大号的半透明机箱一个就行了,又大散热又好,什么海景房火山岩都不如搞7彩风扇好看;

软件配置

  • 操作系统:Win11/Linux CentOS8.2/Ubuntu 24+
  • 安装nvidia驱动,安装nvidia cuda核心,安装nvidia cudnn
  • python 3.10+
  • chatbox(用于作GUI聊天对话界面用)

确保nvidia的驱动在安装后你还必须要有nvidia cuda核心

一般互联网开发人员不知道这是什么,我们这样来装它。

先打开你的nvidia驱动装完后右下角的nvidia control panel找到以下这样的一个界面

一般4080s+以上都是12.6.65及以上,我们记成12.6.0。

于是打开以下网址下载nvidia cuda核心:

https://developer.nvidia.com/cuda-12-6-0-download-archive?target_os=Windows&target_arch=x86_64&target_version=10&target_type=exe_local

 在此下载cuda 12.6。

确保nvidia CUDNN被安装

一定要先装完了cuda核心后,再要装cudnn。

https://developer.nvidia.com/rdp/cudnn-archive#a-collapse897-120

我们进入nvidia开发者中心里下载它。

cuDNN下载完成后,是一个压缩包,解压完成后。请严格按照下面步骤去做,它解压后包含bin,include,lib三个目录。

  1. 把cuda\bin\cudnn64_7.dll复制到 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\bin 目录下.

  2. 把\cuda\ include\cudnn.h复制到 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\include 目录下.

  3. 把\cuda\lib\x64\cudnn.lib复制到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.2\lib\x64 目录下.

安装Ollama

接着我们下载Ollama,https://ollama.com/。

下载完后直接安装它。

安装完后右下角会有这么一个图标。

安装完后即启动了,你也可以设置成开机不启动。

配置ollama

我我们使用ollama安装deek seek前,一定要先做配置,如果不配置,它会在安装时把很多模型文件一股脑的装到你的:

  • Windows 目录:C:\Users%username%.ollama\models
  • MacOS 目录:~/.ollama/models
  • Linux 目录:/usr/share/ollama/.ollama/models

这样的话你的C盘或者是启动盘就吃紧了,到时麻烦可就大了。

必配参数与解释

OLLAMA_MODELS

模型文件存放目录,默认目录为当前用户目录我们把它指向了D盘的d:\ollama_models。

OLLAMA_HOST

Ollama 服务监听的网络地址,默认为127.0.0.1,如果允许其他电脑访问 Ollama(如:局域网中的其他电脑),建议设置成0.0.0.0,从而允许其他网络访问

OLLAMA_PORT

Ollama 服务监听的默认端口,默认为11434,如果端口有冲突,可以修改设置成其他端口(如:8080等)

OLLAMA_ORIGINS

HTTP 客户端请求来源,半角逗号分隔列表,若本地使用无严格要求,可以设置成星号,代表不受限制

OLLAMA_KEEP_ALIVE

大模型加载到内存中后的存活时间,默认为5m即 5 分钟(如:纯数字如 300 代表 300 秒,0 代表处理请求响应后立即卸载模型,任何负数则表示一直存活);我们可设置成24h,即模型在内存中保持 24 小时,提高访问速度

OLLAMA_NUM_PARALLEL

请求处理并发数量,默认为1,即单并发串行处理请求,可根据实际情况进行调整

OLLAMA_MAX_QUEUE

请求队列长度,默认值为512,可以根据情况设置,超过队列长度请求被抛弃

OLLAMA_DEBUG

输出 Debug 日志标识,应用研发阶段可以设置成1,即输出详细日志信息,便于排查问题

OLLAMA_MAX_LOADED_MODELS

最多同时加载到内存中模型的数量,默认为1,即只能有 1 个模型在内存中

配置完成后,启动一个terminal或者是命令行,然后以下几条常用ollama命令供参考

Ollama常用命令

列出当前系统装了哪些模型

ollama list

NAME            ID              SIZE    MODIFIED

gemma2:9b       c19987e1e6e2    5.4 GB  7 days ago

qwen2:7b        e0d4e1163c58    4.4 GB  10 days ago

安装和运行一个模型

ollama run deepseek-r1:14b

如果这个模型不存在,它就会先下载这个模型至ollama_models指向的那个目录并作下载,如上条命令就是安装和运行deep seek r1 14b的。

查看己安装的模型

ollama ps

删除一个模型

ollama rm 

如:

ollama rm gemma2:9b

安装完后Deek Seek使用ChatBox来做验证

下载网址

 https://chatboxai.app/zh

建议安装1.9.6版。

配置

 我们使用了一个生产的复杂场景,3层推理分别试了让GPT3.5 TURBO16K以及GPT4O,还有QWEN2 7B以及Deep Seek r1 14b分别作了回答。

无论是从GPU性能开销、回答正确性来看,Deep Seek秒杀了Gpt4O,不得不说Deep Seek是我们的国产之光。

这下,我们实现了AI自由了。

附、其它ollama支持的模型

模型

参数大小使用命令

Llama 3.1

8B

4.7GB

ollama run llama3.1

Llama 3.1

70B40GB

ollama run llama3.1:70b

Llama 3.1

405B231GB

ollama run llama3.1:405b

Gemma 2

9B

5.5GB

ollama run gemma2

Gemma 2

27B16GB

ollama run gemma2:27b

qwen2

7B4.4GB

ollama run qwen2

qwen2

72B41GB

ollama run qwen2:72b

glm4

9B

5.5GB

ollama run glm4


http://www.ppmy.cn/embedded/158609.html

相关文章

大数据学习之SCALA分布式语言三

7.集合类 111.可变set一 112.可变set二 113.不可变MAP集合一 114.不可变MAP集合二 115.不可变MAP集合三 116.可变map一 package com . itbaizhan . chapter07 //TODO 2. 使用 mutable.Map 前导入如下包 import scala . collection . mutable // 可变 Map 集合 object Ma…

Safe 推出 Agentathon 活动:推动 AI 原生智能账户采用

“Safe Ecosystem Foundation 将于 2025 年 2 月 3 日至 17 日举行首届 Safe Agentathon 活动——一个专注于 DeFAI 的黑客马拉松,全球开发者将有机会争夺超过 20 万美元的赏金,并与 Ai16z、Consensys、Kraken 等顶尖专家共同合作。为期两周的赛事将展示…

【机器学习】自定义数据集 ,使用朴素贝叶斯对其进行分类

一、贝叶斯原理 贝叶斯算法是基于贝叶斯公式的,其公式为: 其中叫做先验概率,叫做条件概率,叫做观察概率,叫做后验概率,也是我们求解的结果,通过比较后验概率的大小,将后验概率最大的…

tcp/ip协议和ip协议,tcp/ip协议 ip协议

TCP/IP协议和IP协议在网络通信中扮演着重要的角色,它们之间既有联系又有区别。以下是对两者的详细解释: TCP/IP协议 定义: TCP/IP协议(Transmission Control Protocol/Internet Protocol)是网络通信协议的一种&…

QT中给界面设置qss样式

1.在main函数中添加qss样式表 //1.读取qss文件QFile qss(QString("H:/code/QT_study/qss/page.qss"));if (qss.open(QFile::ReadOnly)){a.setStyleSheet(qss.readAll());}2.在使用的地方设置 if (parent->objectName().isEmpty()) {parent->setObjectName(QS…

Haskell语言的安全开发

Haskell语言的安全开发 引言 随着软件工程的不断发展,安全性问题日益成为软件开发中的关键挑战之一。面对日益复杂的系统和不断更新的攻击手段,开发者需要采用更加严格和有效的手段来保证软件的安全性。Haskell作为一种纯函数式编程语言,以…

HTMLCSS :下雪了

这段代码创建了一个动态的雪花飘落加载动画,通过 CSS 技术实现了雪花的下落和消失效果,为页面添加了视觉吸引力和动态感。 大家复制代码时,可能会因格式转换出现错乱,导致样式失效。建议先少量复制代码进行测试,若未能…

CSS核心

CSS的引入方式 内部样式表是在 html 页面内部写一个 style 标签&#xff0c;在标签内部编写 CSS 代码控制整个 HTML 页面的样式。<style> 标签理论上可以放在 HTML 文档的任何地方&#xff0c;但一般会放在文档的 <head> 标签中。 <style> div { color: r…