【DeepSeek】Ubuntu快速部署DeepSeek(Ollama方式)

ops/2025/3/9 20:16:17/

文章目录

  • 人人都该学习的DeepSeek
  • DeepSeek不同版本功能差异
  • DeepSeek与硬件直接的关系
  • DeepSeek系统兼容性
  • 部署方式选择
  • 部署步骤(Ollama方式)
    • 1.选定适合的deepseek版本
    • 2.环境准备
    • 3.安装Ollama
    • 4.部署deepseek
    • 5.测试使用

在这里插入图片描述

DeepSeek_2">人人都该学习的DeepSeek

DeepSeek 作为一款先进的人工智能工具,具备强大的推理能力和广泛的应用场景,能够帮助用户高效解决复杂问题。它支持文本生成、代码编写、数据分析、情感分析等多种任务,适用于教育、医疗、金融、创意等各行各业。它的开源特性使得个人和企业能够低成本地利用其功能,推动AI技术的普及。无论是提升工作效率、辅助学习,还是解决生活中的问题,DeepSeek 都能提供智能化支持。

DeepSeek_4">DeepSeek不同版本功能差异

版本特点适用场景
1.5B轻量级模型,参数量少,推理速度快,适合低资源环境。短文本生成、基础问答、移动端应用(如简单智能助手)。
7B平衡型模型,性能与资源需求适中,支持中等复杂度任务。文案撰写、表格处理、统计分析、简单代码生成。
8B性能略强于7B,优化逻辑推理和代码生成。代码生成、逻辑推理(如数学题解决)、中等复杂度文本生成。
14B高性能模型,擅长复杂任务(如数学推理、长文本生成)。数据分析、长文本生成(如研究报告)、多模态任务预处理。
32B专业级模型,支持高精度任务和大规模数据处理。语言建模、金融预测、复杂病例分析(医疗场景)。
70B顶级模型,多模态任务支持,科研级分析能力。高精度临床决策(医疗)、多模态数据分析、前沿科学研究。
671B超大规模基础模型,最高准确性和推理速度,支持国家级研究。气候建模、基因组分析、通用人工智能探索。

注:671B是我们常说的满血版deepseek。

​关键点

​1. 输入输出

  • ​短文本处理​(1.5B-7B):最大支持16k tokens,适合对话和短文生成。
  • ​长文本处理​(32B+):32k-10M tokens,可处理整本书籍或科研论文。
  • ​多模态支持:32B及以上版本实验性支持图文混合输入,671B版本实现视频流解析。

​2. 推理计算

  • ​数学能力:7B版本仅支持四则运算,32B版本可解微积分方程(准确率92%)。
  • ​代码生成:7B生成单文件脚本,14B支持全栈项目架构设计(含单元测试)。

​3. 部署

  • ​量化支持:1.5B支持8-bit量化(体积压缩至400MB),70B需保留FP16精度。
  • ​分布式训练:70B版本支持千卡并行训练(吞吐量1.2 exaFLOPs),671B版本兼容量子计算节点。

DeepSeek_38">DeepSeek与硬件直接的关系

参数推荐显卡型号显存要求内存存储适用场景
1.5BNVIDIA RTX 30604-8GB8GB+3GB+ SSD低资源设备部署、简单对话
7BNVIDIA RTX 3070/40608GB+16GB+8GB+ NVMe SSD本地开发测试、中小型企业任务
8BNVIDIA RTX 30908GB+16GB+8GB+ NVMe SSD高精度轻量级任务
14BNVIDIA RTX 309016GB+32GB+15GB+ NVMe SSD企业级复杂任务、专业咨询
32BNVIDIA A100 40GB24GB+64GB+30GB+ NVMe SSD高精度专业领域任务
70BNVIDIA A100 80GB 多卡≥40GB(多卡)128GB+70GB+ NVMe SSD企业级复杂任务处理、科研
671BNVIDIA H100/HGX 集群640GB(8卡并行)512GB+400GB+ NVMe SSD超大规模科研计算、国家级项目

注:32B是一个分水岭,从该版本开始对硬件要求开始急速升高。

DeepSeek_55">DeepSeek系统兼容性

操作系统兼容性与性能问题与风险工具与部署建议
Windows支持轻量级至中型模型(如7B-32B量化版)底层架构限制可能导致闪退或延迟,需关闭后台程序、更新显卡驱动推荐使用Ollama进行一键部署,结合任务管理器监控资源占用,性能较Linux低10%-15%
Linux适配全版本模型(含70B+超算级部署)需注意安全防护(88.9%未防护服务器存在漏洞风险)通过LMDeploy优化推理速度,SGLang实现多模型协同,建议Ubuntu系统,性能最优 且支持分布式计算
Mac仅支持1.5B-8B轻量模型,依赖M系列芯片NPU加速(如M2 Ultra)模型选择受限,复杂任务响应延迟显著(生成速度约2-3 tokens/秒)必须通过Ollama进行4-bit量化压缩,优先使用Metal框架加速

注:部署时Linux系统最优。

部署方式选择

  1. 优先选 Ollama 的场景
    • 快速原型开发、个人项目测试
    • 硬件资源有限(如无高端 GPU)
    • 无需复杂参数调优
  2. 优先选直接部署的场景
    • 企业级服务需高并发、低延迟响应
    • 需定制模型或优化底层计算(如 FP8 加速、MOE 负载均衡)
    • 对数据隐私和合规性要求极高

部署步骤(Ollama方式)

1.选定适合的deepseek版本

按照自己的需求选取合适的deepseek版本,可参照上文的表格内容。
选择的依据主要是:

  • 使用场景
  • 功能需要
  • 硬件限制
  • 成本要求

2.环境准备

准备好Ubuntu系统,deepseek推荐使用Ubuntu20.04及以上版本。当前示例使用的是Ubuntu18.04版本。

当前配置情况:

  • CPU:16核心
  • 内存:64Gb
  • 硬盘:128Gb
  • GPU:RTX 4090

显卡驱动准备
准备好裸机后首先更新系统:

sudo add-apt-repository ppa:graphics-drivers/ppa #18.04版本较旧,需要加上新的驱动
sudo apt update && sudo apt upgrade -y  # 更新系统包
sudo apt install nvidia-driver-535  # 安装NVIDIA驱动

安装好显卡驱动后,确认显卡运行情况:

nvidia-smi

如图所示是驱动完成。
在这里插入图片描述

CUDA环境准备

sudo apt update
sudo apt install nvidia-cuda-toolkit

3.安装Ollama

安装Ollama:

curl -fsSL https://ollama.ai/install.sh | sh  # 执行官方安装脚本

启用Ollama:

sudo systemctl start ollama  # 启动服务
ollama --version  # 输出版本号即成功

可能的问题:

1.如果下载Ollama网络慢导致异常中断,可能如下所示:

curl: (16) Error in the HTTP2 framing layer
gzip: stdin: unexpected end of file
tar: Child returned status 1
tar: Error is not recoverable: exiting now

解决方案:

curl -fsSL https://ollama.com/install.sh -o ollama_install.sh
sed -i 's|https://ollama.com/download/ollama-linux|https://gh.llkk.cc/https://github.com/ollama/ollama/releases/download/v0.5.7/ollama-linux|g' ollama_install.sh
chmod +x ollama_install.sh
sudo ./ollama_install.sh

4.部署deepseek

ollama pull deepseek-r1:14b  # 下载14B参数版本

整个过程需要一些时间:
在这里插入图片描述
在这里插入图片描述

5.测试使用

测试deepseek运行情况:

ollama run deepseek-r1:14b

在这里插入图片描述


http://www.ppmy.cn/ops/164480.html

相关文章

UE5 蓝图项目转换为 C++项目

步骤 1:确认项目类型 蓝图项目:仅支持蓝图脚本,"File" 菜单中不会有 C 相关选项。C 项目:支持 C 代码,允许创建和使用 C 类。 图像描述表明当前项目是蓝图项目,因此需要将其转换为 C 项目。 步…

MySQL中的脏读与幻读:概念、影响与解决方案

在数据库事务处理中,脏读和幻读是两种常见的并发问题,可能导致数据不一致或逻辑错误。本文将结合实际场景,深入解析两者的原理及解决方案。 一、脏读(Dirty Read) 1. 概念解析 脏读指一个事务读取了另一个事务未提交…

RabbitMQ 高级特性解析:RabbitMQ 消息可靠性保障 (上)

RabbitMQ 核心功能 RabbitMQ 高级特性解析:RabbitMQ 消息可靠性保障 (上)-CSDN博客 RabbitMQ 高级特性:从 TTL 到消息分发的全面解析 (下)-CSDN博客 前言 最近再看 RabbitMQ,看了看自己之前写…

CCF-GESP Python一级考试全解析:网络协议+编程技能双突破

第一章 CCF-GESP考试全景透视 1.1 认证体系权威性 中国计算机学会(CCF)主办的GESP编程能力等级认证,是国内首个面向青少年的编程能力标准化评估体系。Python一级考试作为入门级认证,主要考察考生对计算机基础逻辑、编程工具使用及…

cmake使用笔记

cmake简单示例 以下是一个分目录的简单 CMakeLists.txt 示例,展示如何组织一个多目录项目,并使用 CMake 构建。 项目目录结构 MyProject/ ├── src/ # 源文件目录 │ ├── main.cpp # 主程序入口 │ ├── utils.cpp …

STM32项目分享:STM32智能窗户

目录 一、前言 二、项目简介 1.功能详解 2.主要器件 三、原理图设计 四、PCB硬件设计 PCB图 五、程序设计 六、实验效果 七、资料内容 项目分享 一、前言 项目成品图片: 哔哩哔哩视频链接: STM32智能窗户 (资料分享见文末&…

Ansys Zemax | 使用衍射光学器件模拟增强现实 (AR) 系统的出瞳扩展器 (EPE):第 4 部分

附件下载 联系工作人员获取附件 在 OpticStudio 中使用 RCWA 工具为增强现实(AR)系统设置出瞳扩展器(EPE)的示例中,首先解释了k空间中光栅的规划,并详细讨论了设置每个光栅的步骤。 介绍 本文是该四篇文…

Qwen架构与Llama架构的核心区别

我们在讨论Deepseek不同版本之间的区别时了解到,DeepSeek-R1的蒸馏模型分为Qwen和Llama两个系列,包括Qwen系列的0.5B、1.5B、3B、7B、14B、32B、72B和Llama系列的8B、70B。Qwen系列以阿里通义千问(Qwen)为基础模型架构(具体是Qwen-2.5),Llama系列以Meta的Llama为基础模型…