DeepSeek 开源模型全解析(2024.1.1–2025.2.6)

devtools/2025/2/9 1:39:33/

目录

一、通用大语言模型:DeepSeek-V3 系列 137

二、推理优化模型:DeepSeek-R1 系列 811

三、多模态模型:Janus 系列 10

四、生态整合与部署建议

五、总结与展望


以下为 DeepSeek 在 2024 年 1 月至 2025 年 2 月期间发布的开源模型及其核心信息,涵盖自然语言处理、多模态与推理优化三大领域:


一、通用大语言模型:DeepSeek-V3 系列 137
模型名称版本号参数规模特点公布时间下载地址
DeepSeek-V31.0总参数 671B,激活参数 37B架构创新:首款融合 FP8 混合精度训练、多头潜在注意力(MLA)与 MoE 架构的模型,显存消耗降低 30%
性能对标:在数学(MATH 评测 61.6 EM)、代码(HumanEval 65.2 Pass@1)等任务上超越 GPT-4o 与 Claude-3.5-Sonnet
效率提升:生成速度达 60 TPS(前代的 3 倍),支持 128K 长上下文
2024-12-26Hugging Face
DeepSeek-V3-Base1.0同 DeepSeek-V3- 提供原生 FP8 权重,支持 SGLang、LMDeploy 等推理框架
- 开源社区已适配 TensorRT-LLM 和 MindIE 的 BF16 推理优化
2024-12-26Hugging Face

部署要求

  • 硬件:推荐使用 4 台华为 Atlas 800I A2 服务器(每台配置 8×64G 显存)2

  • 软件:支持昇腾 MindIE 镜像(预置推理脚本)或 Hugging Face 本地部署工具链


二、推理优化模型:DeepSeek-R1 系列 811
模型名称版本号参数规模特点公布时间下载地址
DeepSeek-R11.0总参数 671B强化学习驱动:通过纯强化学习实现复杂推理能力,无需监督微调
性能对标:在 LiveCodeBench 等编程任务中超越 OpenAI o1,数学推理接近 Claude-3.5-Sonnet
思维链 API:输出包含推理过程(最长 32K tokens),支持企业级应用透明化决策
2025-01-23Hugging Face
DeepSeek-R1-Zero1.0总参数 671B纯 RL 训练:首个无需监督微调的推理模型,验证强化学习在复杂任务中的潜力
局限:输出存在重复与语言混杂问题,主要用于研究场景
2025-01-21Hugging Face
R1-Distill 系列1.015B–70B知识蒸馏:从 R1 蒸馏的小模型,32B 和 70B 版本性能对标 OpenAI-o1-mini
硬件友好:支持低显存设备部署
2025-01-23Hugging Face

部署要求

  • 硬件:R1 全量版需与 DeepSeek-V3 类似配置;蒸馏版 70B 可在单台 A100(80G)运行

  • API 集成:支持腾讯云 HAI、阿里云 PAI 等平台一键部署611


三、多模态模型:Janus 系列 10
模型名称版本号参数规模特点公布时间下载地址
Janus-Pro-7B1.07B文生图 SOTA:GenEval 准确率 80%(超 DALL-E 3 的 61%)
多模态融合:支持图像描述、视觉问答与跨模态检索
2025-01-28Hugging Face
JanusFlow1.0未公开流程优化:扩展 Janus-Pro 的视频生成与编辑能力,支持动态场景连续推理2025-01-28Hugging Face

部署要求

  • 硬件:Janus-Pro-7B 可在 RTX 4090(24G 显存)运行,FP16 量化后显存占用低于 10G

  • 框架:需搭配 Diffusers 库与 PyTorch 2.3+


四、生态整合与部署建议
  1. 云平台支持

    • 百度智能云、阿里云、华为云等均提供 DeepSeek-V3/R1 的一键部署,限时免费配额 1000 RPM613

    • 腾讯云 HAI 支持 3 分钟启动 R1 模型,集成对象存储与开发工具链11

  2. 本地优化方案

    • FP8 推理:利用 LMDeploy 压缩显存占用(V3 需 4×H800)1

    • 动态蒸馏:企业可根据场景选择 R1-Distill 系列降低算力成本8

  3. 开源协议

    • 所有模型遵循 MIT 协议,允许商业用途与二次开发11


五、总结与展望

DeepSeek 在 14 个月内通过 V3、R1、Janus 三大系列模型,实现了从通用语言模型到垂直领域推理与多模态的技术闭环。其开源策略不仅推动国产模型生态繁荣(如百度、阿里、华为云全面接入613),更以 1/10 训练成本(对比 GPT-4)重塑行业效率标准7。开发者可通过 Hugging Face 快速获取模型权重,结合昇腾或英伟达硬件构建定制化 AI 服务。未来,DeepSeek 计划扩展多模态与深度思考功能,进一步缩小开源与闭源模型的差距。


http://www.ppmy.cn/devtools/157227.html

相关文章

第十八章 视图

目录 一、概述 二、语法 2.1. 创建视图 2.2. 查询视图 2.3. 修改视图 2.4. 删除视图 2.5. 示例 三、检查选项 3.1. CASCADED(级联) 3.2. LOCAL(本地) 四、视图的更新 五、视图作用 5.1. 简单 5.2. 安全 5.3. 数据独…

数据库课程设计基于Java+MySQL+JDBC+JavaSwing的停车场管理系统源代码+数据库,进出车辆登记,车位管理

🚗停车场管理系统 运用技术 Java语言MySQL数据库JDBCSwing窗口交互 实现效果 用户登录:输入账号密码,验证通过方可进入,否则给出错误提示,拒绝访问 用户注册:提供用户注册功能,输入用户名&am…

鸿蒙 Next 开发实践:使用 WebView 适配移动端网站

在移动应用开发中,有时我们需要将已有的移动端网站嵌入到原生应用中,以实现快速开发和功能扩展。鸿蒙 Next 提供了强大的 WebView 组件,可以轻松实现这一目标。本文将通过一个简单的示例,展示如何在鸿蒙 Next 应用中使用 WebView …

DeepSeek-R1:开源机器人智能控制系统的革命性突破

目录 引言 一、DeepSeek-R1 的概述 1.1 什么是 DeepSeek-R1? 1.2 DeepSeek-R1 的定位 二、DeepSeek-R1 的核心特性 2.1 实时控制能力 2.2 多传感器融合 2.3 路径规划与导航 2.4 人工智能集成 2.5 开源与模块化设计 2.6 跨平台支持 三、DeepSeek-R1 的技术…

开源安全一站式构建!开启企业开源治理新篇章

在如今信息技术日新月异、飞速发展的数字化时代,开源技术如同一股强劲的东风,为企业创新注入了源源不断的活力,然而,正如一枚硬币有正反两面,开源技术的广泛应用亦伴随着不容忽视的挑战。安全风险如影随形,…

Unity3D开发之2019.4.5f1版本IPointerClickHandler Bug

实际代码测试ui物体挂载的脚本里: 如果实现IPointerDownHandler和IPointerClickHandler接口,则会触发OnPointerClick和OnPointerDown函数调用。如果只实现IPointerClickHandler接口,则不会触发OnPointerClick函数调用。如果只实现IPointerDo…

从 .NET Framework 升级到 .NET 8 后 SignalR 问题处理与解决方案

随着 .NET Framework 向 .NET 8 的迁移,许多开发者在使用 SignalR 时遇到了一些前后端连接、配置、调用等方面的问题。尤其是在处理 SignalR 实时通信功能时,升级后的一些兼容性问题可能导致应用程序无法正常工作。本文将介绍在从 .NET Framework 升级到…

STM32 简介

STM32 简介 1. STM32性能2. STM32命名规则3. STM32分类4. 传统嵌入式方向 1. STM32性能 STM32 的优异性体现在如下几个方面: 超低的价格。8 位机的价格,32 位机的性能,是 STM32 最大的优势。超多的外设。STM32 拥有包括:FMC、TIME…