一文了解DeepSeek

news/2025/2/4 4:52:37/

1. DeepSeek 的起源

  • 创立时间:DeepSeek 于 2023 年由中国的梁文锋创立。

  • V3 模型训练成本:最终训练成本为 600 万美元。

  • 开源:DeepSeek 提供开源版本。

  • 流行度:DeepSeek R1 模型成为 Apple 应用商店中下载量最高的应用。

2. 模型架构

  • 专家混合(MoE)架构:采用 Mixture of Experts(MoE)架构,这种架构通过专家网络提高效率和性能。

  • 学习方法:DeepSeek R1 使用 Group Relative Policy Optimization (GRPO) 学习方法:

    • 通过强化学习不断增强推理能力。

    • 结合精调(Fine Tune)与 GRPO 的双向循环,优化模型性能。

3. DeepSeek 模型统计

  • 基础模型规模:拥有 6710 亿参数。

  • 动态参数激活:激活动态参数规模为 370 亿。

  • 训练数据:使用 14.8 万亿个 token 进行训练。

  • MoE 架构:包含 16 个专家网络。

4. 性能与成本

  • 上下文窗口:支持高达 128K tokens 的上下文窗口。

  • 处理速度:每秒可处理 14.2 tokens

  • API 成本:处理 100 万 tokens 的输入和输出约为 8 美元。

  • 硬件需求:仅需 2000 张 Nvidia 显卡,而非传统模型的 16000 张。

5. OpenAI 的对比

  • 架构

    • DeepSeek:采用 MoE 架构,拥有 256 个推理专家。

    • OpenAI:采用 Transformer 编码器-解码器结构。

  • 参数效率

    • DeepSeek:使用 FP8 混合精度。

    • OpenAI:标准 transformer 实现。

  • 内存优化

    • DeepSeek:多头潜在注意力机制。

    • OpenAI:多头自注意力机制。

  • 训练速度

    • DeepSeek:训练时间约 90 天,使用 2000 张显卡。

    • OpenAI:需要 25000 张显卡,耗时超 100 天。

  • MATI-500 性能

    • DeepSeek:得分 97.3%。

    • OpenAI:得分 96.4%。

  • 编码能力

    • DeepSeek:Codeforces 评估 ELO 分数为 2029。

    • OpenAI:估计分数为 1673。

  • 成本效率

    • DeepSeek:API 成本 2-8 美元/百万 tokens。

    • OpenAI:API 成本 15-60 美元/百万 tokens。

6. 关键能力

  • 核心能力:编码、数学、推理、语言处理、搜索、API 集成等。

  • 附加功能

    • 研究与上下文整合:支持高效的科研任务。

    • 资源节约:相较于传统大模型具有更低成本。


http://www.ppmy.cn/news/1569140.html

相关文章

Anaconda使用教程 如何conda配置多版本Python环境

配置anaconda参考anaconda的安装和使用(管理python环境看这一篇就够了)-CSDN博客 Anaconda使用教程 主要用的两个为Anaconda Prompt 和Anaconda Navigator 打开cmd 第一次安装配置好conda的得先执行 conda init才能用 以后的创建环境和环境切换&…

OpenAI 实战进阶教程 - 第一节:OpenAI API 架构与基础调用

目标 掌握 OpenAI API 的基础调用方法。理解如何通过 API 进行内容生成。使用实际应用场景帮助零基础读者理解 API 的基本用法。 一、什么是 OpenAI API? OpenAI API 是一种工具,允许开发者通过编程方式与 OpenAI 的强大语言模型(例如 gpt-…

React中useState()钩子和函数式组件底层渲染流程详解

useState()钩子底层渲染流程 React中useState的底层渲染机理。首先,我知道useState是React Hooks的一部分,用于在函数组件中添加状态。但底层是如何工作的呢?可能涉及到React的调度器、Fiber架构以及闭包等概念。 首先,React使用F…

c++ map/multimap容器 学习笔记

1 map的基本概念 简介: map中所有的元素都是pair pair中第一个元素是key(键),第二个元素是value(值) 所有元素都会根据元素的键值自动排序。本质: map/multimap 属于关联式容器,底…

通信方式、点对点通信、集合通信

文章目录 从硬件PCIE、NVLINK、RDMA原理到通信NCCL、MPI原理!通信实现方式:机器内通信、机器间通信通信实现方式:通讯协调通信实现方式:机器内通信:PCIe通信实现方式:机器内通信:NVLink通信实现…

25寒假算法刷题 | Day1 | LeetCode 240. 搜索二维矩阵 II,148. 排序链表

目录 240. 搜索二维矩阵 II题目描述题解 148. 排序链表题目描述题解 240. 搜索二维矩阵 II 点此跳转题目链接 题目描述 编写一个高效的算法来搜索 m x n 矩阵 matrix 中的一个目标值 target 。该矩阵具有以下特性: 每行的元素从左到右升序排列。每列的元素从上到…

软件工程概论试题五

一、多选 1.好的软件的基本属性包括()。 A. 效率 B. 可依赖性和信息安全性 C. 可维护性 D.可接受性 正答:ABCD 2.软件工程的三要素是什么()? A. 结构化 B. 工具 C.面向对象 D.数据流! E.方法 F.过程 正答:BEF 3.下面中英文术语对照哪些是正确的、且是属…

Haskell语言的安全开发

Haskell语言的安全开发 引言 随着软件工程的不断发展,安全性问题日益成为软件开发中的关键挑战之一。面对日益复杂的系统和不断更新的攻击手段,开发者需要采用更加严格和有效的手段来保证软件的安全性。Haskell作为一种纯函数式编程语言,以…