DeepSeek开源周:全面革新AI基础设施技术的盛宴

news/2025/3/4 11:10:28/
aidu_pl">

在2025年2月24日至28日,DeepSeek举办了备受瞩目的aiYuan.html" title=开源>开源周活动,期间连续五天发布了一系列覆盖AI基础设施全链路的核心技术项目。这些项目横跨计算优化、通信加速、并行策略、存储系统等多个关键维度,为AI领域的发展注入了强大的动力,引发了广泛的行业关注。

aiYuan.html" title=开源>开源项目发布时间线

项目2月24日2月25日2月26日2月27日2月28日
FlashMLA
DeepEP
DeepGEMM
DualPipe与EPLB
3FS与Smallpond

★ 表示发布日期

未来技术演进路线

aid"> aid-svg-MeS3XKiDesfhdegl" width="100%" xmlns="http://www.w3.org/2000/svg" viewbox="0 0 1200 172" height="172" style="max-width: 1200px;" class="mermaid-svg"> ain" stroke="currentColor" d="M0,-87V0H1050V-87"> 2025-03-02 2025-03-09 2025-03-16 2025-03-23 2025-03-30 2025-04-06 2025-04-13 2025-04-20 2025-04-27 2025-05-04 2025-05-11 2025-05-18 2025-05-25 2025-06-01 2025-06-08 2025-06-15 2025-06-22 2025-06-29 R2模型开发 昇腾芯片深度优化 开发者大赛 模型迭代 硬件适配 生态建设 DeepSeek技术路线图

一、aiYuan.html" title=开源>开源项目技术深度剖析

(一)FlashMLA(2月24日发布)

  1. 技术定位
    专为Hopper GPU优化的多头潜在注意力(MLA)解码内核,其设计目标聚焦于可变长度序列处理场景,这类场景在自然语言处理、语音识别等众多AI应用中极为常见。
  2. 核心创新点
    • 动态资源分配机制:传统的固定填充方式在处理可变长度序列时,会导致大量显存被闲置浪费,如同租用了过多的"算力卡车",却没有充分利用。而FlashMLA能够根据输入序列长度实时且精准地调整GPU算力分配。这一机制就像是拥有了一个智能调度员,能够根据实际运输量(序列长度)来灵活安排卡车数量(算力),从而极大地提高了资源利用率。
    • 分页KV缓存管理策略:通过创新的分页机制,FlashMLA将显存占用降低至传统方法的1/4。并且,它支持BF16格式,内存带宽高达3000 GB/s。这种高效的缓存管理方式,使得数据在显存中的存储和读取更加高效,就像一个精心规划的仓库,货物(数据)能够快速准确地被存取。
    • 低秩分解技术应用:为了更好地适配边缘设备部署,FlashMLA采用低秩分解技术来压缩多头注意力的显存需求。边缘设备通常资源有限,而这一技术就像是一个高效的压缩打包工具,能够在不影响核心功能的前提下,减少数据存储所需的空间。
  3. 创新点流程图

FlashMLA 技术流程:

aid"> aid-svg-YXGsLyWj3iUbIjGt" width="1147.3021240234375" xmlns="http://www.w3.org/2000/svg" height="83" viewbox="0 0 1147.3021240234375 83" class="mermaid-svg">
ainer" style="" rx="0" ry="0" x="-71.5" y="-20.5" width="143" height="41">
输入序列长度识别
ainer" style="" rx="0" ry="0" x="-71.5" y="-20.5" width="143" height="41">
动态资源分配模块
ainer" style="" rx="0" ry="0" x="-86.5625" y="-20.5" width="173.125" height="41">
实时调整GPU算力分配
ainer" style="" rx="0" ry="0" x="-76.08854675292969" y="-33.5" width="152.17709350585938" height="67">
分页KV缓存管理
降低显存占用至1/4
ainer" style="" rx="0" ry="0" x="-71.5" y="-20.5" width="143" height="41">
低秩分解技术模块
ainer" style="" rx="0" ry="0" x="-63.5" y="-33.5" width="127" height="67">
压缩多头注意力
显存需求
  1. 性能亮点展示
    在性能方面,FlashMLA表现卓越。其算力峰值可达580 TFLOPS,这一数值已经非常接近H800的理论极限。在实际应用中,例如聊天机器人场景,实时任务延迟得到了显著降低,从原本的秒级响应时间大幅缩短至毫秒级,极大地提升了用户体验。

  2. 性能数据表

性能指标数值
算力峰值580 TFLOPS
显存占用变化降至传统方法的1/4
内存带宽3000 GB/s
延迟降低效果从秒级降至毫秒级

(二)DeepEP(2月25日发布)

  1. 技术定位
    DeepEP是首个专为MoE(混合专家)模型设计的aiYuan.html" title=开源>开源通信库,其主要使命是优化分布式训练与推理过程中的通信效率。在当今大规模AI模型训练中,分布式训练成为主流方式,而通信效率往往成为制约训练速度和效果的关键因素。
  2. 核心创新点
    • 硬件级通信优化手段:DeepEP充分利用NVLink(160 GB/s)与RDMA跨节点传输技术,将GPU等待时间成功压缩至163微秒级。这就像是在高速公路上为数据传输开辟了专用车道,让数据能够快速畅行,减少了GPU等待数据的时间浪费。
    • FP8智能压缩技术运用:原生支持低精度计算,通过FP8智能压缩技术,有效地减少了带宽需求。在数据传输过程中,就像对数据进行了高效的压缩打包,在不损失关键信息的前提下,减少了传输的数据量,从而缓解了带宽压力。
    • 通信 - 计算重叠策略:基于钩子(hook - based)的方法,实现了通信与计算的重叠,并且这一过程无需占用流式多处理器资源。这意味着在GPU进行计算的同时,可以并行地进行数据通信,大大提高了整体的运行效率,就像工厂里的两条生产线同时运作,互不干扰。
  3. 创新点流程图

DeepEP 技术流程:

aid"> aid-svg-nKy7pVMeiMddAIbp" width="1222.71875" xmlns="http://www.w3.org/2000/svg" height="83" viewbox="0 0 1222.71875 83" class="mermaid-svg">
ainer" style="" rx="0" ry="0" x="-79.5" y="-20.5" width="159" height="41">
分布式训练需求识别
ainer" style="" rx="0" ry="0" x="-79.5" y="-20.5" width="159" height="41">
硬件级通信优化模块
ainer" style="" rx="0" ry="0" x="-76" y="-33.5" width="152" height="67">
NVLink和RDMA技术
压缩GPU等待时间
ainer" style="" rx="0" ry="0" x="-68.359375" y="-33.5" width="136.71875" height="67">
FP8智能压缩技术
减少带宽需求
ainer" style="" rx="0" ry="0" x="-79.5" y="-20.5" width="159" height="41">
基于钩子的重叠策略
ainer" style="" rx="0" ry="0" x="-95.5" y="-33.5" width="191" height="67">
通信计算重叠执行
无流式多处理器资源占用
  1. 性能亮点展示
    在实际应用中,DeepEP展现出了强大的性能优势。对于千亿参数模型,其训练成本降低了30%,MoE训练吞吐量提升了1.2倍。这使得大规模模型训练的成本效益得到了显著提升,为更多机构和开发者开展大规模模型训练提供了可能。

  2. 性能数据表

性能指标数值
GPU等待时间163微秒级
千亿参数模型训练成本降低比例30%
MoE训练吞吐量提升倍数1.2倍

(三)DeepGEMM(2月26日发布)

  1. 技术定位
    DeepGEMM是面向Hopper GPU的高效FP8矩阵计算库,致力于深度优化Tensor Core性能。矩阵计算在AI计算中占据着核心地位,而对GPU中Tensor Core性能的优化,能够极大地提升AI计算的效率。
  2. 核心创新点
    • FP8精度适配机制:通过独特的两级CUDA核心累加机制,DeepGEMM巧妙地平衡了计算速度与精度之间的关系。在保证计算精度满足实际需求的同时,将显存占用降低至仅为FP16的1/4。这一机制就像是在保证产品质量的前提下,优化了生产过程中的原材料(显存)消耗。
    • 即时编译(JIT)技术:采用即时编译技术,DeepGEMM能够动态生成适配不同GPU架构的内核。其核心代码仅300行,却展现出了超越英伟达CUTLAS 3.6的性能。这种灵活性使得DeepGEMM能够在不同的硬件环境中都发挥出最佳性能,就像一个万能钥匙,能够适配各种不同的锁(GPU架构)。
  3. 创新点流程图

DeepGEMM 技术流程:

aid"> aid-svg-ETDuLPJHSm9o0jzD" width="1184.322998046875" xmlns="http://www.w3.org/2000/svg" height="83" viewbox="0 0 1184.322998046875 83" class="mermaid-svg">
ainer" style="" rx="0" ry="0" x="-79.5" y="-20.5" width="159" height="41">
速度与精度平衡需求
ainer" style="" rx="0" ry="0" x="-68.359375" y="-20.5" width="136.71875" height="41">
FP8精度适配模块
ainer" style="" rx="0" ry="0" x="-77.140625" y="-33.5" width="154.28125" height="67">
两级CUDA核心累加
显存降为FP16的1/4
ainer" style="" rx="0" ry="0" x="-82.1875" y="-20.5" width="164.375" height="41">
即时编译JIT技术模块
ainer" style="" rx="0" ry="0" x="-71.5" y="-20.5" width="143" height="41">
动态生成适配内核
ainer" style="" rx="0" ry="0" x="-80.47396087646484" y="-33.5" width="160.9479217529297" height="67">
超越CUTLAS 3.6性能
核心代码仅300行
  1. 性能亮点展示
    在Hopper GPU上,DeepGEMM实现了高达1350+ TFLOPS的算力,在小批量场景下,加速比达2.7倍。这一性能表现为AI计算中的矩阵运算提供了强大的支持,无论是在训练还是推理过程中,都能够显著提升计算效率。

  2. 性能数据表

性能指标数值
算力(Hopper GPU)1350+ TFLOPS
小批量场景加速比2.7倍
显存占用变化仅为FP16的1/4

(四)DualPipe与EPLB(2月27日发布)

  1. DualPipe技术
    • 双向流水线并行机制:传统的流水线并行方式存在大量的"气泡"闲置时间,就像一条生产线上经常出现空转的情况。而DualPipe采用双向流水线并行策略,将前向计算与反向传播同步调度,成功消除了传统流水线90%的"气泡"闲置时间,使得GPU利用率大幅提升至92%。这就像是对生产线进行了全面升级,让各个环节紧密配合,充分发挥设备的生产能力。
    • 显存优化策略:DualPipe通过共享梯度传输机制,有效地降低了显存占用,降低比例达到30%。在大规模模型训练中,显存往往是制约模型规模和训练效率的重要因素,DualPipe的这一优化策略为缓解显存压力提供了有效的解决方案。
  2. EPLB(专家负载均衡器)
    • 动态冗余专家分配机制:在MoE模型中,不同的专家可能会面临不同的负载情况。EPLB能够实时监测专家的负载,并将高负载专家实时复制至空闲GPU,使得闲置率接近0%。这就像是一个智能的任务分配系统,能够根据每个工人(GPU)的工作负荷,合理地分配任务,确保所有资源都得到充分利用。
    • 分层负载均衡策略:EPLB采用分层负载均衡策略,将节点内局部优化与跨节点全局调度相结合,有效地减少了通信流量50%。在分布式计算环境中,通信流量过大往往会导致网络拥堵,影响计算效率。EPLB的这一策略就像是对交通进行了合理规划,减少了道路拥堵,提高了数据传输的效率。
  3. 创新点流程图(DualPipe)

DualPipe 技术流程:

aid"> aid-svg-bHasRvucLxZ3HDGi" width="973.385498046875" xmlns="http://www.w3.org/2000/svg" height="118" viewbox="0 0 973.385498046875 118" class="mermaid-svg">
ainer" style="" rx="0" ry="0" x="-63.5" y="-20.5" width="127" height="41">
传统流水线问题
ainer" style="" rx="0" ry="0" x="-79.5" y="-20.5" width="159" height="41">
双向流水线并行模块
ainer" style="" rx="0" ry="0" x="-95.5" y="-33.5" width="191" height="67">
同步调度前向与反向传播
消除90%气泡时间
ainer" style="" rx="0" ry="0" x="-71.5" y="-20.5" width="143" height="41">
共享梯度传输机制
ainer" style="" rx="0" ry="0" x="-68.69271087646484" y="-20.5" width="137.3854217529297" height="41">
降低显存占用30%
  1. 创新点流程图(EPLB)

EPLB 技术流程:

aid"> aid-svg-BoXzabX8QrBQosPe" width="969.8958740234375" xmlns="http://www.w3.org/2000/svg" height="118" viewbox="0 0 969.8958740234375 118" class="mermaid-svg">
ainer" style="" rx="0" ry="0" x="-85.75521087646484" y="-20.5" width="171.5104217529297" height="41">
MoE专家负载不均问题
ainer" style="" rx="0" ry="0" x="-71.5" y="-20.5" width="143" height="41">
动态冗余专家分配
ainer" style="" rx="0" ry="0" x="-79.5" y="-33.5" width="159" height="67">
实时复制高负载专家
至空闲GPU
ainer" style="" rx="0" ry="0" x="-71.5" y="-20.5" width="143" height="41">
分层负载均衡策略
ainer" style="" rx="0" ry="0" x="-68.69271087646484" y="-20.5" width="137.3854217529297" height="41">
减少通信流量50%
  1. 性能数据表
技术GPU利用率提升显存占用降低比例闲置率通信流量减少比例
DualPipe提升至92%30%--
EPLB--接近0%50%

(五)3FS与Smallpond(2月28日发布)

  1. 3FS分布式文件系统
    • 分解式架构设计:3FS结合了SSD与RDMA网络,并支持CRAQ协议强一致性。其独特的分解式架构使得单节点KVCache吞吐>40 GiB/s。这种架构设计就像是一个高效的物流网络,各个环节紧密配合,实现了数据的快速存储和读取。
    • 性能表现展示:在180节点集群中,3FS的聚合读取吞吐可达6.6 TiB/s。在GraySort基准测试中,处理110.5 TiB数据仅需30分14秒。这一性能表现展示了3FS在大规模数据存储和处理方面的强大能力,为AI训练和推理中的大规模数据管理提供了可靠的解决方案。
  2. Smallpond数据处理框架
    • DuckDB集成:Smallpond集成了DuckDB,利用其列式存储技术加速复杂查询。并且,Smallpond支持从单机到分布式的弹性扩展,能够根据实际需求灵活调整计算资源。这就像是一个可伸缩的工具箱,能够根据不同的任务规模,提供合适的工具和资源。
    • 两阶段分区排序策略:为了优化PB级数据处理效率,Smallpond采用两阶段分区排序策略。这一策略特别适用于训练数据预处理与推理缓存管理,能够在大规模数据处理中,快速准确地对数据进行排序和处理,提高了数据处理的整体效率。
  3. 创新点流程图(3FS)

3FS 技术流程:

aid"> aid-svg-zhsCSLDtFejVytON" width="1042.5833740234375" xmlns="http://www.w3.org/2000/svg" height="118" viewbox="0 0 1042.5833740234375 118" class="mermaid-svg">
ainer" style="" rx="0" ry="0" x="-79.5" y="-20.5" width="159" height="41">
数据存储与读取需求
ainer" style="" rx="0" ry="0" x="-63.5" y="-20.5" width="127" height="41">
分解式架构设计
ainer" style="" rx="0" ry="0" x="-80.0625" y="-33.5" width="160.125" height="67">
SSD与RDMA网络结合
CRAQ协议强一致性
ainer" style="" rx="0" ry="0" x="-110.72917175292969" y="-33.5" width="221.45834350585938" height="67">
单节点KVCache吞吐>40GiB/s
集群聚合读取达6.6TiB/s
ainer" style="" rx="0" ry="0" x="-79.5" y="-33.5" width="159" height="67">
大规模数据处理能力
110.5TiB数据30分钟
  1. 创新点流程图(Smallpond)

Smallpond 技术流程:

aid"> aid-svg-LO2S2fgO3xGYNwC5" width="952.4166870117188" xmlns="http://www.w3.org/2000/svg" height="118" viewbox="0 0 952.4166870117188 118" class="mermaid-svg">
ainer" style="" rx="0" ry="0" x="-71.5" y="-20.5" width="143" height="41">
复杂查询加速需求
ainer" style="" rx="0" ry="0" x="-66.20833587646484" y="-20.5" width="132.4166717529297" height="41">
DuckDB集成模块
ainer" style="" rx="0" ry="0" x="-87.5" y="-33.5" width="175" height="67">
列式存储加速查询
单机到分布式弹性扩展
ainer" style="" rx="0" ry="0" x="-79.5" y="-20.5" width="159" height="41">
两阶段分区排序策略
ainer" style="" rx="0" ry="0" x="-63.5" y="-33.5" width="127" height="67">
训练数据预处理
推理缓存管理
  1. 性能数据表
项目单节点KVCache吞吐180节点集群聚合读取吞吐GraySort处理时间(110.5 TiB数据)复杂查询加速情况弹性扩展情况
3FS>40 GiB/s6.6 TiB/s30分14秒--
Smallpond---利用DuckDB列式存储加速支持单机到分布式弹性扩展

二、技术影响力与行业变革

(一)成本革命

  1. 显存与算力优化
    FlashMLA和DeepGEMM通过动态调度与低精度计算等创新技术,使得H800在推理过程中的成本降低了45%。这一成本的大幅下降,主要得益于显存占用的减少和算力利用率的提高。在传统的计算模式下,大量的显存被浪费,算力也未能得到充分发挥。而这两个项目的技术创新,就像是对资源进行了精细化管理,减少了不必要的开销。
  2. 训练效率提升
    DualPipe与EPLB的协同作用,将千亿模型的训练时间缩短至278.8万GPU小时,成本约557.6万美元。相比传统方案的千万级成本,这一提升效果显著。传统方案中,由于流水线并行的低效和负载不均衡等问题,导致训练时间长、成本高。而DualPipe与EPLB通过优化并行策略和负载均衡,提高了GPU利用率,减少了训练时间,从而大幅降低了成本。

(二)生态重塑

  1. 打破闭源垄断
    DeepSeekaiYuan.html" title=开源>开源的代码库,如DeepEP、DualPipe等,首次公开了工业级MoE通信与并行策略。在过去,这些关键技术往往被少数大型企业垄断,闭源的模式限制了中小开发者的参与和创新。而DeepSeek的aiYuan.html" title=开源>开源举措,为中小开发者提供了宝贵的技术资源,使得他们能够基于这些aiYuan.html" title=开源>开源代码进行二次开发和创新,推动了整个AIaiYuan.html" title=开源>开源生态的共建和发展。
  2. 国产芯片适配
    DeepSeek的优化技术不仅适用于主流的GPU芯片,还能够兼容昇腾910B等国产硬件。通过PTX底层优化,使得国产芯片的性能提升了40%。这一适配工作为国产芯片在AI领域的应用和发展提供了有力支持,促进了国内AI产业的自主创新和发展。

(三)应用场景扩展

  1. 边缘计算突破
    FlashMLA的低秩分解技术与DeepGEMM的FP8支持,使得大模型在边缘设备上的运行成为可能。在手机端,大模型能够实现200 token/s的生成速度。这一突破为边缘计算在AI领域的应用开辟了新的空间,例如在智能语音助手、实时图像识别等场景中,用户可以在本地设备上快速获得AI服务,而无需依赖云端计算,减少了延迟和数据传输成本。
  2. 实时推理普及
    在客服机器人场景中,由于FlashMLA等技术的应用,延迟从秒级降至毫秒级,大大提升了用户体验。在火山引擎的部署案例中,AIME数学竞赛答题正确率提升至83.33%。这些应用案例展示了DeepSeekaiYuan.html" title=开源>开源项目在实时推理场景中的强大优势,推动了AI技术在更多实时性要求较高的应用场景中的普及和应用。

三、未来展望

(一)技术平权趋势

DeepSeekaiYuan.html" title=开源>开源的代码降低了AI技术部署的门槛。中小云服务商原本由于技术和成本限制,难以提供高效的AI服务。现在,他们可以直接复用DeepSeek的优化方案,快速搭建起自己的AI服务平台。这一趋势对那些在技术上具有优势的大型企业构成了一定的威胁,因为中小云服务商能够以更低的成本和更快的速度进入市场,加剧了市场竞争,推动了AI技术的普及和应用。

(二)生态协同创新

开发者可以基于3FS、Smallpond等工具构建垂直领域应用。例如,在医疗影像分析领域,利用3FS的高效数据存储和Smallpond的数据处理框架,可以快速搭建起一个医疗影像数据管理和分析系统,提高医疗诊断的效率和准确性。


http://www.ppmy.cn/news/1576521.html

相关文章

使用 DeepSeek 生成流程图、甘特图与思维导图:结合 Typora 和 XMind 的高效工作流

在现代工作与学习中,可视化工具如流程图、甘特图和思维导图能够极大地提升信息整理与表达的效率。本文将详细介绍如何使用 DeepSeek 生成 Mermaid 文本,结合 Typora 快速生成流程图和甘特图,并通过 Markdown 格式生成思维导图,最终…

【学术会议论文投稿】Spring Boot实战:零基础打造你的Web应用新纪元

第七届人文教育与社会科学国际学术会议(ICHESS 2024)_艾思科蓝_学术一站式服务平台 更多学术会议请看:https://ais.cn/u/nuyAF3 目录 一、Spring Boot简介 1.1 Spring Boot的诞生背景 1.2 Spring Boot的核心特性 二、搭建开发环境 2.1…

Spring Boot 整合 JMS-ActiveMQ,并安装 ActiveMQ

1. 安装 ActiveMQ 1.1 下载 ActiveMQ 访问 ActiveMQ 官方下载页面,根据你的操作系统选择合适的版本进行下载。这里以 Linux 系统,Java环境1.8版本为例,下载 apache-activemq-5.16.7-bin.tar.gz。 1.2 解压文件 将下载的压缩包解压到指定目…

从 Spring Boot 2 升级到 Spring Boot 3 的终极指南

一、升级前的核心准备 1. JDK 版本升级 Spring Boot 3 强制要求 Java 17 及以上版本。若当前项目使用 Java 8 或 11,需按以下步骤操作: 安装 JDK 17:从 Oracle 或 OpenJDK 官网下载,配置环境变量(如 JAVA_HOME&…

go语言中字符串嵌套

在Go语言中,字符串嵌套通常是指在字符串中包含另一个字符串。可以通过以下几种方式实现: 1. 使用双引号和转义字符 如果需要在字符串中嵌套双引号,可以使用转义字符 \ 来表示内部的双引号。例如: s : "He said, \"He…

centos虚拟机安装

以下是一个详细的 VMware CentOS 虚拟机安装教程,结合了最新的信息和步骤: 一、准备工作 1. 下载 VMware 软件 访问 VMware 官方网站:VMware Workstation 官网。点击“现在安装”并下载适合您操作系统的 VMware Workstation。 2. 下载 Ce…

stm32中的定时器TIM控制器原理

一、定时器的基本组成 让计数器按照一个时钟频率从0加到一个数(或 从一个数减到0),加到这个数(重装载值)后触发一个中断,触发这个中断后,我们就知道过了n秒(一个固定的时间&#xff…

UE5切换关卡函数OpenLevel,输入模式结构体,UI界面

1.输入模式结构体 FInputModeGameOnly:玩家只能与游戏世界交互,UI 不可交互。FInputModeGameAndUI:玩家可以与游戏世界和 UI 同时交互。FInputModeUIOnly:玩家只能与 UI 交互,无法与游戏世界进行互动。 FInputModeGam…