DeepSeek开源周：全面革新AI基础设施技术的盛宴

aidu_pl">

在2025年2月24日至28日，DeepSeek举办了备受瞩目的aiYuan.html" title=开源>开源周活动，期间连续五天发布了一系列覆盖AI基础设施全链路的核心技术项目。这些项目横跨计算优化、通信加速、并行策略、存储系统等多个关键维度，为AI领域的发展注入了强大的动力，引发了广泛的行业关注。

aiYuan.html" title=开源>开源项目发布时间线

项目	2月24日	2月25日	2月26日	2月27日	2月28日
FlashMLA	★
DeepEP		★
DeepGEMM			★
DualPipe与EPLB				★
3FS与Smallpond					★

★ 表示发布日期

未来技术演进路线

aid">

一、aiYuan.html" title=开源>开源项目技术深度剖析

（一）FlashMLA（2月24日发布）

技术定位
专为Hopper GPU优化的多头潜在注意力（MLA）解码内核，其设计目标聚焦于可变长度序列处理场景，这类场景在自然语言处理、语音识别等众多AI应用中极为常见。
核心创新点
- 动态资源分配机制：传统的固定填充方式在处理可变长度序列时，会导致大量显存被闲置浪费，如同租用了过多的"算力卡车"，却没有充分利用。而FlashMLA能够根据输入序列长度实时且精准地调整GPU算力分配。这一机制就像是拥有了一个智能调度员，能够根据实际运输量（序列长度）来灵活安排卡车数量（算力），从而极大地提高了资源利用率。
- 分页KV缓存管理策略：通过创新的分页机制，FlashMLA将显存占用降低至传统方法的1/4。并且，它支持BF16格式，内存带宽高达3000 GB/s。这种高效的缓存管理方式，使得数据在显存中的存储和读取更加高效，就像一个精心规划的仓库，货物（数据）能够快速准确地被存取。
- 低秩分解技术应用：为了更好地适配边缘设备部署，FlashMLA采用低秩分解技术来压缩多头注意力的显存需求。边缘设备通常资源有限，而这一技术就像是一个高效的压缩打包工具，能够在不影响核心功能的前提下，减少数据存储所需的空间。
创新点流程图

FlashMLA 技术流程：

aid">

性能亮点展示
在性能方面，FlashMLA表现卓越。其算力峰值可达580 TFLOPS，这一数值已经非常接近H800的理论极限。在实际应用中，例如聊天机器人场景，实时任务延迟得到了显著降低，从原本的秒级响应时间大幅缩短至毫秒级，极大地提升了用户体验。
性能数据表

性能指标	数值
算力峰值	580 TFLOPS
显存占用变化	降至传统方法的1/4
内存带宽	3000 GB/s
延迟降低效果	从秒级降至毫秒级

（二）DeepEP（2月25日发布）

技术定位
DeepEP是首个专为MoE（混合专家）模型设计的aiYuan.html" title=开源>开源通信库，其主要使命是优化分布式训练与推理过程中的通信效率。在当今大规模AI模型训练中，分布式训练成为主流方式，而通信效率往往成为制约训练速度和效果的关键因素。
核心创新点
- 硬件级通信优化手段：DeepEP充分利用NVLink（160 GB/s）与RDMA跨节点传输技术，将GPU等待时间成功压缩至163微秒级。这就像是在高速公路上为数据传输开辟了专用车道，让数据能够快速畅行，减少了GPU等待数据的时间浪费。
- FP8智能压缩技术运用：原生支持低精度计算，通过FP8智能压缩技术，有效地减少了带宽需求。在数据传输过程中，就像对数据进行了高效的压缩打包，在不损失关键信息的前提下，减少了传输的数据量，从而缓解了带宽压力。
- 通信 - 计算重叠策略：基于钩子（hook - based）的方法，实现了通信与计算的重叠，并且这一过程无需占用流式多处理器资源。这意味着在GPU进行计算的同时，可以并行地进行数据通信，大大提高了整体的运行效率，就像工厂里的两条生产线同时运作，互不干扰。
创新点流程图

DeepEP 技术流程：

aid">

性能亮点展示
在实际应用中，DeepEP展现出了强大的性能优势。对于千亿参数模型，其训练成本降低了30%，MoE训练吞吐量提升了1.2倍。这使得大规模模型训练的成本效益得到了显著提升，为更多机构和开发者开展大规模模型训练提供了可能。
性能数据表

性能指标	数值
GPU等待时间	163微秒级
千亿参数模型训练成本降低比例	30%
MoE训练吞吐量提升倍数	1.2倍

（三）DeepGEMM（2月26日发布）

技术定位
DeepGEMM是面向Hopper GPU的高效FP8矩阵计算库，致力于深度优化Tensor Core性能。矩阵计算在AI计算中占据着核心地位，而对GPU中Tensor Core性能的优化，能够极大地提升AI计算的效率。
核心创新点
- FP8精度适配机制：通过独特的两级CUDA核心累加机制，DeepGEMM巧妙地平衡了计算速度与精度之间的关系。在保证计算精度满足实际需求的同时，将显存占用降低至仅为FP16的1/4。这一机制就像是在保证产品质量的前提下，优化了生产过程中的原材料（显存）消耗。
- 即时编译（JIT）技术：采用即时编译技术，DeepGEMM能够动态生成适配不同GPU架构的内核。其核心代码仅300行，却展现出了超越英伟达CUTLAS 3.6的性能。这种灵活性使得DeepGEMM能够在不同的硬件环境中都发挥出最佳性能，就像一个万能钥匙，能够适配各种不同的锁（GPU架构）。
创新点流程图

DeepGEMM 技术流程：

aid">

性能亮点展示
在Hopper GPU上，DeepGEMM实现了高达1350+ TFLOPS的算力，在小批量场景下，加速比达2.7倍。这一性能表现为AI计算中的矩阵运算提供了强大的支持，无论是在训练还是推理过程中，都能够显著提升计算效率。
性能数据表

性能指标	数值
算力（Hopper GPU）	1350+ TFLOPS
小批量场景加速比	2.7倍
显存占用变化	仅为FP16的1/4

（四）DualPipe与EPLB（2月27日发布）

DualPipe技术
- 双向流水线并行机制：传统的流水线并行方式存在大量的"气泡"闲置时间，就像一条生产线上经常出现空转的情况。而DualPipe采用双向流水线并行策略，将前向计算与反向传播同步调度，成功消除了传统流水线90%的"气泡"闲置时间，使得GPU利用率大幅提升至92%。这就像是对生产线进行了全面升级，让各个环节紧密配合，充分发挥设备的生产能力。
- 显存优化策略：DualPipe通过共享梯度传输机制，有效地降低了显存占用，降低比例达到30%。在大规模模型训练中，显存往往是制约模型规模和训练效率的重要因素，DualPipe的这一优化策略为缓解显存压力提供了有效的解决方案。
EPLB（专家负载均衡器）
- 动态冗余专家分配机制：在MoE模型中，不同的专家可能会面临不同的负载情况。EPLB能够实时监测专家的负载，并将高负载专家实时复制至空闲GPU，使得闲置率接近0%。这就像是一个智能的任务分配系统，能够根据每个工人（GPU）的工作负荷，合理地分配任务，确保所有资源都得到充分利用。
- 分层负载均衡策略：EPLB采用分层负载均衡策略，将节点内局部优化与跨节点全局调度相结合，有效地减少了通信流量50%。在分布式计算环境中，通信流量过大往往会导致网络拥堵，影响计算效率。EPLB的这一策略就像是对交通进行了合理规划，减少了道路拥堵，提高了数据传输的效率。
创新点流程图（DualPipe）

DualPipe 技术流程：

aid">

创新点流程图（EPLB）

EPLB 技术流程：

aid">

性能数据表

技术	GPU利用率提升	显存占用降低比例	闲置率	通信流量减少比例
DualPipe	提升至92%	30%	-	-
EPLB	-	-	接近0%	50%

（五）3FS与Smallpond（2月28日发布）

3FS分布式文件系统
- 分解式架构设计：3FS结合了SSD与RDMA网络，并支持CRAQ协议强一致性。其独特的分解式架构使得单节点KVCache吞吐>40 GiB/s。这种架构设计就像是一个高效的物流网络，各个环节紧密配合，实现了数据的快速存储和读取。
- 性能表现展示：在180节点集群中，3FS的聚合读取吞吐可达6.6 TiB/s。在GraySort基准测试中，处理110.5 TiB数据仅需30分14秒。这一性能表现展示了3FS在大规模数据存储和处理方面的强大能力，为AI训练和推理中的大规模数据管理提供了可靠的解决方案。
Smallpond数据处理框架
- DuckDB集成：Smallpond集成了DuckDB，利用其列式存储技术加速复杂查询。并且，Smallpond支持从单机到分布式的弹性扩展，能够根据实际需求灵活调整计算资源。这就像是一个可伸缩的工具箱，能够根据不同的任务规模，提供合适的工具和资源。
- 两阶段分区排序策略：为了优化PB级数据处理效率，Smallpond采用两阶段分区排序策略。这一策略特别适用于训练数据预处理与推理缓存管理，能够在大规模数据处理中，快速准确地对数据进行排序和处理，提高了数据处理的整体效率。
创新点流程图（3FS）

3FS 技术流程：

aid">

创新点流程图（Smallpond）

Smallpond 技术流程：

aid">

性能数据表

项目	单节点KVCache吞吐	180节点集群聚合读取吞吐	GraySort处理时间（110.5 TiB数据）	复杂查询加速情况	弹性扩展情况
3FS	>40 GiB/s	6.6 TiB/s	30分14秒	-	-
Smallpond	-	-	-	利用DuckDB列式存储加速	支持单机到分布式弹性扩展

二、技术影响力与行业变革

（一）成本革命

显存与算力优化
FlashMLA和DeepGEMM通过动态调度与低精度计算等创新技术，使得H800在推理过程中的成本降低了45%。这一成本的大幅下降，主要得益于显存占用的减少和算力利用率的提高。在传统的计算模式下，大量的显存被浪费，算力也未能得到充分发挥。而这两个项目的技术创新，就像是对资源进行了精细化管理，减少了不必要的开销。
训练效率提升
DualPipe与EPLB的协同作用，将千亿模型的训练时间缩短至278.8万GPU小时，成本约557.6万美元。相比传统方案的千万级成本，这一提升效果显著。传统方案中，由于流水线并行的低效和负载不均衡等问题，导致训练时间长、成本高。而DualPipe与EPLB通过优化并行策略和负载均衡，提高了GPU利用率，减少了训练时间，从而大幅降低了成本。

（二）生态重塑

打破闭源垄断
DeepSeekaiYuan.html" title=开源>开源的代码库，如DeepEP、DualPipe等，首次公开了工业级MoE通信与并行策略。在过去，这些关键技术往往被少数大型企业垄断，闭源的模式限制了中小开发者的参与和创新。而DeepSeek的aiYuan.html" title=开源>开源举措，为中小开发者提供了宝贵的技术资源，使得他们能够基于这些aiYuan.html" title=开源>开源代码进行二次开发和创新，推动了整个AIaiYuan.html" title=开源>开源生态的共建和发展。
国产芯片适配
DeepSeek的优化技术不仅适用于主流的GPU芯片，还能够兼容昇腾910B等国产硬件。通过PTX底层优化，使得国产芯片的性能提升了40%。这一适配工作为国产芯片在AI领域的应用和发展提供了有力支持，促进了国内AI产业的自主创新和发展。

（三）应用场景扩展

边缘计算突破
FlashMLA的低秩分解技术与DeepGEMM的FP8支持，使得大模型在边缘设备上的运行成为可能。在手机端，大模型能够实现200 token/s的生成速度。这一突破为边缘计算在AI领域的应用开辟了新的空间，例如在智能语音助手、实时图像识别等场景中，用户可以在本地设备上快速获得AI服务，而无需依赖云端计算，减少了延迟和数据传输成本。
实时推理普及
在客服机器人场景中，由于FlashMLA等技术的应用，延迟从秒级降至毫秒级，大大提升了用户体验。在火山引擎的部署案例中，AIME数学竞赛答题正确率提升至83.33%。这些应用案例展示了DeepSeekaiYuan.html" title=开源>开源项目在实时推理场景中的强大优势，推动了AI技术在更多实时性要求较高的应用场景中的普及和应用。

三、未来展望

（一）技术平权趋势

DeepSeekaiYuan.html" title=开源>开源的代码降低了AI技术部署的门槛。中小云服务商原本由于技术和成本限制，难以提供高效的AI服务。现在，他们可以直接复用DeepSeek的优化方案，快速搭建起自己的AI服务平台。这一趋势对那些在技术上具有优势的大型企业构成了一定的威胁，因为中小云服务商能够以更低的成本和更快的速度进入市场，加剧了市场竞争，推动了AI技术的普及和应用。