DeepSeek开源周Day5: 3FS存储系统与AI数据处理新标杆

ops/2025/3/1 18:04:06/

项目地址:

  • GitHub - deepseek-ai/3FS: A high-performance distributed file system designed to address the challenges of AI training and inference workloads.
  • GitHub - deepseek-ai/smallpond: A lightweight data processing framework built on DuckDB and 3FS.

开源日历:2025-02-24起 每日9AM(北京时间)更新,持续五天 (5/5)!

引言

在AI技术迅猛发展的浪潮中,DeepSeek以「开源周」形式连续五天发布五大核心基础设施项目,引发行业震动。最终日压轴登场的 Fire-Flyer File System(3FS) 和 smallpond 数据处理框架,更是将存储与计算性能推向新高度。与此同时,OpenAI仓促推出GPT-4.5却因天价API引发争议。本文将全面解析这场技术盛宴的核心突破。


一、颠覆AI训练的分布式存储系统 - 3FS

核心架构解析

3FS架构图

3FS(Fire-Flyer File System) 是专为AI训练设计的分布式文件系统,其创新架构包含三大核心:

  1. 解耦式存储资源池
    整合上千块NVMe SSD(固态硬盘)与RDMA(远程直接内存访问)网络,形成全局存储资源池。计算节点通过高速网络直接访问数据,突破本地存储限制。
  2. CRAQ强一致性协议
    采用链式复制查询分配技术(Chain Replication with Apportioned Queries),确保跨节点数据访问一致性,同时通过读写分离优化性能。
  3. 无状态元数据服务
    基于FoundationDB事务型KV存储构建元数据层,实现毫秒级文件定位,支持10万级QPS(每秒查询量)。

性能实测数据

测试场景配置详情性能表现
峰值吞吐测试180存储节点×16块14TB SSD,500+计算节点通过200Gbps RDMA访问6.6 TiB/s读吞吐量
GraySort排序测试25存储节点处理110.5TiB数据30分钟完成,3.66TiB/min
LLM推理加速KVCache(键值缓存)存储于3FS替代GPU内存峰值40GiB/s读取速度

四大应用场景突破

  1. 数据预处理流水线
    支持PB级数据集的分层目录管理,加速特征工程处理。
  2. 训练数据实时加载
    允许Dataloader跨节点随机访问,无需预排序或缓存。
  3. 分布式检查点保存
    千卡训练任务可30秒内完成模型状态保存。
  4. 推理KVCache外置
    将Transformer的键值对缓存移至3FS,释放30% GPU显存。

二、轻量级大数据处理利器 - smallpond

技术架构亮点

smallpond性能图

基于 DuckDB列式数据库 与3FS构建的轻量框架,实现三大创新:

  1. 无状态计算范式
    摒弃Hadoop/Spark的常驻服务模式,通过Python脚本直接调度计算资源。
  2. 智能数据分片
    自动将PB级数据集划分为8192个分区,结合3FS实现并行处理。
  3. 混合执行引擎
    本地小数据集使用DuckDB单机模式,大规模任务自动切换分布式计算。

实战代码示例

import smallpond
sp = smallpond.init() # 读取3FS中的Parquet数据集
df = sp.read_parquet("3fs://dataset/images-2024")# 分布式SQL处理
df = sp.partial_sql("""SELECT category, AVG(file_size) AS avg_size FROM {0} WHERE resolution > 1080GROUP BY category
""", df)# 结果写入并转换为Pandas
df.write_parquet("3fs://results/image_stats")
print(df.to_pandas().describe())

性能对比测试

框架110TB排序耗时节点数量硬件成本
Hadoop4.2小时200节点$18,000
Spark2.1小时150节点$15,000
smallpond30分钟75节点$7,200

三、OpenAI GPT-4.5:高情商背后的天价成本

核心升级点

GPT-4.5对话示例

尽管宣称在以下方面取得突破,但定价引发开发者强烈反弹:

  1. 情感理解增强
    通过情绪识别模型(Sentiment-aware RLHF)优化对话共情能力
  2. 推理精度提升
    数学问题准确率从GPT-4的82.3%提升至89.1%
  3. 长上下文优化
    支持128K token上下文记忆,遗忘率降低37%

价格对比表

模型输入价格(美元/百万token)输出价格对比DeepSeek v3
GPT-4o5.015.05-10倍
GPT-4.575.0150.0150-280倍
DeepSeek v30.271.0基准

四、开源周全景回顾

DeepSeek开源周技术矩阵:

发布日期项目名称关键技术点性能提升
Day1FlashMLA动态序列长度优化推理速度提升3.2倍
Day2DeepEP专家并行通信库MoE训练效率提升40%
Day3DeepGEMMFP8混合精度计算矩阵运算功耗降低65%
Day4DualPipe/EPLB双向流水线并行+负载均衡千卡训练稳定性提升90%
Day53FS+smallpond分布式存储+轻量计算框架数据吞吐提升10倍

五、行业影响与未来展望

DeepSeek的开源策略正在重塑AI基础设施生态:

  1. 技术民主化加速
    企业可基于开源组件构建完整训练体系,无需依赖AWS/GCP等云厂商专属方案。
  2. 硬件利用率飞跃
    3FS使单GPU卡日均训练任务从3次提升至8次,显著降低算力成本。
  3. 开源模型新机遇
    开发者社区已涌现基于3FS的类Sora视频生成项目VidSeek。

行业分析师预测,Google、Meta等巨头或将在6个月内推出对标方案,而xAI等初创公司可能直接基于DeepSeek生态进行二次开发。


参考引用

  1. DeepSeek开源最后一天
  2. 最后一天!DeepSeek开源3FS系统
  3. GitHub - deepseek-ai/3FS: A high-performance distributed file system designed to address the challenges of AI training and inference workloads.
  4. GitHub - deepseek-ai/smallpond: A lightweight data processing framework built on DuckDB and 3FS.

专业术语解释

  • Fire - Flyer File System(3FS)
    专为AI训练设计的分布式文件系统,通过解耦式存储资源池整合NVMe SSD与RDMA网络形成全局存储资源池,利用CRAQ强一致性协议确保数据访问一致性并优化性能,借助无状态元数据服务实现毫秒级文件定位和高QPS。类似于为AI训练打造了一个超级仓库,能快速准确地提供数据。
  • NVMe SSD(固态硬盘)
    一种高速存储设备,在3FS中作为存储资源被整合到全局存储资源池,为AI训练提供快速的数据存储和读取能力。如同仓库里快速存取货物的货架。
  • RDMA(远程直接内存访问)
    一种网络技术,用于3FS中计算节点与存储资源池之间的高速数据访问,突破本地存储限制。类似一条高速通道,让数据快速在不同地方传输。
  • CRAQ强一致性协议(Chain Replication with Apportioned Queries)
    采用链式复制查询分配技术,保证3FS跨节点数据访问的一致性,并通过读写分离优化性能。就像一个严格的规则制定者,确保数据在不同节点间的访问都准确无误且高效。
  • 无状态元数据服务
    基于FoundationDB事务型KV存储构建的元数据层,在3FS中实现毫秒级文件定位,支持高QPS。好比一个智能导航系统,能快速找到文件在仓库中的位置。
  • QPS(每秒查询量)
    衡量系统处理能力的指标,3FS的无状态元数据服务可支持10万级QPS,代表其每秒能处理大量的文件查询请求。类似一个服务员每秒能接待多少顾客的询问。
  • GraySort排序测试
    一种用于测试系统数据处理能力的测试场景,在3FS的性能测试中,25个存储节点能在30分钟内处理110.5TiB数据。就像对仓库货物整理能力的一次考验。
  • LLM推理加速
    通过将KVCache存储于3FS替代GPU内存,提高大语言模型(LLM)推理速度,在3FS中能达到峰值40GiB/s的读取速度。如同给推理过程找到了一条捷径。
  • KVCache(键值缓存)
    在LLM推理中,将Transformer的键值对缓存移至3FS可释放30% GPU显存。类似于把一些临时数据存放到外部仓库,腾出空间给更重要的工作。
  • smallpond
    基于DuckDB列式数据库与3FS构建的轻量级大数据处理框架,采用无状态计算范式、智能数据分片和混合执行引擎等创新技术。像一个小巧灵活的工具,能高效处理大数据。
  • DuckDB列式数据库
    smallpond框架的基础之一,提供单机数据处理能力,在smallpond中用于本地小数据集处理或作为大规模任务分布式计算的基础组件。类似一个小型加工厂,处理小规模的数据。
  • 无状态计算范式
    smallpond摒弃Hadoop/Spark的常驻服务模式,通过Python脚本直接调度计算资源。就像不需要长期驻扎的团队,有任务时直接调用资源完成工作。
  • 智能数据分片
    smallpond自动将PB级数据集划分为8192个分区,结合3FS实现并行处理,提高数据处理效率。类似于把一大块工作分成许多小块,同时进行处理。
  • 混合执行引擎
    smallpond本地小数据集使用DuckDB单机模式,大规模任务自动切换分布式计算。如同一个智能的工人,遇到小任务自己做,大任务就叫上其他人一起做。
  • Sentiment - aware RLHF(情绪识别模型)
    OpenAI用于优化GPT - 4.5对话共情能力的技术,通过该模型增强情感理解。就像给模型安装了一个“情感探测器”,让它更懂人类情感。

DeepSeek开源周不仅展示了中国AI公司的技术实力,更重要的是推动行业进入「开放创新」新阶段。当6.6TiB/s的存储吞吐遇上社区智慧,或许下一次AI革命的火花就诞生于某个开发者的GitHub仓库。


http://www.ppmy.cn/ops/162298.html

相关文章

蓝桥杯15届JavaB组6题

一开始用的dfs,但是好像是因为数据量太大,数据错误,而且会超时,然后使用bfs dfs的代码(自留): import java.util.*;public class F15 {public static void main(String[] args) {Scanner sc n…

FFmpeg-chapter3-读取视频流(原理篇)

ffmpeg网站:About FFmpeg 1 库介绍 (1)libavutil是一个包含简化编程函数的库,包括随机数生成器、数据结构、数学例程、核心多媒体实用程序等等。 (2)libavcodec是一个包含音频/视频编解码器的解码器和编…

使用tkinter有UI方式来拷贝Excel文件

有需求使用tkinter 有用户交互界面来拷贝Excel文件,最后进行打包完成 代码如下,实现思路是先使用tkinter库选择Excel路径,然后保存到txt文档, import time import tkinter from pathlib import Path from typing import Optiona…

苹果CMS泛目录站群架构:无缓存刷新技术的SEO实战

一、技术背景与行业痛点 传统泛目录站群系统普遍依赖静态缓存机制,导致两个核心问题: 缓存臃肿:运行3-6个月后缓存文件可达数百GB量级,严重影响服务器性能内容僵化:缓存机制导致页面TDK(标题/描述/关键词…

芯麦GC1262E与APX9262S驱动芯片对比:电脑散热风扇应用的性能优势与替代方案

引言 在电脑散热风扇、服务器风机等场景中,驱动芯片的选型直接影响散热效率、噪音控制及系统稳定性。茂达的APX9262S曾是主流方案,但随着国产芯片技术的突破,芯麦半导体的GC1262E凭借更优的集成功能、智能化控制及成本优势,成为高…

后台数据报表导出数据量过大问题

现状分析 之前在mysql业务库,导出报表会出现各种表相互关联,导致夯死的情况 改进使用ClickHouse做宽表 后面使用binlog监听,洗数据洗成一张宽表,存放在ck中,但是发现超过一定数量级100w也会很卡慢,但是比mysql强的是…

深度学习之图像回归(二)

前言 这篇文章主要是在图像回归(一)的基础上对该项目进行的优化。(一)主要是帮助迅速入门 理清一个深度学习项目的逻辑 这篇文章则主要注重在此基础上对于数据预处理和模型训练进行优化前者会通过涉及PCA主成分分析 特征选择 后…

使用DeepSeek+本地知识库,尝试从0到1搭建高度定制化工作流(数据分析篇)

7.3. 数据监控与生成本地知识库 目的:监控新生成的小红书文案,记录每一次生成的小红书文案风格。后续根据输入topic,检索与某一topic有关的文案,可以根据先前的文案风格,生成类似风格的文案。实现思路: 1.…