【杂谈】-DeepSeek如何以560万美元突破成本障碍

news/2025/1/8 2:53:56/

DeepSeek560_0">DeepSeek如何以560万美元突破成本障碍

文章目录


传统的人工智能观点认为,构建大型语言模型 (LLM)需要大量资金——通常需要数十亿美元的投资。但中国人工智能初创公司DeepSeek的最新成果打破了这一模式:仅用 560 万美元就开发出了一个世界级的人工智能模型。

DeepSeek 的V3 模型可以与谷歌 Gemini和OpenAI 的最新产品等行业巨头一较高下,同时仅使用典型计算资源的一小部分。这一成就引起了许多行业领袖的关注,尤其引人注目的是,尽管面临美国出口限制,无法获得最新的Nvidia 芯片,该公司仍取得了这一成就。

1、高效人工智能的经济学

这些数字说明了效率的惊人。虽然大多数先进的人工智能模型需要16,000到100,000个 GPU 进行训练,但DeepSeek仅用2,048个GPU运行了57天。该模型的训练在Nvidia H800芯片上消耗了278万个 GPU 小时——对于 6710 亿个参数的模型来说,这个数字非常适中。

从这个角度来看,Meta 需要大约 3080 万个GPU 小时(大约是计算能力的 11 倍)来训练其Llama 3 模型,而该模型的参数实际上更少,只有 4050 亿个。DeepSeek 的方法类似于在约束条件下进行优化的大师班。借助 H800 GPU(Nvidia 专为中国市场设计的、功能有限的 AI 芯片),该公司将潜在的限制转化为创新。他们没有使用现成的解决方案进行处理器通信,而是开发了可最大限度提高效率的定制解决方案。

尽管竞争对手仍然认为需要进行大规模投资,但 DeepSeek 已证明,独创性和高效的资源利用可以使竞争更加公平。

在这里插入图片描述

图片来源:https://artificialanalysis.ai/models/deepseek-v3

2、实现不可能的工程

DeepSeek 的成就在于其创新的技术方法,表明有时最有影响力的突破来自于在约束条件下工作,而不是投入无限的资源来解决问题。

这项创新的核心是一种称为“无辅助损失负载平衡(auxiliary-loss-free load balancing)”的策略。可以将其想象成协调一个大规模并行处理系统,传统上,您需要复杂的规则和惩罚才能使一切顺利运行。DeepSeek 颠覆了这种传统观念,开发了一种可以自然保持平衡的系统,而无需传统方法的开销。

该团队还率先采用了所谓的“多标记预测”(Multi-Token Prediction,MTP)技术,该技术通过同时预测多个标记,让模型提前思考。在实践中,这意味着这些预测在各个主题中的接受率高达 85-90%,处理速度比以前的方法快 1.8 倍。

技术架构本身就是效率的杰作。DeepSeek 的 V3 采用混合专家(mixture-of-experts,MoE)方法,总共有 6710 亿个参数,但巧妙之处在于它只为每个 token 激活 370 亿个参数。这种选择性激活意味着他们可以获得大规模模型的好处,同时保持实际效率。

他们选择 FP8 混合精度训练框架是又一次飞跃。他们没有接受传统的精度降低限制,而是开发了定制解决方案,在保持精度的同时显著降低了内存和计算要求。

3、人工智能生态系统的连锁反应

DeepSeek 的成就的影响远远超出了一个成功的模型。

对于欧洲的人工智能发展来说,这一突破意义非凡。许多先进的模型无法进入欧盟,因为像 Meta 和 OpenAI 这样的公司无法或不愿适应欧盟的《人工智能法案》。DeepSeek 的方法表明,构建尖端人工智能并不总是需要大规模的 GPU 集群——更重要的是高效利用可用资源。

这一发展也表明出口限制实际上可以推动创新。DeepSeek 对高端硬件的有限使用迫使他们以不同的方式思考,从而实现了在资源丰富的环境中可能永远不会出现的软件优化。这一原则可能会重塑我们在全球范围内处理人工智能开发的方式。

尽管行业巨头仍在投入数十亿美元,但 DeepSeek 已经为高效、经济的 AI 开发制定了蓝图。这可能会为之前因资源限制而无法竞争的小型公司和研究机构打开大门。

然而,这并不意味着大规模计算基础设施正在变得过时。业界正在将重点转向扩展推理时间——模型生成答案所需的时间。随着这一趋势的持续,大量计算资源仍将是必要的,随着时间的推移,这种需求可能会更加迫切。

DeepSeek 从根本上改变了这一话题。其长期影响显而易见:我们正在进入一个创新思维和高效资源利用比单纯的计算能力更重要的时代。对于人工智能社区来说,这意味着不仅要关注我们拥有什么资源,还要关注我们如何创造性和高效地利用这些资源。


http://www.ppmy.cn/news/1561150.html

相关文章

Eclipse 内容辅助

Eclipse的内容辅助(Content Assist)功能是一项核心特性,它通过提供代码提示和自动完成建议来提高开发效率。这个功能能够在用户编写代码时自动显示可能的代码补全选项,如变量名、方法名、类名和关键字等。它还能根据用户的输入和上…

「下载」智慧文旅运营综合平台解决方案:整体架构,核心功能设计

智慧文旅运营综合平台,旨在通过集成大数据、云计算、物联网、人工智能等先进技术,为景区、旅游企业及相关管理机构提供一站式的智慧化运营服务。 智慧文旅运营综合平台不仅能够提升游客的游览体验,还能帮助景区管理者实现资源的优化配置和业务…

Unity的四种数据持久化方式

目录 什么是数据持久化 数据持久化之PlayerPrefs 概述 API及用法 电脑中存放的位置 优缺点 主要用处 封装PlayerPrefs 数据持久化之XML XML是什么 读取XML信息 C#读取XML的方法有几种 读取xml文件信息 读取元素和属性信息 总结 写入XML信息 选择存储目录 存储…

从RNN循环神经网络到长短时记忆网络LSTM

前言 本文从一个简单的例子出发,介绍了RNN及其两种变体LSTM和GRU的基本原理,了解循环神经网络能够解决什么问题,以及能够应用在哪些领域。 1)本文重点:本文重点研究RNN及其变体的原理和解决的问题; 2)本文缺陷:本文为有倾向性的知…

《ChatGPT 数据分析实践》——人人都是数据分析高手!

文章目录 零、前言一、深入探索 ChatGPT 的潜力二、书中亮点概览从零开始应用案例丰富全面覆盖数据分析流程跨行业适用 三、学习 ChatGPT 数据分析的价值四、读者对象五、作者介绍六、感受七、粉丝福利福利0福利1福利2 零、前言 我是虚竹哥,目标是带十万人玩转Chat…

Selenium和WebDriver的安装与配置

1、Selenium的安装 直接黑窗口执行:pip install selenium3.141.0 可能遇到的问题: 解决方法配置环境变量: 找到目录:(以自己电脑为准) C:\Users\Administrator\AppData\Local\Programs\Python\Python38-…

DeepSeek v3为何爆火?如何用其集成Milvus搭建RAG?

最近,DeepSeek v3(一个MoE模型,拥有671B参数,其中37B参数被激活)模型全球爆火。 作为一款能与Claude 3.5 Sonnet,GPT-4o等模型匹敌的开源模型DeepSeek v3不仅将其算法开源,还放出一份扎实的技术…

深入Android架构(从线程到AIDL)_11 线程之间的通信架构

目录 5、 线程之间的通信架构 认识Looper与Handler对象 主线程丢信息给自己 子线程丢信息给主线程 替子线程诞生Looper与MQ 5、 线程之间的通信架构 认识Looper与Handler对象 当主线程诞生时,就会去执行一个代码循环(Looper),以便持续监视它的信息…