翻译: Dario Amodei 关于DeepSeek与出口管制一

embedded/2025/2/1 17:41:00/

几周前,我曾提议加强美国对芯片出口到中国的管制。此后,中国的人工智能公司DeepSeek在某些方面成功地以较低的成本,接近了美国前沿人工智能模型的表现。

在这里,我不会专注于DeepSeek是否对美国人工智能公司如Anthropic构成威胁(尽管我确实认为关于它们威胁美国人工智能领导地位的许多说法被夸大了)。我更关注的是,DeepSeek的发布是否削弱了关于芯片出口管制政策的合理性。我认为并没有。实际上,我认为它们使得出口管制政策比一周前更加至关重要。

出口管制具有至关重要的作用:保持民主国家在人工智能发展的前沿。需要明确的是,出口管制并非逃避美国与中国之间竞争的手段。最终,如果我们希望胜出,美国及其他民主国家的人工智能公司必须拥有比中国更好的模型。但我们不应该在没有必要的情况下,向中国共产党提供技术上的优势。

人工智能发展的三种动态

在我阐述我的政策论点之前,我将描述三种人工智能系统的基本动态,理解这些动态至关重要:

Scaling laws规模定律。

人工智能的一个特性——我和我的联合创始人是最早在OpenAI工作时记录这一点的——是,在其他条件相等的情况下,扩大人工智能系统的训练规模,会在各类认知任务上带来更好的结果。例如,一个价值100万美元的模型可能解决20%的重要编程任务,一个1000万美元的模型可能解决40%,1亿美元的模型可能解决60%,以此类推。这些差异在实践中往往有巨大的影响——10倍的差异可能对应着本科和博士之间的技能差距——因此公司们在大力投资训练这些模型。

Shifting the curve曲线的转移。

该领域不断提出一些想法,大小不一,可以使事情变得更加有效或高效:可能是对模型架构的改进(对当前所有模型使用的基本Transformer架构进行的微调),也可能只是使模型在基础硬件上运行更高效的方法。新一代硬件也具有同样的效果。通常,这种创新会转移曲线:如果创新是2倍的“计算倍增器”(CM)2x “compute multiplier”,那么它使得你可以以500万美元而不是1000万美元的成本完成40%的编程任务;或者以5000万美元而不是1亿美元的成本完成60%的任务,等等。每个前沿人工智能公司都会定期发现这些计算倍增器:通常是小的倍增器(大约1.2倍),有时是中等大小的倍增器(大约2倍),而偶尔会有非常大的倍增器(大约10倍)。由于拥有更智能系统的价值如此之高,这种曲线的转移通常会导致公司投入更多的资金,而不是更少:成本效率的提升最终会完全用于训练更智能的模型,仅受限于公司的财务资源。人们通常会被“先是昂贵,然后变得便宜”的想法所吸引——就像人工智能是一个恒定质量的东西,当它变得便宜时,我们将用更少的芯片来训练它。但重要的是规模曲线:当它转移时,我们只是更快地通过它,因为曲线尽头的价值如此之高。在2020年,我的团队发布了一篇论文,建议由于算法进步,曲线的转移大约是每年1.68倍。自那以后,这个速度可能显著加快;它也没有考虑效率和硬件的因素。我猜现在的数字大约是每年4倍。另一个估计可以参考这里。训练曲线的转移也会转移推理曲线,因此,在保持模型质量的前提下,价格的大幅下降已经持续多年。例如,Claude 3.5 Sonnet在发布15个月后,几乎在所有基准测试中超越了最初的GPT-4,同时API价格低了约10倍。

Shifting the paradigm范式的转移。

每隔一段时间,正在被扩展的基础事物会有所改变,或者训练过程中会增加一种新的扩展方式。从2020到2023年,主要扩展的对象是预训练模型:这些模型在不断增加的互联网文本上进行了训练,辅以少量其他训练。到2024年,使用强化学习(RL)训练模型生成思维链条的想法成为了扩展的一个新焦点。Anthropic、DeepSeek和许多其他公司(可能最著名的是OpenAI,它们在9月发布了o1-preview模型)发现,这种训练大大提高了在某些特定任务上的表现,如数学、编程竞赛和类似这些任务的推理。这种新范式的关键在于,从普通的预训练模型开始,然后在第二阶段使用强化学习添加推理技能。值得注意的是,因为这种强化学习是新的,我们仍然处于规模扩展的初期阶段:第二阶段的花费对于所有参与者来说都是相对较少的。花费100万美元而不是10万美元就足以获得巨大的收益。公司们现在正在非常快速地扩展第二阶段的规模,达到数亿或数十亿,但必须理解的是,我们正处于一个独特的“交叉点”,在这里,存在一种强大的新范式,它处于规模扩展的初期阶段,因此可以快速取得巨大的进展。

参考

https://darioamodei.com/on-deepseek-and-export-controls


http://www.ppmy.cn/embedded/158692.html

相关文章

基于机器学习链家网房屋数据分析预测系统的设计与实现

【Python】基于机器学习链家网房屋数据分析预测系统的设计与实现(完整系统源码开发笔记详细部署教程)✅ 目录 一、项目简介二、项目界面展示三、项目视频展示 一、项目简介 本系统首先从链家网爬取或接收其开放API提供的房屋数据,包括房屋位…

《苍穹外卖》项目学习记录-Day5在Java中操作Redis_Spring Data Redis

1.导入Spring Data Redis 的maven坐标。 Redis服务启动之后,默认情况下,它在Redis服务当中给我们创建了16个库(DB0~DB15),我们可以通过database配置项来指定数据库。不同的数据库当中的数据是完全隔离的,da…

DeepSeek学术写作测评第二弹:数据分析、图表解读,效果怎么样?

我是娜姐 迪娜学姐 ,一个SCI医学期刊编辑,探索用AI工具提效论文写作和发表。 针对最近全球热议的DeepSeek开源大模型,娜姐昨天分析了关于论文润色、中译英的详细效果测评: DeepSeek学术写作测评第一弹:论文润色&#…

UE5.3 C++ CDO的初步理解

一.UObject UObject是所有对象的基类,往上还有UObjectBaseUtility。 注释:所有虚幻引擎对象的基类。对象的类型由基于 UClass 类来定义。 这为创建和使用UObject的对象提供了 函数,并且提供了应在子类中重写的虚函数。 /** * The base cla…

代理模式 -- 学习笔记

代理模式学习笔记 什么是代理? 代理是一种设计模式,用户可以通过代理操作,而真正去进行处理的是我们的目标对象,代理可以在方法增强(如:记录日志,添加事务,监控等) 拿一…

初始Python篇(10)—— 初识 类与对象

找往期文章包括但不限于本期文章中不懂的知识点: 个人主页:我要学编程(ಥ_ಥ)-CSDN博客 所属专栏: Python 目录 前言介绍 类的定义和使用 动态绑定属性与方法 前言介绍 Python 是一门既支持面向过程,又支持面向对象的编程语…

sublime_text的快捷键

sublime_text的快捷键 向下复制, 复制光标所在整行并插入到下一行:通过 CtrlShiftD 实现快速复制当前行的功能。 可选多行, 不选则复制当前行 ctrl Shift D 删除当前行:通过 CtrlShiftK 实现快速删除当前行的功能。 可选多行, 不选则删当前行 ctrl S…

Spring Boot是什么及其优点

简介 Spring Boot是基于Spring框架开发的全新框架,其设计目的是简化Spring应用的初始化搭建和开发过程。 Spring Boot整合了许多框架和第三方库配置,几乎可以达到“开箱即用”。 优点 可快速构建独立的Spring应用。 直接嵌入Tomcat、Jetty和Underto…