Dario Amodei — On DeepSeek and Export Controls

只有登录用户才可以评论

关于 DeepSeek 和出口管制

几周前，我提出了加强美国对中国芯片出口管制的观点。自那以后，中国人工智能公司 DeepSeek 已经设法——至少在某些方面——以更低的成本接近美国前沿人工智能模型的性能。

这里，我不会关注 DeepSeek 是否是像 Anthropic 这样的美国 AI 公司的威胁（尽管我认为关于其威胁美国 AI 领导地位的许多说法都被过度夸大了）。相反，我会关注 DeepSeek 的发布是否削弱了那些芯片出口控制政策。我认为它们并没有。事实上，我认为它们使得出口控制政策比一周前更加具有存在意义。

出口管制发挥着至关重要的作用：使民主国家处于人工智能发展的前沿。明确地说，它们并不是逃避美中之间竞争的方式。最终，如果我们想要取得胜利，美国和其他民主国家的 AI 公司必须拥有比中国更好的模型。但如果我们不必这样做，我们就不应该将技术优势拱手相让给中国共产党。

人工智能发展的三个动态

在提出我的政策论点之前，我将描述三个至关重要的 AI 系统基本动态，理解它们是必不可少的：

扩展定律。人工智能的一个特性——我和我的联合创始人是在我们还在 OpenAI 工作时最早记录下来的——是，在其他条件相同的情况下，扩大人工智能系统的训练会导致在一系列认知任务上取得平滑的更好结果。因此，例如，一个 100 万美元的模型可能解决 20%的重要编码任务，一个 1000 万美元的模型可能解决 40%，一个 1 亿美元的模型可能解决 60%，依此类推。这些差异在实践中往往具有巨大的影响——另一个 10 倍的增长可能对应于本科生和博士水平之间的差距——因此，公司正在大量投资于这些模型的训练。
移动曲线。该领域不断提出各种想法，大小不一，使事物更加有效或高效：这可能是对模型架构的改进（对今天所有模型都使用的 Transformer 架构的基本调整）或简单地提高模型在底层硬件上的运行效率。新一代硬件也有同样的效果。这通常会导致曲线移动：如果创新是一个 2 倍的“计算乘数”（CM），那么它允许你在花费 5000 万美元而不是 1 亿美元的情况下完成编码任务并获得 40%的效率；或者在花费 5000 万美元而不是 1 亿美元的情况下获得 60%的效率，等等。每个前沿人工智能公司都会定期发现许多这样的 CM：经常是小型的（约 1.2 倍），有时是中等大小的（约 2 倍），偶尔是非常大的（约 10 倍）。由于拥有更智能系统的价值非常高，这种曲线的移动通常会导致公司在训练模型上的支出增加，而不是减少：成本效率的提高最终完全用于训练更智能的模型，仅受公司财务资源的限制。人们自然会倾向于“先贵后便宜”的想法——好像 AI 是一个质量恒定的单一事物，当它变便宜时，我们会用更少的芯片来训练它。但重要的是扩展曲线：当它发生变化时，我们只需更快地穿越它，因为曲线末端的价值非常高。2020 年，我的团队发表了一篇论文，提出由于算法进步导致的曲线变化约为每年 1.68 倍。这或许已经显著加快；它也没有考虑到效率和硬件。我猜测现在的数字可能是每年约 4 倍。另一个估计在这里。训练曲线的变化也会影响推理曲线，因此，在保持模型质量不变的情况下，价格的大幅下降已经持续了多年。例如，Claude 3.5 Sonnet 比原始 GPT-4 晚发布 15 个月，在几乎所有基准测试中都超过了 GPT-4，同时 API 价格大约低 10 倍。
转换范式。偶尔，正在扩展的基础事物会略有变化，或者训练过程中会添加一种新的扩展类型。从 2020 年到 2023 年，主要被扩展的是预训练模型：在不断增加的互联网文本上训练，并在其上添加一点其他训练。在 2024 年，使用强化学习（RL）来训练模型生成思维链的想法成为了扩展的新焦点。Anthropic、DeepSeek 以及许多其他公司（也许最著名的是在 9 月份发布了他们的 o1-preview 模型的 OpenAI）发现，这种训练极大地提高了某些特定、客观可测量的任务（如数学、编码竞赛以及与这些任务相似的推理）的性能。这种新范式涉及从普通类型的预训练模型开始，然后在第二阶段使用 RL 来添加推理技能。重要的是，由于这种 RL 是新的，我们仍然处于扩展曲线的非常早期：所有玩家在第二阶段 RL 上的投入都很小。用 100 万美元而不是 10 万美元就足以获得巨大的收益。公司现在正迅速推进第二阶段，将其规模扩大到数亿甚至数十亿，但关键是要理解我们正处于一个独特的“转折点”，在这个点上，有一个强大的新范式处于早期扩展曲线，因此可以快速取得重大进展。

DeepSeek 的模型

以上三个动态有助于我们理解 DeepSeek 最近的发布。大约一个月前，DeepSeek 发布了一个名为“DeepSeek-V3”的模型，这是一个纯预训练模型 3——上面第 3 点中描述的第一阶段。然后上周，他们发布了“R1”，增加了第二阶段。从外部无法确定这些模型的所有信息，但以下是我对这两次发布的最好理解。

DeepSeek-V3 实际上是真正的创新，本应在一个月前引起人们的注意（我们确实注意到了）。作为一个预训练模型，它在一些重要任务上似乎接近了最先进的美国模型的性能，而训练成本却大幅降低（尽管，我们发现 Claude 3.5 Sonnet 在特定的一些关键任务上，如现实世界的编码，仍然表现得更好）。DeepSeek 团队通过一些真正令人印象深刻的创新实现了这一点，主要关注工程效率。特别是在“键值缓存”的管理方面有特别创新的改进，以及在使“专家混合”方法比以前更深入的应用。

然而，仔细观察是很重要的：

DeepSeek 并不是“用 600 万美元做到美国 AI 公司花费数十亿美元的事情”。我只能代表 Anthropic，Claude 3.5 Sonnet 是一个中型模型，训练成本为几千万美元（我不会给出确切数字）。此外，3.5 Sonnet 的训练并没有涉及更大或更昂贵的模型（与一些传言相反）。Sonnet 的训练是在 9-12 个月前进行的，而 DeepSeek 的模型是在 11 月/12 月训练的，而 Sonnet 在许多内部和外部评估中仍然明显领先。因此，我认为一个公正的说法是“DeepSeek 生产了一个接近美国 7-10 个月前模型性能的模型，成本却大大降低（但远未达到人们所建议的比例）”。
如果成本曲线的历史下降趋势是每年约 4 倍，这意味着在正常业务流程中——在像 2023 年和 2024 年发生的那种历史成本下降的正常趋势中——我们预计现在的模型将比 3.5 Sonnet/GPT-4o 便宜 3-4 倍。由于 DeepSeek-V3 比那些美国前沿模型差——比如说在扩展曲线上差约 2 倍，我认为这对 DeepSeek-V3 来说相当宽容——这意味着如果 DeepSeek-V3 的训练成本比一年前的当前美国模型低约 8 倍，那将完全是正常的，完全“符合趋势”。我不会给出具体数字，但从前一个要点中可以看出，即使你按面值计算 DeepSeek 的训练成本，它们最多也只是在趋势上，甚至可能还不是那样。例如，这比原始 GPT-4 到 Claude 3.5 Sonnet 推理价格差异（10 倍）要小，而 3.5 Sonnet 是一个比 GPT-4 更好的模型。所有这些都表明，DeepSeek-V3 不是一个独特的突破或从根本上改变LLM经济学的某种东西；它是在持续的成本下降曲线上的一个预期点。这次不同之处在于，首先展示预期成本降低的公司是中国企业。这前所未有，具有地缘政治意义。然而，美国公司很快也将效仿——他们不是通过模仿 DeepSeek 来做到这一点，而是因为他们也在实现成本降低的常规趋势。
双方 DeepSeek 和美國 AI 公司比过去训练头模时拥有更多的资金和更多的芯片。额外的芯片用于研发模型背后的想法，有时用于训练尚未准备好的更大模型（或需要多次尝试才能正确）的模型。据报道——我们无法确定其真实性——DeepSeek 实际上拥有 50,000 个 Hopper 代芯片 6，我猜测这大约是主要美國 AI 公司数量的 2-3 倍（例如，它比 xAI 的“巨人”集群少 2-3 倍）7。这 50,000 个 Hopper 芯片的成本约为~10 亿美元。因此，DeepSeek 作为公司（与训练单个模型的花费不同）的总支出与美国 AI 实验室并没有太大差异。
值得指出的是，“缩放曲线”分析有些过于简化，因为模型之间有所区别，各有优势和劣势；缩放曲线的数字是一个粗略的平均值，忽略了大量细节。我只能谈谈 Anthropic 的模型，但正如我上面所暗示的，Claude 在编码方面非常出色，并且在与人的互动风格上设计得很好（许多人用它来寻求个人建议或支持）。在这些任务和一些额外任务上，与 DeepSeek 相比根本无法相提并论。这些因素并未体现在缩放数字中。

R1，即上周发布的模型，引发了公众的广泛关注（包括英伟达股价下跌约 17%），从创新或工程角度来看，远不如 V3 有趣。它增加了训练的第二阶段——强化学习，在上一节中描述为#3——并且本质上复制了 OpenAI 对 o1 所做的工作（它们似乎在相似规模上取得了相似的结果）8。然而，因为我们处于扩展曲线的早期阶段，只要从强大的预训练模型开始，就有可能让多家公司生产此类模型。在 V3 的基础上生产 R1 可能非常便宜。因此，我们正处于一个有趣的“交叉点”，在这个点上，多家公司可以暂时生产出优秀的推理模型。随着每个人在这些模型上进一步向上移动扩展曲线，这一点将迅速不再成立。

出口管制

所有这些只是我对主要感兴趣主题的序言：对中国芯片的出口管制。鉴于上述事实，我认为情况如下：

存在一种持续趋势，即公司在训练强大 AI 模型上的投入越来越多，尽管曲线会周期性移动，训练特定水平模型智能的成本也在迅速下降。只是训练越来越智能的模型的经济价值如此之大，任何成本节省几乎立即就被吞噬——它们被重新投入到制造更智能的模型中，而这些模型的成本与我们最初计划花费的巨大成本相同。在 US 实验室尚未发现之前，DeepSeek 开发的效率创新将很快被美国和中国实验室应用于训练价值数十亿美元的模型。这些模型的表现将优于他们之前计划训练的价值数十亿美元的模型——但他们仍将花费数十亿美元。这个数字将持续上升，直到我们达到在几乎所有事情上比几乎所有人类都聪明的 AI。
制造出在几乎所有事情上都比几乎所有人类更聪明的 AI，将需要数百万个芯片，数十亿美元（至少），并且最有可能在 2026-2027 年实现。DeepSeek 的发布并没有改变这一点，因为它们大致处于预期的成本下降曲线上，这个曲线一直被纳入这些计算中。
这意味着到 2026-2027 年，我们可能会进入两个截然不同的世界之一。在美国，多家公司肯定能获得所需的数百万个芯片（代价是数十亿美元）。问题是中国是否也能获得数百万个芯片 9。
- 如果他们能做到，我们将生活在一个两极分化的世界，美国和中国都将拥有强大的 AI 模型，这将导致科学和技术的极其快速进步——我称之为“数据中心中的天才国家”。两极分化的世界不一定会无限期地保持平衡。即使美国和中国在 AI 系统上处于对等地位，似乎中国可能会将更多的人才、资本和关注点投入到技术的军事应用中。结合其庞大的工业基础和军事战略优势，这可能会帮助中国在全球舞台上取得主导地位，不仅是在 AI 领域，在所有领域都是如此。
- 如果中国无法获得数百万个芯片，我们（至少暂时）将生活在只有美国及其盟友拥有这些型号的单极世界中。单极世界能否持续尚不清楚，但至少存在这样的可能性，即由于人工智能系统最终可以帮助制造出更智能的人工智能系统，暂时领先可能转化为持久的优势 10。因此，在这个世界中，美国及其盟友可能在全球舞台上取得主导地位并持续很长时间。
严格执行出口管制 11 是防止中国获得数百万个芯片的唯一途径，因此是我们最终走向单极世界还是双极世界最重要的决定因素。
DeepSeek 的性能并不意味着出口管制失败。正如我上面所述，DeepSeek 拥有相当数量的芯片，因此他们能够开发和训练一个强大的模型并不令人惊讶。他们并没有比美国 AI 公司资源受限得多，出口管制也不是导致他们“创新”的主要因素。他们只是非常出色的工程师，展示了为什么中国是美国的一个严肃竞争对手。
DeepSeek 也没有显示出中国总能通过走私获得所需的芯片，或者控制措施总是存在漏洞。我不相信出口控制措施曾经被设计用来阻止中国获得几千片芯片。10 亿美元的经济活动可以隐藏，但要隐藏 1000 亿美元或甚至 100 亿美元就很难了。一百万片芯片也可能在物理上难以走私。看看 DeepSeek 目前报道拥有的芯片也很具有教育意义。据 SemiAnalysis 报道，这些芯片包括 H100 的、H800 的和 H20 的，总计 50k。H100 自发布以来就被出口控制禁令禁止，所以如果 DeepSeek 有任何，它们肯定是通过走私获得的（注意，英伟达表示 DeepSeek 的进步“完全符合出口控制规定”）。H800 在 2022 年第一轮出口控制中被允许，但在 2023 年 10 月控制措施更新时被禁止，所以这些可能是在禁令之前发货的。H20 在训练上效率较低，但在采样上效率较高——尽管如此，它们仍然被允许，尽管我认为它们应该被禁止。所有这些都意味着，DeepSeek 的 AI 芯片舰队中似乎有很大一部分芯片尚未被禁（但应该被禁）；在禁令出台之前就已经发货的芯片；还有一些似乎很可能被走私。这表明出口管制实际上正在发挥作用并适应：漏洞正在被关闭；否则，它们可能拥有全部顶级的 H100 芯片。如果我们能迅速关闭这些漏洞，我们可能能够阻止中国获得数百万个芯片，增加美国领先的单极世界可能性。

鉴于我对出口管制和美国国家安全的关注，我想明确一点。我不认为 DeepSeek 本身是敌对者，目标也不是特别针对他们。在他们的采访中，他们看起来像是聪明、好奇的研究人员，只想开发有用的技术。

但他们对一个犯有人权侵犯、在国际舞台上行为侵略的威权政府负有责任，如果他们能在人工智能方面与美国匹敌，这些行为将更加不受约束。出口管制是我们预防这种情况的最强大工具之一，认为技术变得更强大、性价比更高是放宽我们出口管制的原因，这种想法完全不合理。

脚注

1 我在这篇文章中不对关于从西方模型中蒸馏的报告发表任何立场。在这里，我将仅根据 DeepSeek 所说的，相信他们在论文中描述的训练方式。↩
2 顺便说一句，我认为 DeepSeek 模型的发布对英伟达来说显然不是坏事，而且对此反应的股价下跌两位数（约 17%）令人困惑。这个发布对英伟达不是坏事的理由甚至比它对 AI 公司不是坏事的理由更明显。但我在这篇文章中的主要目标是捍卫出口管制政策。
3 要完全准确地说，它是一个在推理范式转变之前，具有典型的小量强化学习训练的预训练模型。↩
4 在某些非常狭窄的任务上更强。
5 这是 DeepSeek 论文中引用的数字——我把它当作字面意思，并不怀疑这部分，只是与美国公司模型训练成本的比较，以及训练特定模型（即 600 万美元）与研发总体成本（远高于此）之间的区别。然而，我们也不能完全确定这 600 万美元——模型大小是可验证的，但其他方面如令牌数量则不可。↩
6 在某些采访中我说他们有“50,000 个 H100”，这其实是对报道的一个细微的错误总结，我想在这里更正。最广为人知的“Hopper 芯片”是 H100（我假设这就是所指的），但 Hopper 还包括 H800 和 H20，DeepSeek 据报道拥有这三种芯片的混合，总数达到 50,000。这并没有改变太多情况，但值得更正。当我谈到出口管制时，我会更详细地讨论 H800 和 H20。↩
7 注意：由于出口管制，我预计这一差距将在下一代集群中大幅增长。↩
8 我怀疑 R1 引起如此多关注的主要原因之一是它是第一个向用户展示模型所展现的推理过程链（OpenAI 的 o1 只显示最终答案）。DeepSeek 表明用户觉得这很有趣。为了明确，这是一个用户界面选择，与模型本身无关。
9 请注意，中国的芯片在短期内无法与美国制造的芯片竞争。正如我在与马特·波丁格最近的社论中所写：“中国最好的 AI 芯片，华为 Ascend 系列，在能力上远逊于美国 Nvidia 公司生产的领先芯片。中国也可能没有足够的产能来满足不断增长的需求。目前在中国境外没有一家值得注意的华为 Ascend 芯片集群，这表明中国正努力满足国内需求...”。↩
明确来说，这里的目的是不是要否认中国或其他任何威权国家从非常强大的 AI 系统中获得的巨大科学、医学、生活质量等方面的好处。每个人都应该能够从 AI 中受益。目标是防止他们获得军事优势。
11 多个链接，因为已经进行了几轮。涵盖一些主要行动：一、二、三、四。 ↩

瓦白 2025-01-31 10:26:26

## 关于 DeepSeek 和出口管制

## 人工智能发展的三个动态

在提出我的政策论点之前，我将描述三个至关重要的 AI 系统基本动态，理解它们是必不可少的：

1. 扩展定律。人工智能的一个特性——我和我的联合创始人是在我们还在 OpenAI 工作时最早记录下来的——是，在其他条件相同的情况下，扩大人工智能系统的训练会导致在一系列认知任务上取得平滑的更好结果。因此，例如，一个 100 万美元的模型可能解决 20%的重要编码任务，一个 1000 万美元的模型可能解决 40%，一个 1 亿美元的模型可能解决 60%，依此类推。这些差异在实践中往往具有巨大的影响——另一个 10 倍的增长可能对应于本科生和博士水平之间的差距——因此，公司正在大量投资于这些模型的训练。
2. 移动曲线。该领域不断提出各种想法，大小不一，使事物更加有效或高效：这可能是对模型架构的改进（对今天所有模型都使用的 Transformer 架构的基本调整）或简单地提高模型在底层硬件上的运行效率。新一代硬件也有同样的效果。这通常会导致曲线移动：如果创新是一个 2 倍的“计算乘数”（CM），那么它允许你在花费 5000 万美元而不是 1 亿美元的情况下完成编码任务并获得 40%的效率；或者在花费 5000 万美元而不是 1 亿美元的情况下获得 60%的效率，等等。每个前沿人工智能公司都会定期发现许多这样的 CM：经常是小型的（约 1.2 倍），有时是中等大小的（约 2 倍），偶尔是非常大的（约 10 倍）。由于拥有更智能系统的价值非常高，这种曲线的移动通常会导致公司在训练模型上的支出增加，而不是减少：成本效率的提高最终完全用于训练更智能的模型，仅受公司财务资源的限制。 人们自然会倾向于“先贵后便宜”的想法——好像 AI 是一个质量恒定的单一事物，当它变便宜时，我们会用更少的芯片来训练它。但重要的是扩展曲线：当它发生变化时，我们只需更快地穿越它，因为曲线末端的价值非常高。2020 年，我的团队发表了一篇论文，提出由于算法进步导致的曲线变化约为每年 1.68 倍。这或许已经显著加快；它也没有考虑到效率和硬件。我猜测现在的数字可能是每年约 4 倍。另一个估计在这里。训练曲线的变化也会影响推理曲线，因此，在保持模型质量不变的情况下，价格的大幅下降已经持续了多年。例如，Claude 3.5 Sonnet 比原始 GPT-4 晚发布 15 个月，在几乎所有基准测试中都超过了 GPT-4，同时 API 价格大约低 10 倍。
3. 转换范式。偶尔，正在扩展的基础事物会略有变化，或者训练过程中会添加一种新的扩展类型。从 2020 年到 2023 年，主要被扩展的是预训练模型：在不断增加的互联网文本上训练，并在其上添加一点其他训练。在 2024 年，使用强化学习（RL）来训练模型生成思维链的想法成为了扩展的新焦点。Anthropic、DeepSeek 以及许多其他公司（也许最著名的是在 9 月份发布了他们的 o1-preview 模型的 OpenAI）发现，这种训练极大地提高了某些特定、客观可测量的任务（如数学、编码竞赛以及与这些任务相似的推理）的性能。这种新范式涉及从普通类型的预训练模型开始，然后在第二阶段使用 RL 来添加推理技能。重要的是，由于这种 RL 是新的，我们仍然处于扩展曲线的非常早期：所有玩家在第二阶段 RL 上的投入都很小。用 100 万美元而不是 10 万美元就足以获得巨大的收益。 公司现在正迅速推进第二阶段，将其规模扩大到数亿甚至数十亿，但关键是要理解我们正处于一个独特的“转折点”，在这个点上，有一个强大的新范式处于早期扩展曲线，因此可以快速取得重大进展。

## DeepSeek 的模型

然而，仔细观察是很重要的：

- DeepSeek 并不是“用 600 万美元做到美国 AI 公司花费数十亿美元的事情”。我只能代表 Anthropic，Claude 3.5 Sonnet 是一个中型模型，训练成本为几千万美元（我不会给出确切数字）。此外，3.5 Sonnet 的训练并没有涉及更大或更昂贵的模型（与一些传言相反）。Sonnet 的训练是在 9-12 个月前进行的，而 DeepSeek 的模型是在 11 月/12 月训练的，而 Sonnet 在许多内部和外部评估中仍然明显领先。因此，我认为一个公正的说法是“DeepSeek 生产了一个接近美国 7-10 个月前模型性能的模型，成本却大大降低（但远未达到人们所建议的比例）”。
- 如果成本曲线的历史下降趋势是每年约 4 倍，这意味着在正常业务流程中——在像 2023 年和 2024 年发生的那种历史成本下降的正常趋势中——我们预计现在的模型将比 3.5 Sonnet/GPT-4o 便宜 3-4 倍。由于 DeepSeek-V3 比那些美国前沿模型差——比如说在扩展曲线上差约 2 倍，我认为这对 DeepSeek-V3 来说相当宽容——这意味着如果 DeepSeek-V3 的训练成本比一年前的当前美国模型低约 8 倍，那将完全是正常的，完全“符合趋势”。我不会给出具体数字，但从前一个要点中可以看出，即使你按面值计算 DeepSeek 的训练成本，它们最多也只是在趋势上，甚至可能还不是那样。例如，这比原始 GPT-4 到 Claude 3.5 Sonnet 推理价格差异（10 倍）要小，而 3.5 Sonnet 是一个比 GPT-4 更好的模型。所有这些都表明，DeepSeek-V3 不是一个独特的突破或从根本上改变LLM经济学的某种东西；它是在持续的成本下降曲线上的一个预期点。 这次不同之处在于，首先展示预期成本降低的公司是中国企业。这前所未有，具有地缘政治意义。然而，美国公司很快也将效仿——他们不是通过模仿 DeepSeek 来做到这一点，而是因为他们也在实现成本降低的常规趋势。
- 双方 DeepSeek 和美國 AI 公司比过去训练头模时拥有更多的资金和更多的芯片。额外的芯片用于研发模型背后的想法，有时用于训练尚未准备好的更大模型（或需要多次尝试才能正确）的模型。据报道——我们无法确定其真实性——DeepSeek 实际上拥有 50,000 个 Hopper 代芯片 6，我猜测这大约是主要美國 AI 公司数量的 2-3 倍（例如，它比 xAI 的“巨人”集群少 2-3 倍）7。这 50,000 个 Hopper 芯片的成本约为~10 亿美元。因此，DeepSeek 作为公司（与训练单个模型的花费不同）的总支出与美国 AI 实验室并没有太大差异。
- 值得指出的是，“缩放曲线”分析有些过于简化，因为模型之间有所区别，各有优势和劣势；缩放曲线的数字是一个粗略的平均值，忽略了大量细节。我只能谈谈 Anthropic 的模型，但正如我上面所暗示的，Claude 在编码方面非常出色，并且在与人的互动风格上设计得很好（许多人用它来寻求个人建议或支持）。在这些任务和一些额外任务上，与 DeepSeek 相比根本无法相提并论。这些因素并未体现在缩放数字中。

## 出口管制

所有这些只是我对主要感兴趣主题的序言：对中国芯片的出口管制。鉴于上述事实，我认为情况如下：

- 存在一种持续趋势，即公司在训练强大 AI 模型上的投入越来越多，尽管曲线会周期性移动，训练特定水平模型智能的成本也在迅速下降。只是训练越来越智能的模型的经济价值如此之大，任何成本节省几乎立即就被吞噬——它们被重新投入到制造更智能的模型中，而这些模型的成本与我们最初计划花费的巨大成本相同。在 US 实验室尚未发现之前，DeepSeek 开发的效率创新将很快被美国和中国实验室应用于训练价值数十亿美元的模型。这些模型的表现将优于他们之前计划训练的价值数十亿美元的模型——但他们仍将花费数十亿美元。这个数字将持续上升，直到我们达到在几乎所有事情上比几乎所有人类都聪明的 AI。
- 制造出在几乎所有事情上都比几乎所有人类更聪明的 AI，将需要数百万个芯片，数十亿美元（至少），并且最有可能在 2026-2027 年实现。DeepSeek 的发布并没有改变这一点，因为它们大致处于预期的成本下降曲线上，这个曲线一直被纳入这些计算中。
- 这意味着到 2026-2027 年，我们可能会进入两个截然不同的世界之一。在美国，多家公司肯定能获得所需的数百万个芯片（代价是数十亿美元）。问题是中国是否也能获得数百万个芯片 9。
  - 如果他们能做到，我们将生活在一个两极分化的世界，美国和中国都将拥有强大的 AI 模型，这将导致科学和技术的极其快速进步——我称之为“数据中心中的天才国家”。两极分化的世界不一定会无限期地保持平衡。即使美国和中国在 AI 系统上处于对等地位，似乎中国可能会将更多的人才、资本和关注点投入到技术的军事应用中。结合其庞大的工业基础和军事战略优势，这可能会帮助中国在全球舞台上取得主导地位，不仅是在 AI 领域，在所有领域都是如此。
  - 如果中国无法获得数百万个芯片，我们（至少暂时）将生活在只有美国及其盟友拥有这些型号的单极世界中。单极世界能否持续尚不清楚，但至少存在这样的可能性，即由于人工智能系统最终可以帮助制造出更智能的人工智能系统，暂时领先可能转化为持久的优势 10。因此，在这个世界中，美国及其盟友可能在全球舞台上取得主导地位并持续很长时间。
- 严格执行出口管制 11 是防止中国获得数百万个芯片的唯一途径，因此是我们最终走向单极世界还是双极世界最重要的决定因素。
- DeepSeek 的性能并不意味着出口管制失败。正如我上面所述，DeepSeek 拥有相当数量的芯片，因此他们能够开发和训练一个强大的模型并不令人惊讶。他们并没有比美国 AI 公司资源受限得多，出口管制也不是导致他们“创新”的主要因素。他们只是非常出色的工程师，展示了为什么中国是美国的一个严肃竞争对手。
- DeepSeek 也没有显示出中国总能通过走私获得所需的芯片，或者控制措施总是存在漏洞。我不相信出口控制措施曾经被设计用来阻止中国获得几千片芯片。10 亿美元的经济活动可以隐藏，但要隐藏 1000 亿美元或甚至 100 亿美元就很难了。一百万片芯片也可能在物理上难以走私。看看 DeepSeek 目前报道拥有的芯片也很具有教育意义。据 SemiAnalysis 报道，这些芯片包括 H100 的、H800 的和 H20 的，总计 50k。H100 自发布以来就被出口控制禁令禁止，所以如果 DeepSeek 有任何，它们肯定是通过走私获得的（注意，英伟达表示 DeepSeek 的进步“完全符合出口控制规定”）。H800 在 2022 年第一轮出口控制中被允许，但在 2023 年 10 月控制措施更新时被禁止，所以这些可能是在禁令之前发货的。H20 在训练上效率较低，但在采样上效率较高——尽管如此，它们仍然被允许，尽管我认为它们应该被禁止。 所有这些都意味着，DeepSeek 的 AI 芯片舰队中似乎有很大一部分芯片尚未被禁（但应该被禁）；在禁令出台之前就已经发货的芯片；还有一些似乎很可能被走私。这表明出口管制实际上正在发挥作用并适应：漏洞正在被关闭；否则，它们可能拥有全部顶级的 H100 芯片。如果我们能迅速关闭这些漏洞，我们可能能够阻止中国获得数百万个芯片，增加美国领先的单极世界可能性。

### 脚注

1. 1 我在这篇文章中不对关于从西方模型中蒸馏的报告发表任何立场。在这里，我将仅根据 DeepSeek 所说的，相信他们在论文中描述的训练方式。↩
2. 2 顺便说一句，我认为 DeepSeek 模型的发布对英伟达来说显然不是坏事，而且对此反应的股价下跌两位数（约 17%）令人困惑。这个发布对英伟达不是坏事的理由甚至比它对 AI 公司不是坏事的理由更明显。但我在这篇文章中的主要目标是捍卫出口管制政策。
3. 3 要完全准确地说，它是一个在推理范式转变之前，具有典型的小量强化学习训练的预训练模型。↩
4. 4 在某些非常狭窄的任务上更强。
5. 5 这是 DeepSeek 论文中引用的数字——我把它当作字面意思，并不怀疑这部分，只是与美国公司模型训练成本的比较，以及训练特定模型（即 600 万美元）与研发总体成本（远高于此）之间的区别。然而，我们也不能完全确定这 600 万美元——模型大小是可验证的，但其他方面如令牌数量则不可。↩
6. 6 在某些采访中我说他们有“50,000 个 H100”，这其实是对报道的一个细微的错误总结，我想在这里更正。最广为人知的“Hopper 芯片”是 H100（我假设这就是所指的），但 Hopper 还包括 H800 和 H20，DeepSeek 据报道拥有这三种芯片的混合，总数达到 50,000。这并没有改变太多情况，但值得更正。当我谈到出口管制时，我会更详细地讨论 H800 和 H20。↩
7. 7 注意：由于出口管制，我预计这一差距将在下一代集群中大幅增长。↩
8. 8 我怀疑 R1 引起如此多关注的主要原因之一是它是第一个向用户展示模型所展现的推理过程链（OpenAI 的 o1 只显示最终答案）。DeepSeek 表明用户觉得这很有趣。为了明确，这是一个用户界面选择，与模型本身无关。
9. 9 请注意，中国的芯片在短期内无法与美国制造的芯片竞争。正如我在与马特·波丁格最近的社论中所写：“中国最好的 AI 芯片，华为 Ascend 系列，在能力上远逊于美国 Nvidia 公司生产的领先芯片。中国也可能没有足够的产能来满足不断增长的需求。目前在中国境外没有一家值得注意的华为 Ascend 芯片集群，这表明中国正努力满足国内需求...”。↩
10. 明确来说，这里的目的是不是要否认中国或其他任何威权国家从非常强大的 AI 系统中获得的巨大科学、医学、生活质量等方面的好处。每个人都应该能够从 AI 中受益。目标是防止他们获得军事优势。
11. 11 多个链接，因为已经进行了几轮。涵盖一些主要行动：一、二、三、四。 ↩

话说中美芯片之争，DeepSeek搞了啥新动静？

最近，我刚在文章中说过，应该加强对中国出口的芯片控制。毕竟，DeepSeek等中国AI公司，居然在某些方面做到了和美国最前沿的AI模型相抗衡，而且成本更低。这事儿挺火的，同事们都在讨论呢。

不过，我要换个角度，不讨论DeepSeek是否对冲中AI公司构成威胁（虽然我一直觉得所谓威胁都被夸大了），这次，我说说这些事情对美国的出口控制政策有什么影响。其实我认为，无论怎么变，加强出口控制不仅没用，说不定还更关键了。

为啥我们要加强出口控制？

说白了，咱们这么做是为了确保民主国家在AI方面保持领先，而不是中国的专制政府。说到底，AI公司想在竞争中胜出，就得有更高的技术水平。但是，谁也不愿意给中国共产党这样的家伙提供额外的技术优势啊。

我们必须理解的三个AI发展的基本动态

在谈起政策之前，我先跟你们说说AI发展中几个很重要但又容易被忽视的部分：

首先，要说“规模化”。“规模化”听起来就挺高大上，但实际上就是说，当AI模型越大、训练得越充分，它们解决各种问题的能力也会更强大。比如说，一个100万参数的模型可能只能解决所有编程问题的60%，而百万参数的小模型可能只能解决20%，而千万级别的模型可能就能解决40%了。这些差额在实践中是非常重要的，每次和原基数相比增加10倍，可能会带来全新的技能门槛，所以企业才会投入大量资金去训练这些模型。

其次，我们得聊聊“曲线移动”。这个行业一直在进步，无论是模型架构的小改进，还是更好地利用硬件，哪怕是新版本的硬件，都能带来更大的效能。这些变化通常会让我们更好地利用资源，所以在某些情况下，同样的投入能带来更好的结果。比如，某个省钱的技巧可以让解决方案的门槛降低5倍，这让公司在成本方面变得更加高效。重要的是，因为获得更智能系统的价值很高，所以公司会不断努力，不会因此减少投入。

最后，说下“芯片高效化”。这不仅是指新技术的应用，还包括新的芯片硬件取得的进展。这些新技术会带来成本效率的提升，导致公司投入更多资源去开发更强大的AI模型，而不是减少投入。换句话说，这些效率提升带来的好处，最终会被投入到开发更智能的模型中。

所以，从这些动态看，出口控制不仅是必要的，更要严格！因为如果咱们不这么做，就给了别人更高级的技术，相当于给了他们一个赢的机会。而咱们，要保持领先地位。

总而言之，形势比以前更紧迫，我们当务之急是要加强这个领域的出口管控，确保美国和其他民主国家的技术优势。毕竟，如果长期让中国在市场上占据技术优势，那我们可就麻烦大了。

最后，各位小伙伴们，咱们得继续努力，我们可不能输，对吧？

瓦白 2025-01-31 10:22:53

### 话说中美芯片之争，DeepSeek搞了啥新动静？

#### 为啥我们要加强出口控制？

#### 我们必须理解的三个AI发展的基本动态

在谈起政策之前，我先跟你们说说AI发展中几个很重要但又容易被忽视的部分：

最后，各位小伙伴们，咱们得继续努力，我们可不能输，对吧？