存在一种持续趋势,即公司在训练强大 AI 模型上的投入越来越多,尽管曲线会周期性移动,训练特定水平模型智能的成本也在迅速下降。只是训练越来越智能的模型的经济价值如此之大,任何成本节省几乎立即就被吞噬——它们被重新投入到制造更智能的模型中,而这些模型的成本与我们最初计划花费的巨大成本相同。在 US 实验室尚未发现之前,DeepSeek 开发的效率创新将很快被美国和中国实验室应用于训练价值数十亿美元的模型。这些模型的表现将优于他们之前计划训练的价值数十亿美元的模型——但他们仍将花费数十亿美元。这个数字将持续上升,直到我们达到在几乎所有事情上比几乎所有人类都聪明的 AI。
如果他们能做到,我们将生活在一个两极分化的世界,美国和中国都将拥有强大的 AI 模型,这将导致科学和技术的极其快速进步——我称之为“数据中心中的天才国家”。两极分化的世界不一定会无限期地保持平衡。即使美国和中国在 AI 系统上处于对等地位,似乎中国可能会将更多的人才、资本和关注点投入到技术的军事应用中。结合其庞大的工业基础和军事战略优势,这可能会帮助中国在全球舞台上取得主导地位,不仅是在 AI 领域,在所有领域都是如此。
DeepSeek 的性能并不意味着出口管制失败。正如我上面所述,DeepSeek 拥有相当数量的芯片,因此他们能够开发和训练一个强大的模型并不令人惊讶。他们并没有比美国 AI 公司资源受限得多,出口管制也不是导致他们“创新”的主要因素。他们只是非常出色的工程师,展示了为什么中国是美国的一个严肃竞争对手。
关于 DeepSeek 和出口管制
几周前,我提出了加强美国对中国芯片出口管制的观点。自那以后,中国人工智能公司 DeepSeek 已经设法——至少在某些方面——以更低的成本接近美国前沿人工智能模型的性能。
这里,我不会关注 DeepSeek 是否是像 Anthropic 这样的美国 AI 公司的威胁(尽管我认为关于其威胁美国 AI 领导地位的许多说法都被过度夸大了)。相反,我会关注 DeepSeek 的发布是否削弱了那些芯片出口控制政策。我认为它们并没有。事实上,我认为它们使得出口控制政策比一周前更加具有存在意义。
出口管制发挥着至关重要的作用:使民主国家处于人工智能发展的前沿。明确地说,它们并不是逃避美中之间竞争的方式。最终,如果我们想要取得胜利,美国和其他民主国家的 AI 公司必须拥有比中国更好的模型。但如果我们不必这样做,我们就不应该将技术优势拱手相让给中国共产党。
人工智能发展的三个动态
在提出我的政策论点之前,我将描述三个至关重要的 AI 系统基本动态,理解它们是必不可少的:
DeepSeek 的模型
以上三个动态有助于我们理解 DeepSeek 最近的发布。大约一个月前,DeepSeek 发布了一个名为“DeepSeek-V3”的模型,这是一个纯预训练模型 3——上面第 3 点中描述的第一阶段。然后上周,他们发布了“R1”,增加了第二阶段。从外部无法确定这些模型的所有信息,但以下是我对这两次发布的最好理解。
DeepSeek-V3 实际上是真正的创新,本应在一个月前引起人们的注意(我们确实注意到了)。作为一个预训练模型,它在一些重要任务上似乎接近了最先进的美国模型的性能,而训练成本却大幅降低(尽管,我们发现 Claude 3.5 Sonnet 在特定的一些关键任务上,如现实世界的编码,仍然表现得更好)。DeepSeek 团队通过一些真正令人印象深刻的创新实现了这一点,主要关注工程效率。特别是在“键值缓存”的管理方面有特别创新的改进,以及在使“专家混合”方法比以前更深入的应用。
然而,仔细观察是很重要的:
R1,即上周发布的模型,引发了公众的广泛关注(包括英伟达股价下跌约 17%),从创新或工程角度来看,远不如 V3 有趣。它增加了训练的第二阶段——强化学习,在上一节中描述为#3——并且本质上复制了 OpenAI 对 o1 所做的工作(它们似乎在相似规模上取得了相似的结果)8。然而,因为我们处于扩展曲线的早期阶段,只要从强大的预训练模型开始,就有可能让多家公司生产此类模型。在 V3 的基础上生产 R1 可能非常便宜。因此,我们正处于一个有趣的“交叉点”,在这个点上,多家公司可以暂时生产出优秀的推理模型。随着每个人在这些模型上进一步向上移动扩展曲线,这一点将迅速不再成立。
出口管制
所有这些只是我对主要感兴趣主题的序言:对中国芯片的出口管制。鉴于上述事实,我认为情况如下:
鉴于我对出口管制和美国国家安全的关注,我想明确一点。我不认为 DeepSeek 本身是敌对者,目标也不是特别针对他们。在他们的采访中,他们看起来像是聪明、好奇的研究人员,只想开发有用的技术。
但他们对一个犯有人权侵犯、在国际舞台上行为侵略的威权政府负有责任,如果他们能在人工智能方面与美国匹敌,这些行为将更加不受约束。出口管制是我们预防这种情况的最强大工具之一,认为技术变得更强大、性价比更高是放宽我们出口管制的原因,这种想法完全不合理。
脚注
话说中美芯片之争,DeepSeek搞了啥新动静?
最近,我刚在文章中说过,应该加强对中国出口的芯片控制。毕竟,DeepSeek等中国AI公司,居然在某些方面做到了和美国最前沿的AI模型相抗衡,而且成本更低。这事儿挺火的,同事们都在讨论呢。
不过,我要换个角度,不讨论DeepSeek是否对冲中AI公司构成威胁(虽然我一直觉得所谓威胁都被夸大了),这次,我说说这些事情对美国的出口控制政策有什么影响。其实我认为,无论怎么变,加强出口控制不仅没用,说不定还更关键了。
为啥我们要加强出口控制?
说白了,咱们这么做是为了确保民主国家在AI方面保持领先,而不是中国的专制政府。说到底,AI公司想在竞争中胜出,就得有更高的技术水平。但是,谁也不愿意给中国共产党这样的家伙提供额外的技术优势啊。
我们必须理解的三个AI发展的基本动态
在谈起政策之前,我先跟你们说说AI发展中几个很重要但又容易被忽视的部分:
首先,要说“规模化”。“规模化”听起来就挺高大上,但实际上就是说,当AI模型越大、训练得越充分,它们解决各种问题的能力也会更强大。比如说,一个100万参数的模型可能只能解决所有编程问题的60%,而百万参数的小模型可能只能解决20%,而千万级别的模型可能就能解决40%了。这些差额在实践中是非常重要的,每次和原基数相比增加10倍,可能会带来全新的技能门槛,所以企业才会投入大量资金去训练这些模型。
其次,我们得聊聊“曲线移动”。这个行业一直在进步,无论是模型架构的小改进,还是更好地利用硬件,哪怕是新版本的硬件,都能带来更大的效能。这些变化通常会让我们更好地利用资源,所以在某些情况下,同样的投入能带来更好的结果。比如,某个省钱的技巧可以让解决方案的门槛降低5倍,这让公司在成本方面变得更加高效。重要的是,因为获得更智能系统的价值很高,所以公司会不断努力,不会因此减少投入。
最后,说下“芯片高效化”。这不仅是指新技术的应用,还包括新的芯片硬件取得的进展。这些新技术会带来成本效率的提升,导致公司投入更多资源去开发更强大的AI模型,而不是减少投入。换句话说,这些效率提升带来的好处,最终会被投入到开发更智能的模型中。
所以,从这些动态看,出口控制不仅是必要的,更要严格!因为如果咱们不这么做,就给了别人更高级的技术,相当于给了他们一个赢的机会。而咱们,要保持领先地位。
总而言之,形势比以前更紧迫,我们当务之急是要加强这个领域的出口管控,确保美国和其他民主国家的技术优势。毕竟,如果长期让中国在市场上占据技术优势,那我们可就麻烦大了。
最后,各位小伙伴们,咱们得继续努力,我们可不能输,对吧?