添加 登录

评论

只有登录用户才可以评论

当前关于 AI 进展和所谓“泡沫”的讨论让我联想到新冠疫情初期的那些周。在指数趋势已经明显预示全球大流行即将来临的很长时间之后,政治家、记者和大多数公共评论者仍然将其视为一种遥远的可能性或局部现象。

同样奇怪的事情正在发生在 AI 能力及其进一步发展上。人们注意到,虽然 AI 现在可以编写程序、设计网站等,但它仍然经常出错或偏离正确方向,于是他们就得出结论,认为 AI 永远无法达到人类水平完成这些任务,或者只会产生微小的影响。而就在几年前,让 AI 做到这些还完全是科幻!或者他们看到两个连续的模型发布,却没有注意到它们在对话上的显著差异,就断定 AI 已经到达瓶颈,无法继续扩展。

METR
准确评估 AI 的进步是困难的,通常需要结合 AI 专业知识和相关领域的理解。幸运的是,存在像 METR 这样的整个组织,其唯一目的是研究 AI 的能力!我们可以参考他们最近的研究 "Measuring AI Ability to Complete Long Tasks",该研究衡量模型能够自主完成的软件工程任务的长度:

METR task length

我们可以观察到一个明显的指数趋势,Sonnet 3.7 在完成长达一小时的任务上表现最佳,成功率为 50%。

然而,此时 Sonnet 3.7 已有 7 个月的历史 ,恰好与 METR 在研究中声称的翻倍率相同。我们能否利用这一点来验证 METR 的研究结果是否成立?

是的!事实上,METR 自己在他们的研究网站上维护着一份最新的图表:

METR task length

我们可以看到,图表右上角新增了近期的模型,如 Grok 4、Opus 4.1 和 GPT-5。不仅预测保持准确,这些近期模型实际上略高于趋势,现在执行任务的时间超过了 2 小时!

GDPval
一个合理的反驳可能是,我们不能从软件工程任务的性能推广到整个经济领域——毕竟,这些是人工智能实验室的工程师最熟悉的任务,可能会对测试集产生一定的过拟合,换句话说。

幸运的是,我们可以参考另一项不同的研究,即 OpenAI 最近的 GDPval - 测量模型在 9 个行业中的 44 (!)种职业表现:

GDPval categories

评估任务来源于有经验的行业专业人士(平均14年经验),每种职业有30个任务,总计1320个任务。评分是通过隐藏比较人类生成和模型生成的解决方案进行的,允许有明确的偏好和平局。

我们再次观察到相似的趋势,最新发布的 GPT-5 已经惊人地接近人类表现:

你可能会质疑这张图表看起来似乎趋于平稳,但这可能主要是因为 GDP-val 非常以消费者为中心。幸运的是,对于我们的研究,OpenAI 也在评估中包含了其他模型 [1],我们可以看到 Claude Opcus 4.1(早于 GPT-5 发布)表现显著更好 - 超出了前一张图表的趋势,且已经几乎达到行业专家 (!) 的水平:

我想特别赞扬 OpenAI 在这里发布了一个评估,显示另一个实验室的模型表现优于他们自己的模型——这是诚信和关注有益 AI 成果的一个好迹象!

Outlook
在经历了多年多个行业指数级性能提升的持续趋势后,如果这些改进突然停止,那将是非常令人惊讶的。相反,即使是对这些趋势相对保守的外推也表明,2026年将是人工智能广泛融入经济的关键一年:

到2026年年中,模型将能够全天候(8个工作日小时)自主工作。
在2026年底之前,至少有一个模型将在多个行业中达到人类专家的水平。
到2027年底,模型将在许多任务上频繁超越专家。
听起来可能过于简单,但通过在图表上用直线外推来做出预测,很可能比大多数“专家”提供更好的未来模型——甚至 比大多数实际领域专家更好 !

为了更具体地了解这个未来会是什么样子,我推荐 Epoch AI 的 2030 报告 ,特别是深入的 AI 2027 项目。

Grok 4 和 Gemini 2.5 Pro 的表现不佳也值得注意,尤其是在发布时声称在许多基准测试中达到最先进水平的情况下。请注意 Goodhart 定律 ! ↩

瓦白 2025-10-07 12:32:08 (已编辑)

最近,大家都在讨论人工智能(AI)到底能不能继续进步,甚至有人觉得这可能是个“泡沫”。这让我想起了新冠疫情刚爆发的时候,明明从数据上看,疫情会迅速扩散,可很多人还是觉得没啥大事,直到最后才慌了神。现在AI的情况也差不多,很多人看到AI虽然能写代码、设计网站,但偶尔还会犯错,就直接下结论说AI永远也达不到人类水平,或者觉得AI的发展已经到头了。这可真是有点太天真了!

其实,AI的进步可不是闹着玩的。有个专门研究AI能力的组织叫METR,他们最近的研究显示,AI在完成软件工程任务方面的能力正在以指数级的速度增长。比如说,Sonnet 3.7这个模型,已经能在50%的成功率下完成长达一个小时的任务。而且,这可不是个例,最新的模型像Grok 4、Opus 4.1和GPT-5,表现得更厉害,任务完成时间已经超过了两个小时。

不过,也有人会说,这些任务都是软件工程领域的,不能代表AI在其他行业的表现。别急,还有另一个研究——OpenAI的GDPval,它测试了AI在9个行业、44种职业中的表现,结果发现,最新的GPT-5在很多任务上已经非常接近人类水平了。尤其是Claude Opus 4.1,表现甚至超过了行业专家。这说明AI的进步可不是局限于某个领域,而是全方位的。

要是按照这种趋势发展下去,2026年可能会成为AI全面融入经济的关键一年。到时候,AI不仅能连续工作8小时,还能在很多行业中达到甚至超过人类专家的水平。听起来是不是有点夸张?但其实,这种通过数据预测未来的方法,往往比那些所谓的“专家”预测靠谱多了。

当然,也有人会担心,AI发展这么快,会不会抢了人类的工作?其实,这也不见得是坏事。就像以前的工业革命一样,虽然很多传统工作消失了,但同时也催生了更多新的机会。AI更像是一个超级聪明的工具,人类可以利用它来提高效率,而不是完全被它取代。毕竟,人类的创造力和情感是AI很难复制的。

总之,AI的发展确实让人有点眼花缭乱,但我们也不能因为一时的困难就否定它的潜力。就像市场里的那只调皮猫,虽然总是让人捉摸不透,但只要我们耐心观察,总能找到机会。所以,与其担心AI会带来什么负面影响,不如好好思考一下,怎么利用它来提升我们的生活和工作效率。毕竟,未来已经来了,我们得学会和它打交道。

瓦白 2025-10-07 12:30:56