添加 登录

评论

只有登录用户才可以评论

人们都在用AI干什么?100万亿 Token 给出的 AI 启示:《State of AI 2025》报告深度解读

[!info] Source
https://mp.weixin.qq.com/s/pfocdR00FrLXc-yGDrtg2Q

↑先关注,+星标⭐️,再观看,不迷路

一份关于“AI 真正是如何被使用”的百兆级数据报告

基于 100 万亿 Token 的真实 LLM 使用数据 

  • 出品方:OpenRouter & a16z  发布日期:2025 年 12 月
  • 数据来源:OpenRouter 平台(一个聚合多个LLM API的统一推理平台)。
  • 数据规模:100万亿token(prompt + completion)。
  • 时间范围:2024年11月–2025年11月。
  • 数据类型:仅使用元数据(包括时间戳、模型名、地区、token数、调用方式等),无访问原始用户文本。
  • 地理覆盖:来自全球超过60个模型提供商、300+活跃模型的请求,50%非美国用户。

图片

从“AI 能做什么”到“AI 在做什么”

过去几年,几乎所有关于 AI 的讨论,都围绕模型性能、推理能力、基准分数。  而这份报告首次从另一面切入:

它不问模型能做什么,而问:“人们真正拿 AI 来做了什么?”

OpenRouter 作为一个汇聚了几百种 LLM(包括 GPT、Claude、Gemini、Qwen、DeepSeek 等)的统一推理平台,拥有独特的全景视角。  他们统计了 100 万亿个 Token 的真实用户调用数据,不看内容、不看回答,只看元数据(时间、模型、用量、地理、类型等)。

换句话说,这是一份来自全球真实 AI 用户行为的“人类-机器互动图谱”。

AI 使用方式的转折点:从“回答问题”到“推理与行动”

在2024年底之前,AI的主流工作模式仍是“自动补全”:

→ 用户输入 → 模型预测下一个词 → 输出整段文本。

2025 年最大的变化是:

AI 已经从“语言生成系统”变成了“推理执行系统”。

这一变化由 OpenAI 的 o1 (Strawberry) 模型开启,它是第一个在推理阶段执行多步思考的通用模型。  这意味着模型不再只是“看输入→生成一句话”,而是会先在内部:

  1. 1.规划思路、分解任务,
  2. 2.执行多轮内部推理,
  3. 3.然后才输出结果。

这一结构上的改变,使 AI 的行为从“模仿语言”转向了“思考后生成”。

 自此之后,AI开始具备了思维链、规划与自我检验的能力,
整个行业也从“语言生成”时代迈入了“推理与行动 (agentic inference)”时代。

这就是报告中反复提到的核心概念:

Reasoning Models(推理模型) 与 Agentic Inference(代理式推理)。

如今,超过 50% 的所有 LLM 调用 已经通过这类推理模型完成。  

图片

这一转变背后,引发了AI使用方式、模型生态与经济格局的全面重构。

报告的全部数据都指向一个事实:

2025年,AI不再是聊天机器人,而是能思考、能操作的工作伙伴。

AI模型生态的真实格局:开源崛起,但闭源仍稳坐高端

OpenRouter 的数据揭示了一个被广泛低估的事实:

图片

开源模型正在崛起,并且已成为生态中不可忽视的力量。

🔹 数据图景

  • 2024 年底,开源模型仅占约 20% 的 Token 使用量;

  • 到 2025 年底,这一数字提升至 接近 30%;

  • 其中 中国开源模型(DeepSeek、Qwen、Kimi) 增长最迅猛,2024年底:占比仅1.2%,2025年中:峰值周占比接近 30% 全部使用量。

  • 图片

这说明:

  1. 1.开源模型已不仅仅是实验品,而是真正在生产环境中被使用。
  2. 2.中国的 LLM 研发力量已跻身世界一线,形成了开放生态的半壁江山。
  3. 3.全球 LLM 市场开始呈现“双轨结构”:
  4. 1.闭源模型(OpenAI、Anthropic):高稳定性、高精度、企业用途。
  5. 2.开源模型(DeepSeek、Qwen、Mistral 等):灵活、低成本、可定制、创意友好。

换言之,AI 不再是“少数科技巨头的专属权力”,而正在被全球社区化与去中心化。

图片

模型的“黄金尺寸”:中型模型成为新主流

过去我们常以为:参数越多越好。

 但实际使用数据告诉我们:

最受欢迎的模型不是最大的,而是“中型的”。

OpenRouter 按参数规模划分三类:

  • 小型:<15B 参数
  • 中型:15–70B 参数
  • 大型:≥70B 参数

图片

结果发现:

  • 小型模型的使用量在下降:尽管更新频繁,但用户满意度低、任务受限;
  • 大型模型保持稳定但昂贵:性能好但推理成本高;
  • 中型模型爆发增长:性能接近大型模型,推理更快、成本更低。

代表作如:

  • Qwen2.5 Coder 32B
  • GPT-OSS 20B
  • Mistral Small 3

图片

这形成一个明确的市场共识:

“中型模型找到了真正的市场定位:性能够用,价格亲民。”

它们既能处理编程、推理等复杂任务,又能在消费端高效部署。
这让AI从“超级计算玩具”真正走向“日常生产力工具”。

不同模型的角色定位

图片

人们真正用 AI 在干什么?

这部分最令人惊讶。

 外界普遍以为 LLM 主要用于生产力(写作、办公、研究),但真实数据完全颠覆了这一假设。

图片

📊 任务类型占比(2025 年)

图片

图片

这说明:

AI 的使用并非单一的“效率工具”,而是既有理性一面,也有情感一面。

两个最核心的用例

1. 编程任务成为“AI的主战场”

2025年,编程任务从年初的 11% → 年末超过 50%。

  • 这是AI第一次成为“通用开发环境”的组成部分。

报告指出:

“LLM-assisted development 已成为默认的编程方式。”

开发者不再只是让AI写代码,而是让AI参与整个开发过程:
调试、解释、生成文档、重构脚本、设计架构。

图片

Claude、OpenAI与Google是编程任务的三大主力:

  • Claude:60%份额;
  • OpenAI:8%,但增速快;
  • Google:约15%。
  • MiniMax / Qwen / Mistral 等OSS模型<10%

图片

2. 角色扮演与创意对话是“隐形巨头”

这可能让很多人意外:
Roleplay(角色扮演)类任务的使用量几乎与编程持平。

在开源模型中,它甚至占到 52% 的使用量。

图片

为什么?

  • 开源模型限制少、可自定义角色;
  • 用户喜欢“长篇对话”“人格化AI”;
  • 创意写作、游戏设计、互动小说都属于这一类。

报告称:

“人们不仅在用AI工作,也在用AI表达情感与想象力。”

这说明AI已成为文化工具,不只是生产力工具。

这两种看似对立的场景——创意与逻辑,恰恰展示了 LLM 的两极潜能:  AI 既能成为“数字情感体”,也能成为“数字工程师”。

3. 其他应用:翻译、教育、知识问答、医疗等

  • 翻译与多语种支持稳定增长;
  • 教育类任务主要集中在语言学习与解释;
  • 医疗与法律类任务分散,因风险高、需求复杂;
  • 科学类任务多数为“AI研究AI”——机器学习研究者咨询AI自身。

图片

Agentic Inference:AI 不再“回答问题”,而是“执行任务”

报告最具洞察力的部分在于这一趋势。

 OpenRouter 发现,越来越多的请求不再是“问问题”,而是让模型:

  • 调用外部工具(API、数据库、Python 函数);
  • 执行多步计划;
  • 自我迭代直到完成目标。

这种行为被称为 Agentic Inference(代理式推理)。  简言之:

模型不只是“说”,而是会“想 → 做 → 总结”。

主要体现为三种行为转变:

1️⃣ Reasoning模型的普及

  • 推理模型使用量占比从 <5% → >50%

  • 2025年中期后,超过 50% 的所有token 来自“推理模型”。

  • 包括:GPT-5、Claude 4.5、Gemini 2.5 Pro、Grok Code Fast等;

  • 这些模型具备内部思维链(chain-of-thought)与多步推理能力。

  • 图片

  • 按令牌量排名的顶级推理模型。在推理模型中,xAI 的 Grok Code Fast 1 目前处理着最大份额的推理相关令牌流量,其次是 Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash。xAI 的 Grok 4 Fast 和 OpenAI 的 gpt-oss-120b 构成了顶级模型组。

2️⃣ 工具调用爆炸式增长

  • 编程任务是主要驱动力;

  • Tool Call 调用请求量同比增长3倍:越来越多请求以 “Tool Call” 结束,AI会自动调用外部API、数据库或脚本。

  • 代表模型:Claude Sonnet、Gemini Flash、Grok Code Fast。

  • 图片

3️⃣ 上下文长度激增

  • 平均输入长度增加 4 倍(1.5K→6K Tokens);
  • 输出长度增加 3 倍(150→400 Tokens)

平均prompt长度从1500 → 6000 tokens;

  • 编程任务平均输入超过20K tokens;
  • 表明AI正在“读整本文档、理解系统逻辑”而非一句句命令。

📊 报告一句话总结:

“AI的核心交互单元不再是提示(prompt),而是任务(task)。”

AI成为了自动化流程的一部分,而非简单的应答器。

成本、使用与经济规律

传统经济学中,我们预期:

价格越低 → 使用量越大(需求弹性高)。

但在AI世界,这个规律几乎失效。
报告通过100万亿token的真实调用数据发现:

AI使用对价格的弹性非常低(inelastic demand),
即便价格高出几十倍,用户仍会继续使用某些模型。

报告绘制了一张非常有价值的图

图片

图片

它展示了AI使用的经济学分布:

图片

📈 主要观察:

  • 分布呈 双峰结构(bimodal);
  • 两端集中,无中间地带;
  • 成本与使用量的相关系数非常低(R²≈0.18);
  • 说明价格对使用量影响微弱。

关键结论:

AI使用对价格不敏感(需求刚性强)。
用户愿意为可靠性、能力、速度付费。

图片

这意味着未来竞争的核心不在于“便宜”,
而在于谁能持续提供可依赖的推理与行动能力。

按任务类别统计不同成本区间的使用占比

图片

图片

💬 解读:

“便宜的模型未必替代昂贵的模型,它们承担的是不同任务生态。”

换句话说:

  • Claude 被用于高价值推理;
  • DeepSeek 被用于海量轻交互;
  • 两者都不可或缺。

“价格战”在AI行业基本无效

与互联网早期不同,AI使用不具有强价格弹性。

原因有三:

  1. 1.迁移成本高:换模型意味着重新适配工作流;
  2. 2.质量敏感性强:开发或研究任务不能容忍不稳定;
  3. 3.生态依赖:用户已嵌入特定工具链(如Claude Console、ChatGPT Plugins)。

因此,“卷价格”不是AI的未来,
“卷体验、卷推理、卷稳定性”才是关键。

模型样本的典型分布

图片

📉 可以看出:

  • 成本差距高达 百倍;
  • 但高价模型仍有大量使用;
  • 说明用户不是被价格驱动,而是被性能信任驱动。

地域与市场演化

  • 美国以外的使用量已超过 50%。
  • 中国模型(DeepSeek、Qwen、Kimi)在亚洲和欧洲增长显著。
  • 不同地区对模型选择的偏好差异明显:
  • 北美更依赖专有模型(Claude、GPT);
  • 亚洲和东欧更多使用 OSS 模型(Qwen、DeepSeek、LLaMA)。

图片

图片

亚洲的AI生态(尤其中国)已形成闭环:

模型 → 用户 → 社区 → 内容 → 再反馈。

语言占比:

图片

成本敏感性分析显示:

模型价格和推理延迟对使用量有显著影响。  AI 的经济学规律已开始显现。

用户行为与“玻璃鞋效应”

报告提出一个有趣的心理模型——

Cinderella Glass Slipper Effect(灰姑娘玻璃鞋效应)。

当一个模型完美匹配用户的关键任务,它就会产生长期留存。

图片

意思是:

  • 最早接触并与某模型“契合”(试穿)的用户,会形成长期依赖;
  • 后续出现的新模型即使性能更强,也不一定能取代这种契合,让他们迁移。
  • 这些长期用户群被称为 “基础留存群(foundational cohorts)”。

例如:

  • Claude 4 Sonnet、Gemini 2.5 Pro 的首发用户,5个月后仍有40%留存;
  • GPT-4o Mini 的“早期使用群体”成为固定基础;
  • DeepSeek 出现“回流效应”:用户尝试其他模型后又回到它。

图片

这揭示了一个事实:

AI 不只是工具,而是一种“关系”。  用户不是在“使用模型”,而是在“建立默契”。

这与人类心理一致:一旦找到一款“懂自己”的 AI,人们倾向长期绑定。

 这也解释了为何“个性化微调”“持续上下文”成为 2025 年的热门趋势。

不同厂商的角色分化

报告第22–23页提供了一个非常有洞察力的视角:

同样的AI,不同公司的用户群体与任务结构完全不同。

图片

这表明,AI 市场已经像手机行业一样,品牌分化明确、功能定位清晰。

每个模型品牌都在形成独特的“使用文化圈”。
这意味着AI行业未来的竞争将不只是性能,而是生态定位:
Claude 对开发者,DeepSeek 对创作者,Qwen 对工程师,Gemini 对知识工作者。

核心结论与未来展望

  1. 1.推理模型将成为行业标准:未来每个主流模型都将具备多步思考与工具调用能力。
  2. 2.开源生态将在 2026 年迎来爆发:尤其是中国模型的国际化部署。
  3. 3.中型模型将统治主流市场:70B 以下的模型将成为企业部署标准。
  4. 4.AI 将从“助手”变为“协作者”:不只是帮你写,而是帮你做。
  5. 5.人机关系将更私人化与情感化:AI 个性化定制与长期陪伴将成为商业机会。

图片

报告全文:https://openrouter.ai/state-of-ai

关注 小互AI 公众号 回复:100万 

获取:完整报告中文版


**加入XiaoHu.ai 日报社群 每天获取最新的AI信息

**

图片

____________

End.

感 谢 阅 读

点赞,转发,关注关注关注↓↓


Generated by Clearly Reader

瓦白 2025-12-07 21:51:55