只有登录用户才可以评论
[!info] Source https://mp.weixin.qq.com/s/pfocdR00FrLXc-yGDrtg2Q
↑先关注,+星标⭐️,再观看,不迷路
一份关于“AI 真正是如何被使用”的百兆级数据报告
基于 100 万亿 Token 的真实 LLM 使用数据
过去几年,几乎所有关于 AI 的讨论,都围绕模型性能、推理能力、基准分数。 而这份报告首次从另一面切入:
它不问模型能做什么,而问:“人们真正拿 AI 来做了什么?”
OpenRouter 作为一个汇聚了几百种 LLM(包括 GPT、Claude、Gemini、Qwen、DeepSeek 等)的统一推理平台,拥有独特的全景视角。 他们统计了 100 万亿个 Token 的真实用户调用数据,不看内容、不看回答,只看元数据(时间、模型、用量、地理、类型等)。
换句话说,这是一份来自全球真实 AI 用户行为的“人类-机器互动图谱”。
在2024年底之前,AI的主流工作模式仍是“自动补全”:
→ 用户输入 → 模型预测下一个词 → 输出整段文本。
2025 年最大的变化是:
AI 已经从“语言生成系统”变成了“推理执行系统”。
这一变化由 OpenAI 的 o1 (Strawberry) 模型开启,它是第一个在推理阶段执行多步思考的通用模型。 这意味着模型不再只是“看输入→生成一句话”,而是会先在内部:
这一结构上的改变,使 AI 的行为从“模仿语言”转向了“思考后生成”。
自此之后,AI开始具备了思维链、规划与自我检验的能力, 整个行业也从“语言生成”时代迈入了“推理与行动 (agentic inference)”时代。
这就是报告中反复提到的核心概念:
Reasoning Models(推理模型) 与 Agentic Inference(代理式推理)。
如今,超过 50% 的所有 LLM 调用 已经通过这类推理模型完成。
这一转变背后,引发了AI使用方式、模型生态与经济格局的全面重构。
报告的全部数据都指向一个事实:
2025年,AI不再是聊天机器人,而是能思考、能操作的工作伙伴。
OpenRouter 的数据揭示了一个被广泛低估的事实:
开源模型正在崛起,并且已成为生态中不可忽视的力量。
2024 年底,开源模型仅占约 20% 的 Token 使用量;
到 2025 年底,这一数字提升至 接近 30%;
其中 中国开源模型(DeepSeek、Qwen、Kimi) 增长最迅猛,2024年底:占比仅1.2%,2025年中:峰值周占比接近 30% 全部使用量。
这说明:
换言之,AI 不再是“少数科技巨头的专属权力”,而正在被全球社区化与去中心化。
过去我们常以为:参数越多越好。
但实际使用数据告诉我们:
最受欢迎的模型不是最大的,而是“中型的”。
OpenRouter 按参数规模划分三类:
结果发现:
代表作如:
这形成一个明确的市场共识:
“中型模型找到了真正的市场定位:性能够用,价格亲民。”
它们既能处理编程、推理等复杂任务,又能在消费端高效部署。 这让AI从“超级计算玩具”真正走向“日常生产力工具”。
人们真正用 AI 在干什么?
这部分最令人惊讶。
外界普遍以为 LLM 主要用于生产力(写作、办公、研究),但真实数据完全颠覆了这一假设。
AI 的使用并非单一的“效率工具”,而是既有理性一面,也有情感一面。
1. 编程任务成为“AI的主战场”
2025年,编程任务从年初的 11% → 年末超过 50%。
报告指出:
“LLM-assisted development 已成为默认的编程方式。”
开发者不再只是让AI写代码,而是让AI参与整个开发过程: 调试、解释、生成文档、重构脚本、设计架构。
Claude、OpenAI与Google是编程任务的三大主力:
2. 角色扮演与创意对话是“隐形巨头”
这可能让很多人意外: Roleplay(角色扮演)类任务的使用量几乎与编程持平。
在开源模型中,它甚至占到 52% 的使用量。
为什么?
报告称:
“人们不仅在用AI工作,也在用AI表达情感与想象力。”
这说明AI已成为文化工具,不只是生产力工具。
这两种看似对立的场景——创意与逻辑,恰恰展示了 LLM 的两极潜能: AI 既能成为“数字情感体”,也能成为“数字工程师”。
3. 其他应用:翻译、教育、知识问答、医疗等
报告最具洞察力的部分在于这一趋势。
OpenRouter 发现,越来越多的请求不再是“问问题”,而是让模型:
这种行为被称为 Agentic Inference(代理式推理)。 简言之:
模型不只是“说”,而是会“想 → 做 → 总结”。
1️⃣ Reasoning模型的普及
推理模型使用量占比从 <5% → >50%
2025年中期后,超过 50% 的所有token 来自“推理模型”。
包括:GPT-5、Claude 4.5、Gemini 2.5 Pro、Grok Code Fast等;
这些模型具备内部思维链(chain-of-thought)与多步推理能力。
按令牌量排名的顶级推理模型。在推理模型中,xAI 的 Grok Code Fast 1 目前处理着最大份额的推理相关令牌流量,其次是 Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash。xAI 的 Grok 4 Fast 和 OpenAI 的 gpt-oss-120b 构成了顶级模型组。
2️⃣ 工具调用爆炸式增长
编程任务是主要驱动力;
Tool Call 调用请求量同比增长3倍:越来越多请求以 “Tool Call” 结束,AI会自动调用外部API、数据库或脚本。
代表模型:Claude Sonnet、Gemini Flash、Grok Code Fast。
3️⃣ 上下文长度激增
平均prompt长度从1500 → 6000 tokens;
📊 报告一句话总结:
“AI的核心交互单元不再是提示(prompt),而是任务(task)。”
AI成为了自动化流程的一部分,而非简单的应答器。
传统经济学中,我们预期:
价格越低 → 使用量越大(需求弹性高)。
但在AI世界,这个规律几乎失效。 报告通过100万亿token的真实调用数据发现:
AI使用对价格的弹性非常低(inelastic demand), 即便价格高出几十倍,用户仍会继续使用某些模型。
报告绘制了一张非常有价值的图
它展示了AI使用的经济学分布:
📈 主要观察:
关键结论:
AI使用对价格不敏感(需求刚性强)。 用户愿意为可靠性、能力、速度付费。
这意味着未来竞争的核心不在于“便宜”, 而在于谁能持续提供可依赖的推理与行动能力。
按任务类别统计不同成本区间的使用占比
💬 解读:
“便宜的模型未必替代昂贵的模型,它们承担的是不同任务生态。”
换句话说:
与互联网早期不同,AI使用不具有强价格弹性。
原因有三:
因此,“卷价格”不是AI的未来, “卷体验、卷推理、卷稳定性”才是关键。
📉 可以看出:
亚洲的AI生态(尤其中国)已形成闭环:
模型 → 用户 → 社区 → 内容 → 再反馈。
语言占比:
成本敏感性分析显示:
模型价格和推理延迟对使用量有显著影响。 AI 的经济学规律已开始显现。
报告提出一个有趣的心理模型——
Cinderella Glass Slipper Effect(灰姑娘玻璃鞋效应)。
当一个模型完美匹配用户的关键任务,它就会产生长期留存。
意思是:
例如:
这揭示了一个事实:
AI 不只是工具,而是一种“关系”。 用户不是在“使用模型”,而是在“建立默契”。
这与人类心理一致:一旦找到一款“懂自己”的 AI,人们倾向长期绑定。
这也解释了为何“个性化微调”“持续上下文”成为 2025 年的热门趋势。
报告第22–23页提供了一个非常有洞察力的视角:
同样的AI,不同公司的用户群体与任务结构完全不同。
这表明,AI 市场已经像手机行业一样,品牌分化明确、功能定位清晰。
每个模型品牌都在形成独特的“使用文化圈”。 这意味着AI行业未来的竞争将不只是性能,而是生态定位: Claude 对开发者,DeepSeek 对创作者,Qwen 对工程师,Gemini 对知识工作者。
报告全文:https://openrouter.ai/state-of-ai
关注 小互AI 公众号 回复:100万
获取:完整报告中文版
**加入XiaoHu.ai 日报社群 每天获取最新的AI信息
**
____________
End.
感 谢 阅 读
点赞,转发,关注关注关注↓↓
Generated by Clearly Reader
人们都在用AI干什么?100万亿 Token 给出的 AI 启示:《State of AI 2025》报告深度解读
↑先关注,+星标⭐️,再观看,不迷路
一份关于“AI 真正是如何被使用”的百兆级数据报告
基于 100 万亿 Token 的真实 LLM 使用数据
从“AI 能做什么”到“AI 在做什么”
过去几年,几乎所有关于 AI 的讨论,都围绕模型性能、推理能力、基准分数。 而这份报告首次从另一面切入:
它不问模型能做什么,而问:“人们真正拿 AI 来做了什么?”
OpenRouter 作为一个汇聚了几百种 LLM(包括 GPT、Claude、Gemini、Qwen、DeepSeek 等)的统一推理平台,拥有独特的全景视角。 他们统计了 100 万亿个 Token 的真实用户调用数据,不看内容、不看回答,只看元数据(时间、模型、用量、地理、类型等)。
换句话说,这是一份来自全球真实 AI 用户行为的“人类-机器互动图谱”。
AI 使用方式的转折点:从“回答问题”到“推理与行动”
在2024年底之前,AI的主流工作模式仍是“自动补全”:
→ 用户输入 → 模型预测下一个词 → 输出整段文本。
2025 年最大的变化是:
AI 已经从“语言生成系统”变成了“推理执行系统”。
这一变化由 OpenAI 的 o1 (Strawberry) 模型开启,它是第一个在推理阶段执行多步思考的通用模型。 这意味着模型不再只是“看输入→生成一句话”,而是会先在内部:
这一结构上的改变,使 AI 的行为从“模仿语言”转向了“思考后生成”。
自此之后,AI开始具备了思维链、规划与自我检验的能力,
整个行业也从“语言生成”时代迈入了“推理与行动 (agentic inference)”时代。
这就是报告中反复提到的核心概念:
Reasoning Models(推理模型) 与 Agentic Inference(代理式推理)。
如今,超过 50% 的所有 LLM 调用 已经通过这类推理模型完成。
这一转变背后,引发了AI使用方式、模型生态与经济格局的全面重构。
报告的全部数据都指向一个事实:
2025年,AI不再是聊天机器人,而是能思考、能操作的工作伙伴。
AI模型生态的真实格局:开源崛起,但闭源仍稳坐高端
OpenRouter 的数据揭示了一个被广泛低估的事实:
开源模型正在崛起,并且已成为生态中不可忽视的力量。
🔹 数据图景
2024 年底,开源模型仅占约 20% 的 Token 使用量;
到 2025 年底,这一数字提升至 接近 30%;
其中 中国开源模型(DeepSeek、Qwen、Kimi) 增长最迅猛,2024年底:占比仅1.2%,2025年中:峰值周占比接近 30% 全部使用量。
这说明:
换言之,AI 不再是“少数科技巨头的专属权力”,而正在被全球社区化与去中心化。
模型的“黄金尺寸”:中型模型成为新主流
过去我们常以为:参数越多越好。
但实际使用数据告诉我们:
最受欢迎的模型不是最大的,而是“中型的”。
OpenRouter 按参数规模划分三类:
结果发现:
代表作如:
这形成一个明确的市场共识:
“中型模型找到了真正的市场定位:性能够用,价格亲民。”
它们既能处理编程、推理等复杂任务,又能在消费端高效部署。
这让AI从“超级计算玩具”真正走向“日常生产力工具”。
不同模型的角色定位
人们真正用 AI 在干什么?
这部分最令人惊讶。
外界普遍以为 LLM 主要用于生产力(写作、办公、研究),但真实数据完全颠覆了这一假设。
📊 任务类型占比(2025 年)
这说明:
AI 的使用并非单一的“效率工具”,而是既有理性一面,也有情感一面。
两个最核心的用例
1. 编程任务成为“AI的主战场”
2025年,编程任务从年初的 11% → 年末超过 50%。
报告指出:
“LLM-assisted development 已成为默认的编程方式。”
开发者不再只是让AI写代码,而是让AI参与整个开发过程:
调试、解释、生成文档、重构脚本、设计架构。
Claude、OpenAI与Google是编程任务的三大主力:
2. 角色扮演与创意对话是“隐形巨头”
这可能让很多人意外:
Roleplay(角色扮演)类任务的使用量几乎与编程持平。
在开源模型中,它甚至占到 52% 的使用量。
为什么?
报告称:
“人们不仅在用AI工作,也在用AI表达情感与想象力。”
这说明AI已成为文化工具,不只是生产力工具。
这两种看似对立的场景——创意与逻辑,恰恰展示了 LLM 的两极潜能: AI 既能成为“数字情感体”,也能成为“数字工程师”。
3. 其他应用:翻译、教育、知识问答、医疗等
Agentic Inference:AI 不再“回答问题”,而是“执行任务”
报告最具洞察力的部分在于这一趋势。
OpenRouter 发现,越来越多的请求不再是“问问题”,而是让模型:
这种行为被称为 Agentic Inference(代理式推理)。 简言之:
模型不只是“说”,而是会“想 → 做 → 总结”。
主要体现为三种行为转变:
1️⃣ Reasoning模型的普及
推理模型使用量占比从 <5% → >50%
2025年中期后,超过 50% 的所有token 来自“推理模型”。
包括:GPT-5、Claude 4.5、Gemini 2.5 Pro、Grok Code Fast等;
这些模型具备内部思维链(chain-of-thought)与多步推理能力。
按令牌量排名的顶级推理模型。在推理模型中,xAI 的 Grok Code Fast 1 目前处理着最大份额的推理相关令牌流量,其次是 Google 的 Gemini 2.5 Pro 和 Gemini 2.5 Flash。xAI 的 Grok 4 Fast 和 OpenAI 的 gpt-oss-120b 构成了顶级模型组。
2️⃣ 工具调用爆炸式增长
编程任务是主要驱动力;
Tool Call 调用请求量同比增长3倍:越来越多请求以 “Tool Call” 结束,AI会自动调用外部API、数据库或脚本。
代表模型:Claude Sonnet、Gemini Flash、Grok Code Fast。
3️⃣ 上下文长度激增
平均prompt长度从1500 → 6000 tokens;
📊 报告一句话总结:
“AI的核心交互单元不再是提示(prompt),而是任务(task)。”
AI成为了自动化流程的一部分,而非简单的应答器。
成本、使用与经济规律
传统经济学中,我们预期:
价格越低 → 使用量越大(需求弹性高)。
但在AI世界,这个规律几乎失效。
报告通过100万亿token的真实调用数据发现:
AI使用对价格的弹性非常低(inelastic demand),
即便价格高出几十倍,用户仍会继续使用某些模型。
报告绘制了一张非常有价值的图
它展示了AI使用的经济学分布:
📈 主要观察:
关键结论:
AI使用对价格不敏感(需求刚性强)。
用户愿意为可靠性、能力、速度付费。
这意味着未来竞争的核心不在于“便宜”,
而在于谁能持续提供可依赖的推理与行动能力。
按任务类别统计不同成本区间的使用占比
💬 解读:
“便宜的模型未必替代昂贵的模型,它们承担的是不同任务生态。”
换句话说:
“价格战”在AI行业基本无效
与互联网早期不同,AI使用不具有强价格弹性。
原因有三:
因此,“卷价格”不是AI的未来,
“卷体验、卷推理、卷稳定性”才是关键。
模型样本的典型分布
📉 可以看出:
地域与市场演化
亚洲的AI生态(尤其中国)已形成闭环:
模型 → 用户 → 社区 → 内容 → 再反馈。
语言占比:
成本敏感性分析显示:
模型价格和推理延迟对使用量有显著影响。 AI 的经济学规律已开始显现。
用户行为与“玻璃鞋效应”
报告提出一个有趣的心理模型——
Cinderella Glass Slipper Effect(灰姑娘玻璃鞋效应)。
当一个模型完美匹配用户的关键任务,它就会产生长期留存。
意思是:
例如:
这揭示了一个事实:
AI 不只是工具,而是一种“关系”。 用户不是在“使用模型”,而是在“建立默契”。
这与人类心理一致:一旦找到一款“懂自己”的 AI,人们倾向长期绑定。
这也解释了为何“个性化微调”“持续上下文”成为 2025 年的热门趋势。
不同厂商的角色分化
报告第22–23页提供了一个非常有洞察力的视角:
同样的AI,不同公司的用户群体与任务结构完全不同。
这表明,AI 市场已经像手机行业一样,品牌分化明确、功能定位清晰。
每个模型品牌都在形成独特的“使用文化圈”。
这意味着AI行业未来的竞争将不只是性能,而是生态定位:
Claude 对开发者,DeepSeek 对创作者,Qwen 对工程师,Gemini 对知识工作者。
核心结论与未来展望
报告全文:https://openrouter.ai/state-of-ai
关注 小互AI 公众号 回复:100万
获取:完整报告中文版
**加入XiaoHu.ai 日报社群 每天获取最新的AI信息
**
____________
End.
感 谢 阅 读
点赞,转发,关注关注关注↓↓
Generated by Clearly Reader