小链

LLM Rankings | OpenRouter

#LLM #AI 11-24 直达⤴︎

基于OpenRouter 的使用量来排名大模型

AI 世界时钟定时生成 AI World Clocks

#LLM #AI #A4 11-16 直达⤴︎

#LLM #美团 #A4 9-7 直达⤴︎

混元3D世界生成开源模型

#LLM #腾讯 #A4 9-7 直达⤴︎

DeepSeek-V3.1 发布，迈向 Agent 时代的第一步

#DeepSeek #LLM #A4 8-24 直达⤴︎

Claude 3.7 Sonnet and Claude Code

#Claude #LLM #A4 3-2 直达⤴︎

Claude 3.7 Sonnet 是目前最智能的云端语言模型之一，也是市场上首款兼具即时响应与逐步推理能力的混合模型。

OpenAI 发布 GPT 4.5 大模型

#LLM #AI #OpenAI 3-2 直达⤴︎

浙江大学：大模型基础

#教程 #LLM #文档 2-18 直达⤴︎

这篇技术文档围绕大语言模型展开，全面介绍了语言模型基础、大语言模型架构、Prompt 工程、参数高效微调、模型编辑、检索增强生成等内容，还探讨了大语言模型面临的挑战和未来发展方向。

在Mac上部署DeepSeek R1模型，设置知识库对话、peompt等 | 张洪Heo

#LLM #AI #DeepSeek #自部署 2-3 直达⤴︎

想了一下感觉没啥意义，放弃部署。

3小时完全从0训练26M的小参数GPT！

已发布 #AI #LLM 2-1 直达⤴︎

已发布 #AI #LLM 1-29 直达⤴︎

阿里千问大模型。从联系方式看，好像是官方的。

DeepSeek-V3-Base

#AI #LLM 12-26 直达⤴︎

收藏不用系列

Deepseek V3 开源在 aider 多语言编程测评超过了 Claude 3.5 sonnet V2 Deepseek V2.5 的时候成功率只有 17%，现在暴增到了 48% ！采用 685B 参数的 MoE 架构包含 256 个专家，使用 sigmoid 路由方式，每次选取前 8 个专家 (topk=8)

一篇文章系统看懂大模型

待精读 #教程 #AI #LLM 12-24 直达⤴︎

这篇文章是一篇关于大模型（Large Language Models，LLM）的系统性解读，由作者“三白有话说”撰写，旨在帮助读者全面理解大模型的概念、技术、应用和局限性。