小链

精读结论：信息量不大，主要是效率优先+理想主义

讲述了中国大模型创业公司DeepSeek（深度求索）的发展历程和技术创新。DeepSeek以其开源模型DeepSeek V2闻名，该模型以极低的推理成本引领了中国大模型价格战。公司背后有量化私募巨头幻方的支持，是唯一一家储备万张A100芯片的公司。DeepSeek通过全方位创新模型架构，提出MLA架构和DeepSeekMoESparse结构，大幅降低显存占用和计算量，从而减少成本。在硅谷，DeepSeek被誉为“来自东方的神秘力量”，其论文被认为可能是当年最好的一篇，训练设置被应用于其他模型。DeepSeek的创始人梁文锋，一个兼具强大工程能力和模型研究能力的80后，坚持技术理想主义，将“是非观”置于“利害观”之前，推动原创式创新。DeepSeek选择专注研究和技术，未全面考虑商业化，坚定开源路线，甚至未融资。梁文锋认为中国AI不可能永远追随，需要有人站到技术前沿，形成生态。DeepSeek的创新和探索，展现了中国技术理想主义的力量和全球技术创新的参与。