揭秘DeepSeek:一个更极致的中国技术理想主义故事

#AI #访谈

精读结论：信息量不大，主要是效率优先+理想主义

讲述了中国大模型创业公司DeepSeek（深度求索）的发展历程和技术创新。DeepSeek以其开源模型DeepSeek V2闻名，该模型以极低的推理成本引领了中国大模型价格战。公司背后有量化私募巨头幻方的支持，是唯一一家储备万张A100芯片的公司。DeepSeek通过全方位创新模型架构，提出MLA架构和DeepSeekMoESparse结构，大幅降低显存占用和计算量，从而减少成本。在硅谷，DeepSeek被誉为“来自东方的神秘力量”，其论文被认为可能是当年最好的一篇，训练设置被应用于其他模型。DeepSeek的创始人梁文锋，一个兼具强大工程能力和模型研究能力的80后，坚持技术理想主义，将“是非观”置于“利害观”之前，推动原创式创新。DeepSeek选择专注研究和技术，未全面考虑商业化，坚定开源路线，甚至未融资。梁文锋认为中国AI不可能永远追随，需要有人站到技术前沿，形成生态。DeepSeek的创新和探索，展现了中国技术理想主义的力量和全球技术创新的参与。

只有登录用户才可以评论

DeepSeek的创始人梁文锋，一个兼具强大工程能力和模型研究能力的80后，带领公司坚持技术理想主义，不追求短期商业利益，而是致力于原创式创新。公司选择开源路线，未进行商业化融资，专注于研究和技术，希望通过技术创新推动整个生态发展。梁文锋认为，中国AI需要从跟随者转变为贡献者，参与到全球技术创新中。DeepSeek的成功在于其创新的组织架构和文化，以及对年轻人才的重视和培养。公司鼓励自下而上的创新，不设限地为员工提供资源，以实现AGI（人工通用智能）为目标，不断探索和研究。

瓦白 2024-12-28 16:00:38

「暗涌」：OpenAI前政策主管、Anthropic联合创始人Jack Clark认为DeepSeek雇佣了“一批高深莫测的奇才”，做出DeepSeek v2的是怎样一群人？

梁文锋：并没有什么高深莫测的奇才，都是一些Top高校的应届毕业生、没毕业的博四、博五实习生，还有一些毕业才几年的年轻人。

瓦白 2024-12-28 15:59:01

多位行业人士和DeepSeek研究员告诉我们，梁文锋是当下中国AI界非常罕见的“兼具强大的infra工程能力和模型研究能力，又能调动资源”、“既可以从高处做精准判断，又可以在细节上强过一线研究员”的人，他拥有“令人恐怖的学习能力”，同时又“完全不像一个老板，而更像一个极客”。

瓦白 2024-12-28 15:57:01

DeepSeek对模型架构进行了全方位创新。它提出的一种崭新的MLA（一种新的多头潜在注意力机制）架构，把显存占用降到了过去最常用的MHA架构的5%-13%，同时，它独创的DeepSeekMoESparse结构，也把计算量降到极致，所有这些最终促成了成本的下降。

瓦白 2024-12-28 15:56:11