精读结论:信息量不大,主要是效率优先+理想主义
讲述了中国大模型创业公司DeepSeek(深度求索)的发展历程和技术创新。DeepSeek以其开源模型DeepSeek V2闻名,该模型以极低的推理成本引领了中国大模型价格战。公司背后有量化私募巨头幻方的支持,是唯一一家储备万张A100芯片的公司。DeepSeek通过全方位创新模型架构,提出MLA架构和DeepSeekMoESparse结构,大幅降低显存占用和计算量,从而减少成本。在硅谷,DeepSeek被誉为“来自东方的神秘力量”,其论文被认为可能是当年最好的一篇,训练设置被应用于其他模型。DeepSeek的创始人梁文锋,一个兼具强大工程能力和模型研究能力的80后,坚持技术理想主义,将“是非观”置于“利害观”之前,推动原创式创新。DeepSeek选择专注研究和技术,未全面考虑商业化,坚定开源路线,甚至未融资。梁文锋认为中国AI不可能永远追随,需要有人站到技术前沿,形成生态。DeepSeek的创新和探索,展现了中国技术理想主义的力量和全球技术创新的参与。
只有登录用户才可以评论
DeepSeek的创始人梁文锋,一个兼具强大工程能力和模型研究能力的80后,带领公司坚持技术理想主义,不追求短期商业利益,而是致力于原创式创新。公司选择开源路线,未进行商业化融资,专注于研究和技术,希望通过技术创新推动整个生态发展。梁文锋认为,中国AI需要从跟随者转变为贡献者,参与到全球技术创新中。DeepSeek的成功在于其创新的组织架构和文化,以及对年轻人才的重视和培养。公司鼓励自下而上的创新,不设限地为员工提供资源,以实现AGI(人工通用智能)为目标,不断探索和研究。
「暗涌」:OpenAI前政策主管、Anthropic联合创始人Jack Clark认为DeepSeek雇佣了“一批高深莫测的奇才”,做出DeepSeek v2的是怎样一群人?
梁文锋:并没有什么高深莫测的奇才,都是一些Top高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。
多位行业人士和DeepSeek研究员告诉我们,梁文锋是当下中国AI界非常罕见的“兼具强大的infra工程能力和模型研究能力,又能调动资源”、“既可以从高处做精准判断,又可以在细节上强过一线研究员”的人,他拥有“令人恐怖的学习能力”,同时又“完全不像一个老板,而更像一个极客”。
DeepSeek对模型架构进行了全方位创新。它提出的一种崭新的MLA(一种新的多头潜在注意力机制)架构,把显存占用降到了过去最常用的MHA架构的5%-13%,同时,它独创的DeepSeekMoESparse结构,也把计算量降到极致,所有这些最终促成了成本的下降。