精读结论:信息量不大,主要是效率优先+理想主义
讲述了中国大模型创业公司DeepSeek(深度求索)的发展历程和技术创新。DeepSeek以其开源模型DeepSeek V2闻名,该模型以极低的推理成本引领了中国大模型价格战。公司背后有量化私募巨头幻方的支持,是唯一一家储备万张A100芯片的公司。DeepSeek通过全方位创新模型架构,提出MLA架构和DeepSeekMoESparse结构,大幅降低显存占用和计算量,从而减少成本。在硅谷,DeepSeek被誉为“来自东方的神秘力量”,其论文被认为可能是当年最好的一篇,训练设置被应用于其他模型。DeepSeek的创始人梁文锋,一个兼具强大工程能力和模型研究能力的80后,坚持技术理想主义,将“是非观”置于“利害观”之前,推动原创式创新。DeepSeek选择专注研究和技术,未全面考虑商业化,坚定开源路线,甚至未融资。梁文锋认为中国AI不可能永远追随,需要有人站到技术前沿,形成生态。DeepSeek的创新和探索,展现了中国技术理想主义的力量和全球技术创新的参与。