添加 登录

评论

只有登录用户才可以评论

这篇文章是关于 DeepSeek 的闭门讨论会总结。DeepSeek 是一家在 AI 领域引发全球关注的公司,其推出的 DeepSeek-R1 项目以快速的发展和独特的技术路线受到热议。讨论会由拾象创始人兼 CEO 李广密组织,参与者包括顶尖 AI 研究员、投资人和从业者,主要围绕 DeepSeek 的技术细节、组织文化及其对行业的短中长期影响展开探讨。

讨论会认为 DeepSeek 的创始人梁文锋是公司核心人物,他与 Sam Altman 不同,更懂技术。DeepSeek 的成功在于早期复现了 MoE、o1 等技术,且注重合规,没有采购不合规的 GPU。其团队在资源有限的情况下,集中精力在一个狭窄的领域,专注于智能本身的推进,而非单纯服务人类,这可能是其成功的关键。DeepSeek 的商业模式类似于量化投资,其目标是推动智能发展,而非单纯追求商业化。

在技术细节方面,DeepSeek 的长上下文能力提升迅速,且在推理层面无需进行有监督微调(SFT)。其数据标注工作非常重视,梁文锋甚至亲自参与标注,这被认为是模型效率高的关键之一。蒸馏技术在 DeepSeek 中的应用也受到关注,但讨论会指出蒸馏可能导致模型多样性下降,影响上限。此外,DeepSeek 在过程奖励(Process Reward)方面的探索也值得关注,尽管存在被奖励劫持的风险,但在某些情况下仍能提供帮助。

讨论会还指出,AI 领域的追赶者在算力需求上比探索者少 10 倍,且在推理模型上更容易追赶。DeepSeek 的出现让外界重新评估中国 AI 的实力,表明中国与美国的差距可能只有 3-9 个月,甚至在某些方面更强。DeepSeek 的成功也引发了对开源与闭源模型的讨论,其低成本的实现方式对闭源模型构成了挑战。

最后,讨论会认为 DeepSeek 的出圈让更多人意识到中国 AI 的强大,其成功并非偶然,而是站在巨人肩膀上取得的成果。中国 AI 在追赶过程中展现了强大的工程能力,未来中美 AI 格局的演变可能取决于谁能更有效地利用有限算力取得突破。文章强调,比技术更重要的是愿景,DeepSeek 的成功也在于其对智能发展的长远规划。

瓦白 2025-02-01 18:02:32
  1. DeepSeek 最重要的事是推动智能的发展。

  2. 梁文锋作为DeepSeek的核心人物,具备较强的技术能力。

  3. DeepSeek 赢得正面口碑的原因在于较早发布相关技术,但仍有很多提升空间。

  4. DeepSeek 在长上下文能力方面取得了显著进步,使用常规方法即可实现。

  5. DeepSeek 据称拥有5万张卡,但实际情况可能远低于此,注重合规,卡资源有限。

  6. DeepSeek 的发展模式注重智能本身而不单纯追求商业利益。

  7. 从技术角度,DeepSeek 在人才扩散方面具有重要作用。

  8. DeepSeek 不在乎具体形态,致力于向AGI发展。

  9. DeepSeek 的技术创新集中在降低硬件开销上,有助于成本控制。

  10. 长期来看,DeepSeek 对算力建设的需求并未减少,短期则推动更高效的模型实现。

  11. 市场上资金充足,DeepSeek 的成功更多依赖于其组织文化和商业模式。

  12. DeepSeek 能迅速追赶的原因在于推理模型架构稳定,且任务难度不高。

  13. 对于追赶者而言,算力需求约为探索者的十分之一。

  14. 追赶者在算力需求上相对较低,但探索者仍需大量投入以推动新算法和架构的进展。

  15. 探索物理学的进步需要不同的投入路径,研究者和企业实验室有着不同的目标和策略。

  16. 小公司因算力有限必须考虑效率,而大公司则关注模型产出速度。

  17. CUDA 生态系统的优势在于算子的丰富性,国内公司在特定条件下拥有后发优势。

  18. DeepSeek 发布的技术表明,不再需要做有监督微调(SFT),这可能提出了一种新的模型训练范式。

  19. DeepSeek-R1 在一定程度上证明了通过蒸馏方法精细调优有较好的效果。

瓦白 2025-01-29 11:45:24