快报内容
时间:2026年1月20-22日期间,正值DeepSeek-R1发布一周年之际
地点:DeepSeek官方GitHub仓库及开源社区
涉及方:DeepSeek研发团队、全球AI开源社区开发者、行业分析师
事件经过:
2026年1月20日起,DeepSeek对自研的FlashMLA推理优化库进行了一系列代码更新。开发者在114个代码文件中发现28处提及此前未公开的“MODEL1”模型标识符,该标识符与现有模型“V32”(DeepSeek-V3.2)并列引用。代码分析表明,MODEL1采用了与现有模型完全不同的架构设计,核心优化聚焦三大方向。
核心技术特征:
MODEL1体现了DeepSeek在AI模型架构上的重大革新。首先,模型回归512维标准设计,与V3.2的576维非对称MLA形成鲜明对比,这有助于更好地匹配GPU的Tensor Core计算特性。其次,引入了Token级稀疏MLA机制,支持FP8格式的KV缓存,在极长上下文场景下通过稀疏化推理大幅降低显存压力。第三,专门针对英伟达Blackwell架构(SM90和SM100)进行优化,在B200显卡上展现出卓越的性能表现。
具体技术指标显示,MODEL1的键值缓存存储逻辑经过重构,显存占用降低40%,推理速度提升1.8倍,长文本和长代码处理优势更加明显。稀疏FP8解码技术在提升运算速度的同时,将信息损失率控制在5%以下,使普通设备也能获得高性能体验。每个token的KVCache大小优化至584字节,在32K长度序列中可节省约256KB内存。
行业解读与影响:
技术社区对MODEL1的身份展开热烈讨论,主要观点认为它可能是DeepSeek-V4旗舰模型的内部代号,或者是R系列模型的迭代版R2。这一曝光印证了DeepSeek区别于算力规模竞争的技术路线,更加专注优化工程效率和控制成本。分析指出,当美国AI企业仍在堆砌算力时,DeepSeek已开辟出以工程效率、成本控制和快速产业化为核心的“第二赛道”。
DeepSeek的发展哲学体现了中国AI产业的独特路径:在芯片供应受限、资本相对谨慎的约束条件下,发展出极致工程效率、严格成本控制、快速技术扩散的“生存智慧”。这种模式在实际应用中展现出强大生命力,目前已有超过3万家企业接入DeepSeek的底层能力,覆盖金融、医疗、工业等12个领域。
从行业影响来看,MODEL1的曝光标志着AI竞赛进入新阶段。竞争焦点正从单纯的参数比拼转向更广泛的生态构建和商业落地,特别是在人形机器人+大模型融合、行业大模型深化应用、端侧AI突破等领域。DeepSeek通过Engram等技术解决的不仅是“让模型更聪明”,更是“让智能更高效”的核心问题。
总结
DeepSeek新模型MODEL1的意外曝光揭示了AI模型发展的新方向:从追求参数规模转向注重推理效率和成本控制。这一架构级重新设计展现了DeepSeek在工程优化方面的技术实力,也反映了中国AI产业在受限环境下形成的独特发展路径。随着MODEL1接近训练完成或推理部署阶段,业界期待DeepSeek在2026年春节前后正式发布新一代模型,进一步推动AI技术在实际场景中的普及应用。





