DeepSeek新模型MODEL1曝光，性能将超越V3.2？

就在大家忙着抢春节车票时，DeepSeek的GitHub仓库悄悄更新了114个代码文件。眼尖的开发者发现，28处出现了神秘的"MODEL1"标识，这个从未公开的模型代号瞬间引爆技术圈。

从代码对比来看，MODEL1和现在的V3.2像是两个完全不同的物种。最明显的区别在KV缓存设计上，新模型采用了更紧凑的内存布局，就像把杂乱的书房重新规划成宜家样板间。更厉害的是它对FP8解码的支持，这种"瘦身版"数据格式能让模型在高端显卡上跑出赛车般的速度。

硬件适配暴露了更多线索。在英伟达H100显卡上，MODEL1准备了64头和128头两个版本。而最新的B200显卡专属优化中，128头配置竟然只支持MODEL1，完全不给V3.2留位置。这种区别对待，让人想起手机厂商为最新处理器单独优化的旗舰机型。

技术宅们挖出更多细节：MODEL1的head_dim参数锁定在512维，比V3.2的576维更精简。配合代码中出现的稀疏性处理优化，这很可能是个专攻长文本的"记忆大师"，或者是能在小型设备上流畅运行的"省电模式"。

巧合的是，就在代码泄露前一天，科技媒体TheInformation刚爆料DeepSeek计划春节发布V4模型。现在大家都在猜，MODEL1会不会就是V4的核心架构？毕竟DeepSeek最近发布的两篇论文里，那些关于记忆模块和残差连接的黑科技，总得有个用武之地。

不过官方至今保持沉默，就像考前绝不透露答案的老师。但代码不会说谎，MODEL1的硬件适配已经做到B200显卡，说明这个神秘模型离正式亮相真的不远了。

云霞资讯网