就在大家忙着抢春节车票时,DeepSeek的GitHub仓库悄悄更新了114个代码文件。眼尖的开发者发现,28处出现了神秘的"MODEL1"标识,这个从未公开的模型代号瞬间引爆技术圈。

从代码对比来看,MODEL1和现在的V3.2像是两个完全不同的物种。最明显的区别在KV缓存设计上,新模型采用了更紧凑的内存布局,就像把杂乱的书房重新规划成宜家样板间。更厉害的是它对FP8解码的支持,这种"瘦身版"数据格式能让模型在高端显卡上跑出赛车般的速度。

硬件适配暴露了更多线索。在英伟达H100显卡上,MODEL1准备了64头和128头两个版本。而最新的B200显卡专属优化中,128头配置竟然只支持MODEL1,完全不给V3.2留位置。这种区别对待,让人想起手机厂商为最新处理器单独优化的旗舰机型。

技术宅们挖出更多细节:MODEL1的head_dim参数锁定在512维,比V3.2的576维更精简。配合代码中出现的稀疏性处理优化,这很可能是个专攻长文本的"记忆大师",或者是能在小型设备上流畅运行的"省电模式"。

巧合的是,就在代码泄露前一天,科技媒体TheInformation刚爆料DeepSeek计划春节发布V4模型。现在大家都在猜,MODEL1会不会就是V4的核心架构?毕竟DeepSeek最近发布的两篇论文里,那些关于记忆模块和残差连接的黑科技,总得有个用武之地。

不过官方至今保持沉默,就像考前绝不透露答案的老师。但代码不会说谎,MODEL1的硬件适配已经做到B200显卡,说明这个神秘模型离正式亮相真的不远了。