在全世界都还处于堆卡续命情况之际,DeepSeek直接声称,耗费557万美元便可以训练出具有6710亿参数的怪兽模型没错
在全世界都还处于堆卡续命情况之际,DeepSeek直接声称,耗费557万美元便可以训练出具有6710亿参数的怪兽模型
没错,就是那个预算仅仅是Llama-3.1-405B的9分之一,但是却把Arena分数刷到83.3的“抠门奇迹。

要是你对GPU小时费有那么一些概念,都会忍不住倒吸一口凉气,这就好像把一辆布加迪按照共享单车的单价来开一样,更过分的是,他们,居然还有200张H800没有使用。听起来就好像有人用超市购物券买下了曼哈顿豪宅,要是这件事情是真的,英伟达的股价又将会下降一番,但要是仅仅是PPT把戏,那整个AI领域大概会全面出现情况。这事在2025,年6月12日凌晨被曝光,在新加坡金沙会展中心,DeepSeek研发总监李兆星把热咖啡往桌上一放,对着500多位芯片代理商拿出PPT,训练用了55天,、2048张H800、峰值功耗1.9兆瓦,账单557万美元,比Meta训Llama-3.1-405B的6000万刀直接少了一成。台下有人把计算器按得噼里啪直响,每百万参数的成本是0.83美元,这比OpenAIGPT-4o的7,2美元便宜得那叫一个悬殊。

听着就好像菜鸟驿站跟你讲,亲爱的,moonlight被送到月球,运费到付仅仅只要六块八,而且是包邮但是不退货。简单来说,他们将省钱的三招运用得十分熟练,FP8混合精度使得显存带宽减少了一半,MLA多头与潜注意力把KV-cache压缩到仅为原来的7%,再加上细粒度MoE,每次仅唤醒6.5%的神经元,剩下的九成就这样处于闲置状态。
问题出现了这么抠门,模型不会营养不良吗
可将句子进行重组,调整为,Llama-3.1是凭借1.5万张H100强力运算了时,才获得83.0分,而DeepSeek仅用了3,分之一的算力就反超了0.3分,这样老黄的定律难道要被送进ICU那问题就产生了,2019年IBM走捷径用8位去训练WatsonHealth,结果肿瘤建议开出的是致命剂量,被梅奥诊所直接给赶了出去,在工程上精度换预算要是出了问题,并不仅仅是公关危机,而是关乎生命线的大事。更为实际的是,FP8在梯度累加的时候误差,会被放大,557万里存不存在预留重训险,

有很多聪慧之人存在,可是将训练集群当作印钞机来看待的资本家,更加精明只要重新启动一回,账单就马上变为双倍,商业化真的可以承受得了吗不过说DeepSeek全靠抠门可不太准确,他们背后有量化对冲基金High-Flyer支撑着,那可是最不缺实时风控以及回滚所需的算力,将金融级别的容错机制融入AI训练中,就如同给火箭安装了安全气囊,花费少了,保障却更多了。从另一方面来讲,MoE的稀疏,结构对推理芯片非常不友好,随着batchsize变小,GPU空转率会大幅提升,要是下游客户全是低频调用,节省下来的训练费用,会原封不动地花在部署端,算盘依旧噼里啪响。现实检验需要对照两面镜子,一面是2023年法国的Mistral7B,它花费800万美元,用六周就获得欧洲生成式API市场12%的份额,依靠的是极致稀疏化设计以及本地部署的优势,另一面是印度光辉战机,它历经34年,投入67亿美元,却始终没有攻克国产发动机的难题,问题出在材料技术和供应链薄弱上,DeepSeek现在就差那么一步,如果不把训练阶段节省下来的成本复制到推理环节,那就容易陷入“训练省一块,推理赔十块”的印度式困局了。这不仅仅是一场比拼算力的竞赛,而是一场关于成本转嫁的博弈,只有在训练、推理以及维护这三个环节一起压缩开支,才有资格去探讨普惠型AGI是否有可能,当FP8、MoE架构和通信重叠技术逐渐成为行业里的标配时,接下来的竞争,重点肯定就会转移到部署上,那节省下来的投入仅仅是一张入场券而已,能不能让模型真正产生持续的现金流,才决定谁能进入最后的决胜阶段。
现实很骨感,省钱的香槟别急着开

DeepSeek给整个行业泼了盆冷水,大模型不再是少数巨头的专属游戏,可也绝非一场简单的魔术表演,要是有人跟你说「花小钱就能复制所有成果」,先别急着信,得连问三句精度出问题,谁来兜底
推理空转谁兜底供应链断货谁背锅
AI路远,成本虽低,但商业现实中从不存在既赚快钱又占便宜还全拿好处的美事,省训练成本只是个开头,接下来要做的大事情是把模型放进每家每户的边缘盒子里,让每一度电都能好好发挥作用,这才是重中之重。
声明:本文内容95%左右为人工手写原创,少部分借助AI辅助,但是所有的内容都是本人经过严格审核和核对的。