DeepSeek日入56万美元,成本利润率高达545%,AI Infra团队压力倍增?
DeepSeek开源周的余波还未平息,一则关于其成本利润率的重磅消息再次引爆业内。
高达545%的成本利润率,日入56万美元,这些数字背后究竟隐藏着怎样的秘密?
DeepSeek是如何在激烈的AI竞争中取得如此亮眼的成绩的?
这对于其他AI Infra团队又意味着什么呢?
DeepSeek公布的惊人数据引发了广泛的关注和讨论。
545%的成本利润率无疑给其他AI基础设施团队带来了巨大的压力。
有网友评论称,如果达不到DeepSeek的利润水平,就说明自家的Infra团队能力不足。
这番言论虽然略显尖锐,却也反映了DeepSeek的突出业绩给同行带来的冲击。
DeepSeek的成功并非偶然。
其公布的数据显示,按照R1 token定价,该公司一天的总收入为56.2万美元,而GPU租赁成本约为8.7万美元/天,由此得出成本利润率为545%。
值得注意的是,DeepSeek的实际收入可能低于这一数字,因为V3的定价更低,且收费服务并非全部覆盖,同时夜间还有折扣。
DeepSeek曾多次强调其API定价不亏本,创始人梁文锋也表示,定价原则是不贴钱也不赚取暴利。
DeepSeek的高效运作与其独特的推理系统架构密不可分。
该系统基于大规模跨节点专家并行(EP)策略,旨在实现更大的吞吐量和更低的延迟。
EP策略的核心是将模型的众多专家分散到不同的GPU上,从而减少每个GPU的计算和访存需求。
EP策略也带来了新的挑战,例如跨节点传输和负载均衡问题。
为了应对这些挑战,DeepSeek采用了一系列优化措施。
他们使用双batch重叠技术来隐藏通信开销。
在prefill阶段,两个batch的计算和通信交错进行,互相掩盖通信开销。
在decode阶段,则将attention部分拆成两个stage,形成五级流水线,实现计算和通信的重叠。
为了确保各个GPU的负载均衡,DeepSeek还实现了三种负载均衡器:Prefill Load Balancer, Decode Load Balancer 和 Expert-Parallel Load Balancer。
这些负载均衡器分别针对不同的负载情况进行优化,确保每个GPU的计算量和通信量都尽可能均衡,避免出现性能瓶颈。
DeepSeek推理系统实际运行数据也令人印象深刻。
该系统所有服务均使用H800 GPU,并采用与训练一致的精度,即矩阵计算和dispatch传输采用FP8格式,core-attention计算和combine传输采用BF16格式。
在最近24小时内,DeepSeek V3和R1推理服务占用的节点峰值为278个,平均占用226.75个,每个节点包含8个H800 GPU。
在统计时段内,DeepSeek V3和R1的输入token总数为6080亿,其中56.3%命中KVCache硬盘缓存。
输出token总数为1680亿,平均输出速率为20~22tps,平均每个输出token的KVCache长度为4989。
平均每台H800的吞吐量,对于prefill任务约为7.37万tokens/s(含缓存命中),对于decode任务约为1.48万tokens/s。
DeepSeek在开源周期间连续发布了五项重要模块,降低了社区复现其推理系统的难度。
这对于推动AI Infra领域的发展无疑具有积极意义。
DeepSeek选择开源,或许与其降低成本,扩大市场份额的战略目标有关。
DeepSeek的成功经验为其他AI Infra团队提供了宝贵的参考。
通过采用先进的架构设计和优化策略,DeepSeek实现了低成本、高性能的AI推理系统。
DeepSeek能否长期保持如此高的成本利润率?
面对不断变化的市场竞争和技术发展,DeepSeek又将如何应对未来的挑战?
这些问题值得我们深入思考和探讨。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。