国产高端计算的网力短板被补上了

大模型训练进入万卡、10万卡时代，算力的瓶颈早已不是芯片或服务器，而是连接它们的网络。当训练集群规模从千卡冲向10万卡，通信耗时占比能达到30%以上，网络稳定性甚至直接决定训练任务能否顺利完成。就在这个关键节点，中科曙光推出首款国产原生无损RDMA高速网络scaleFabric，一举补上国产高端计算的网力短板。

这款网络实现了从112G SerDes IP、交换芯片、网卡到软件平台的100%全栈自研，核心指标对标国际顶尖水平：端到端时延低于1微秒，交换时延仅260纳秒，单子网支持超11万卡扩展，是传统方案的2.33倍。更重要的是，它已经在国家超算互联网郑州核心节点完成3万卡商用部署，累计运行作业超10万项，用真实负载验证了稳定性——对于动辄跑几十天的大模型训练来说，一次网络抖动的损失就能覆盖硬件差价，这种“零丢包”的稳定成了硬通货。

过去选网络，总在性能和自主可控之间纠结：IB性能强但依赖海外，RoCE是国产平替但中小规模才好用。RoCE的问题出在流控机制——依赖PFC的粗粒度流控，万卡级集群里每月能触发数次PFC风暴，每次恢复要几十分钟。而IB用基于信用的精细化流控，发送前先确认接收端缓冲区，从根源杜绝丢包，还不用持续调优水线参数。更关键的是，国产IB的落地让用户不用再做取舍，性能和安全能兼得。

算存网是高端计算的铁三角，之前曙光在算力有液冷服务器，存力有Parstor存储，现在网力补上了。当10万卡集群能不用看别人脸色搭建，当全国算中心能连成一张网，算力才能像水电一样流动。这场硬桥硬马的突破，不止是技术上的对标，更是国产高端计算从跟跑转向并跑的标志——网络这个胜负手，终于握在自己手里了。

云霞资讯网

国产高端计算的网力短板被补上了

热门分类