云霞资讯网

国产高端计算的网力短板被补上了

大模型训练进入万卡、10万卡时代,算力的瓶颈早已不是芯片或服务器,而是连接它们的网络。当训练集群规模从千卡冲向10万卡,通信耗时占比能达到30%以上,网络稳定性甚至直接决定训练任务能否顺利完成。 就在这个关键节点,中科曙光推出首款国产原生无损RDMA高速网络scaleFabric,一举补上国产高端计算的网力短板。

这款网络实现了从112G SerDes IP、交换芯片、网卡到软件平台的100%全栈自研,核心指标对标国际顶尖水平:端到端时延低于1微秒,交换时延仅260纳秒,单子网支持超11万卡扩展,是传统方案的2.33倍。 更重要的是,它已经在国家超算互联网郑州核心节点完成3万卡商用部署,累计运行作业超10万项,用真实负载验证了稳定性——对于动辄跑几十天的大模型训练来说,一次网络抖动的损失就能覆盖硬件差价,这种“零丢包”的稳定成了硬通货。

过去选网络,总在性能和自主可控之间纠结:IB性能强但依赖海外,RoCE是国产平替但中小规模才好用。RoCE的问题出在流控机制——依赖PFC的粗粒度流控,万卡级集群里每月能触发数次PFC风暴,每次恢复要几十分钟。 而IB用基于信用的精细化流控,发送前先确认接收端缓冲区,从根源杜绝丢包,还不用持续调优水线参数。更关键的是,国产IB的落地让用户不用再做取舍,性能和安全能兼得。

算存网是高端计算的铁三角,之前曙光在算力有液冷服务器,存力有Parstor存储,现在网力补上了。当10万卡集群能不用看别人脸色搭建,当全国算中心能连成一张网,算力才能像水电一样流动。 这场硬桥硬马的突破,不止是技术上的对标,更是国产高端计算从跟跑转向并跑的标志——网络这个胜负手,终于握在自己手里了。