扬眉吐气!中国智算的最后一块缺口,被曙光堵上了!
超算E级,智算万卡,模型奔着十万亿参数狂奔。
听起来很燃对吧?但过去几年,懂行的人心里一直压着一块石头——高速网络。
中科曙光高端计算总工程师解西国今天在sclaeFabric发布会上一句话点醒所有人:算力水平决定应用上限,高速网络的稳定性决定应用下限。
什么意思?你堆再多的GPU,如果网络不稳,数据传不动、梯度等不到,算力就是空转。而这块下限的短板,过去一直捏在别人手里。
国外垄断的InfiniBand,性能强,但那是人家的传送带,想卡你脖子随时可以拉闸。RoCE倒是开放,但万卡规模一上去,PFC风暴能把运维逼疯。
曙光的scaleFabric,选的是最难的路——全栈自研400G原生RDMA,从芯片到协议,全是自己的。
这是真刀真枪在万卡集群里跑了10个月的东西!!!30小时部署3个万卡集群,99.99%可用性,90%隐性风险提前排雷,集群利用率直接拉高20%。
中国智算的三梁四柱,CPU有了,GPU有了,存储有了,今天,最后一块拼图——高速网络,也齐了。
从今天起,中国智算的下限,我们自己说了算。真的是扬眉吐气!
