云霞育儿网

全流程昇腾平台训练,华为推出准万亿参数盘古 Ultra MoE 模型华为今日推出

全流程昇腾平台训练,华为推出准万亿参数盘古 Ultra MoE 模型

华为今日推出参数规模高达 7180 亿的全新模型盘古 Ultra MoE,这是一个全流程在昇腾 AI 计算平台上训练的准万亿 MoE 模型。

据了解,盘古团队提出 Depth-Scaled Sandwich-Norm(DSSN)稳定架构和 TinyInit 小初始化的方法,在昇腾平台上实现了超过 18TB 数据的长期稳定训练。

在训练方法上,华为团队首次披露在昇腾 CloudMatrix 384 超节点上打通大稀疏比 MoE 强化学习(RL)后训练框架的关键技术,使 RL 后训练进入超节点集群时代。歌手排名