Transformer和MoE乍一看差不多，但解码器块里有本质区别。传统Tran

量子位看科技 2025-11-12 17:51:52

Transformer和MoE乍一看差不多，但解码器块里有本质区别。传统Transformer的解码器块长这样：输入经过层归一化，再进self-attention，输出后又是层归一化，最后接一个前馈网络（Feed Forward）。这个前馈网络是固定的，每个token都要过这么一遍。MoE的解码器块改了。前馈网络的位置被替换成了一个路由器加多个专家。路由器看到token过来，立刻给它分配到几个最合适的专家去处理，而不是所有token都走同一条路。这样带来的好处是什么？参数多但激活的少。MoE总参数量很大（比如Mixtral 8x7B，8个7B的专家加起来），但推理时每个token只经过其中几个专家，所以实际计算量反而更小，推理速度就快了。路由器怎么工作的呢？它是个多分类器，输出每个专家的softmax分数，然后选分数最高的K个。问题是这样训练会有问题。开始时假设路由器选中了专家2，专家2因为被选中就能学习，学得好了就更容易被再次选中，结果其他专家永远得不到训练机会，沦为"僵尸专家"。解决办法是两步走。第一步给路由器输出加噪声，让其他专家也有竞争机会。第二步把非top K的分数硬设成负无穷，softmax之后就是0，强制路由器不能老是选同一批专家。还有个细节是token流量控制。有的专家处理的token特别多，有的很少，这样培训进度就不均匀。所以MoE给每个专家设了上限，超过了就把多余的token分配给次优选择。总结来说，MoE通过让不同专家分工合作来提升效率，而路由器就像个智能调度员，需要学会动态选择哪些专家最合适，同时还要防止某些专家被过度依赖。Mixtral 8x7B和Llama 4这类模型就是这个思路的实现。

0 阅读：0

量子位看科技

感谢大家的关注

作者最新文章

1

MiniMax实习生炼成屠榜模型屠榜开源榜MiniMaxM2技术解析屠榜开源大模

2

聚焦手机AI超级入口中兴小模型让手机变小秘手机上的AI“超级入口”，真的来了。

3

Qwen半成品刷下AIME25满分Qwen预览版数学推理SOTA半成品模型，已经

4

OpenAI宫斗真相全曝光52页证词撕开硅谷宫斗最新披露的llya 52页证词，

5

AI正取代哪些岗位这些岗位正受AI影响2025年，全球招聘数量同比下降了8%，A

6

AI编程提示词Top20常用VibeCoding提示词😂要说最热门的编程语言，

7

OpenAI给AWS甩380亿算力订单OpenAI与亚马逊达成云合作OpenAI

8

马斯克奥特曼再开撕硅谷甄嬛传更新精彩，实在是精彩！硅谷"甄嬛传"——马斯克和奥特

9

两个业余数学家推翻300年猜想300年数学定律被推翻一个300多年的难题，居然被

10

一句话做AI漫画人人都能当漫画师AI漫画也能“拍立得”了：输入一句话➕一张照片，

热门分类

科技TOP

1

这是做什么工作的？电脑上也看不懂

2

昨天小鹏科技日最出圈的就是机器人全网都在找它是披着皮的真人的证据确实相比今年4月

3

为啥股价会跌？没看明白。单从步态讲小鹏机器人是全球走得最好最像人的。我平时研究临

4

科技发展真是越来越离谱啦！近日，浙江温州街头，一个人形机器人稳稳牵着机器狗遛弯，

5

我预感红米k90可能会卖爆！这外观设计颜值一点不输小米17系列，再加上旗舰级别

6

老美开心了，终于让英伟达倒闭了！刚刚英伟达总裁黄仁勋对外宣布：中方市场份额降

7

陈奕迅将现身K90发布会今晚陈奕迅会携新版《K歌之王》空降K90系列发布会现场，

8

中国移动你是良心发现了吗？中国移动你是良心发现了吗？18年的老用户了，每个月就

9

这下你用iPhone的控制中心不会迷茫了。

10

小鹏机器人“猫步”惊艳全场！网友疑是真人，何小鹏四字回应暗藏玄机昨日，第七届小

科技最新文章

1

荣耀是没学会怎么阉割标准版吗？料给的太足了！看完荣耀Magic8拆解视频，感

2

荣耀500大概就是这样了，猜价格？首先是外观全新大变样，这颜值比上一代提

3

荣耀不讲武德！这下GT2系列怕是要彻底杀疯了[捂脸哭]看完荣耀GT2系列的硬件配

4

发布会可以不用开了，荣耀500真机开箱来了，而且配置参数基本确定从媒体放出的

5

荣耀500真机外观亮相，全系列采用6.55英寸机身，荣耀500标准版搭载骁龙8s

6

想换mate70air了，在华为店模拟日常使用试玩了半天，9020b在华为这是吃

7

从华为Mate60Pro换到荣耀Magic8Pro，续航和拍照的提升是意料之

8

重磅消息！华为Mate80系列手机壳曝光，摄像模组是居中大圆，和华为Mate

9

【荣耀500系列官宣】11月12日，荣耀500系列正式官宣，号称全系越级配置，带

10

荣耀500系列的官方海报，这次是超级标准版和超级Pro版，主打超级。海报看起来