17岁中国少年震惊国外科技圈
Kimi新发表的论文在国外科技圈炸锅了,
简单讲就说现在的AI大模型基本都是以Transformer为架构,
这个底层架构有个基础组件叫标准残差连接。
当整个AI圈都在堆算力卷算法,
在Kimi实习的17岁少年陈广宇提出了全注意力残差连接替代标准残差连接,
结果就是在其他不变的情况下,算力效率提升1.25倍,推理能力大幅提升。
这个对底层架构的改变,对整个AI圈子影响巨大,带来的效果也相当震撼,马斯克等一众科技大佬都纷纷转发点赞。

17岁中国少年震惊国外科技圈
Kimi新发表的论文在国外科技圈炸锅了,
简单讲就说现在的AI大模型基本都是以Transformer为架构,
这个底层架构有个基础组件叫标准残差连接。
当整个AI圈都在堆算力卷算法,
在Kimi实习的17岁少年陈广宇提出了全注意力残差连接替代标准残差连接,
结果就是在其他不变的情况下,算力效率提升1.25倍,推理能力大幅提升。
这个对底层架构的改变,对整个AI圈子影响巨大,带来的效果也相当震撼,马斯克等一众科技大佬都纷纷转发点赞。

评论列表