最近，Snowflake的 CEO 公布了他们对国产模型和海外模型的终极测试结果

最近，Snowflake的 CEO 公布了他们对国产模型和海外模型的终极测试结果！

专家把国产新秀 GLM-5.2 和海外顶流 Opus-4.7 拉到同一个考场（dbt-bench 基准测试），死磕了103个任务。

结果扒出来的细节，简直就是两个性格截然相反的“AI打工人”。

我们用四个词来拆解这场中美AI的巅峰对决：

1. 战绩：大分打平，小分落后

给三次机会，只要对一次就行（Pass@3），GLM-5.2 拿下66%，Opus-4.7 是67%，双方基本持平。

但如果要求一枪爆头、一次做对（Pass@1），Opus 领先了6个百分点。GLM 的发挥还像心电图一样，波动挺大。

2. 消耗：国产模型更“费流量”

虽然综合胜率差不多，但 GLM 的做题成本太高了。

它平均一个任务要跑99轮，Opus 只要80轮。更夸张的是，GLM 耗费了8.6亿个 Token，足足是 Opus 的两倍！

3. 性格：强迫症晚期 vs 云淡风轻

为什么 GLM 这么费流量？因为它太内耗了。

遇到难题，它会疯狂调用411次工具，卡着查了24分钟的空值、行数和一致性，结果这题还是得了零分。这就是在错误的路上穷尽验证。

反观 Opus，49次调用、9分钟，做完交卷。而且 GLM 还容易道心破碎，一看写不出来，直接提早放弃。

4. 绝招：双平台通吃

GLM 也不是白死磕的。它有一个独门绝技：

双平台（DuckDB + Snowflake）联合验证。

在需要两个平台都稳妥的复杂任务里，GLM 靠着这招死磕赢了 Opus。

这其实就是中美AI技术竞争的缩影。

美国顶尖模型在底层逻辑、单次精度和能效比上，依然底蕴深厚，像个高冷学霸。

而中国模型则靠着惊人的迭代速度和工程韧性，把内功消耗拉满，在综合胜率上死死咬住比分。

虽然我用两倍的功力，还偶尔犯强迫症，但拼起命来，我是真能和你打个五五开。

更有意思的是，官方直言，测试框架根本没对 Opus 做任何优化，纯粹是“盲操直接跑”。

外国专家现在对 GLM 兴奋得很，正准备把它调优后推给客户。

AI的下半场，谁能把“内耗”治好，谁就能笑到最后。你觉得国产大模型这种“拼命刷题”的战术，能实现弯道超车吗？欢迎评论区聊聊！

云霞资讯网

最近，Snowflake的 CEO 公布了他们对国产模型和海外模型的终极测试结果

评论列表

热门分类

最近，Snowflake的 CEO 公布了他们对国产模型和海外模型的终极测试结果

评论列表

猜你喜欢

任泽平赴美考察后提醒：AI不是风口，是海啸——从美国回来，我看到的却是另一种危险

一位X上的国外设计师给GLM5.2和Claude布置了相同的设计任务，

中美AI差距还有多大？Stanford这份报告把底裤扒了最近斯坦福2026年AI

一个外国程序员对中国AI的中肯评价，在X上火了。来看下他的原帖大意：

字节跳动拒绝上市！手握6000亿美元估值，闷声搞大事？字节跳动官宣暂缓上市，手

最近GLM5.2有点DeepSeek2.0的意思了发布的时间点是6月13日

中国最火的9款国产AI大模型1，豆包，字节跳动出品，3.45亿月活2，通义千问，

热门分类