AI圈一夜变天了？马斯克Grok 4多项测试碾压对手，价格还不贵，这是不给Ope

AI圈一夜变天了？马斯克Grok 4多项测试碾压对手，价格还不贵，这是不给OpenAI和谷歌留活路了？

我花了一晚上时间仔细研究了Grok 4公布的数据和信息，结论是：马斯克带着他的“复仇者联盟”杀了回来，AI大战的火药味瞬间被拉到了顶格。

先不谈别的，直接上“干货”，看看Grok 4在各大硬核榜单上的“屠榜”表现：

1、顶级数学竞赛：近乎满分！

AIME 2025（美国数学邀请赛）：100%，第二名98.4%。

哈佛MIT数学竞赛：96.7%，第二名82.5%。

USAMO 2025（美国数学奥林匹克）：61.9%，第二名49.4%。

数学和逻辑推理，一直是检验大模型智能上限的“试金石”。Grok 4在这个领域的表现，只能用“恐怖”来形容。

2、通用高难度问题：碾压式领先！

在“Humanity’s Last Exam”（人类最后考试）的通用难题集上，Grok 4得分44.4%，而第二名只有26.9%，领先优势接近一倍！

在GPQA（高难度研究生水平问答）上，得分88.9%，超越第二名的86.4%，登顶。

3、AI高难度推理测试：优势巨大！

在号称“对人类容易，对AI极难”的ARC-AGI-2测试中，Grok 4得分15.9%，而第二名仅为8.6%，同样是近乎翻倍的领先。

4、编程能力：同样登顶！

在LiveCodeBench（1月-5月）的编程能力测试中，得分79.4%，超越第二名的75.8%。

这已经不是简单的“领先一点点”了，在多个衡量顶尖智能的维度上，Grok 4展现出的是“碾压性”的优势。难怪他们敢放话，Grok 4“在任何学科上，都可能超越了博士水平，无一例外”。

那么，是怎么做到的？

xAI透露了一个关键的技术细节，在我看来，这可能比刷榜的数字更重要：训练Grok 4时，花在“后训练强化学习”（Post-training RL）上的钱，和花在“预训练”（Pretraining）上的钱，一样多！

这是什么概念？这意味着，当大家还在疯狂地卷预训练的数据量和参数规模时，马斯克和他的团队，可能已经在如何“精装修”和“调教”这个AI大脑的环节，砸下了血本。他们不只在乎模型“懂得多”，更在乎它“想得清、做得对”，这直接提升了它在复杂推理和执行指令上的能力。

Grok 4的定价也很有意思：输入3/百万token，输出15/百万token。这个价格，对比它宣称的超强性能，确实可以说“相当便宜”。在OpenAI和Anthropic刚打完一轮价格战之后，马斯克用一个性能大幅领先但价格并不夸张的产品入场，这招“王炸”，是想直接端掉竞争对手们的高端用户群体。

我的几点想法：

AI竞赛范式的转移：马斯克此举，是在强行扭转AI竞赛的范式。他似乎在说：别光比谁的模型能写诗画画、能做客服，有本事就来比谁能解决最硬核的科学、数学和逻辑推理问题。

“现实世界AI”的大脑：这与他之前强调的“现实世界AI”战略一脉相承。他需要一个足够聪明、推理能力超强的“大脑”，来指挥未来的擎天柱机器人和特斯拉汽车。Grok 4，很可能就是他为这个庞大的“软硬一体AI帝国”准备的核心引擎。

对OpenAI的“复仇”：这里面无疑也带有马斯克浓厚的个人色彩。作为OpenAI的联合创始人之一，他现在用xAI和Grok 4，以一种极具颠覆性的方式，向他曾经亲手创建、但后来理念不合的公司，发起了最直接的挑战。

当然，这些榜单数据目前还是一家之言，还需要更多第三方的交叉验证才能完全坐实。但如果这些数据哪怕只有八成是真的，那也意味着全球AI大模型的“王座”，可能真的要易主了。

马斯克带着Grok 4强势入局，大家觉得这会如何改变AI行业的战局？OpenAI、谷歌、Anthropic他们会如何接招？AI技术的“摩尔定律”，是不是又要因为马斯克的入场而被重新定义了？评论区聊聊你们的看法，这瓜太大了！人工智能机器人一本书读懂chatgptgrok4更新有哪些亮点

云霞育儿网