AI圈一夜变天了?马斯克Grok 4多项测试碾压对手,价格还不贵,这是不给OpenAI和谷歌留活路了?
我花了一晚上时间仔细研究了Grok 4公布的数据和信息,结论是:马斯克带着他的“复仇者联盟”杀了回来,AI大战的火药味瞬间被拉到了顶格。
先不谈别的,直接上“干货”,看看Grok 4在各大硬核榜单上的“屠榜”表现:
1、顶级数学竞赛:近乎满分!
AIME 2025(美国数学邀请赛):100%,第二名98.4%。
哈佛MIT数学竞赛:96.7%,第二名82.5%。
USAMO 2025(美国数学奥林匹克):61.9%,第二名49.4%。
数学和逻辑推理,一直是检验大模型智能上限的“试金石”。Grok 4在这个领域的表现,只能用“恐怖”来形容。
2、通用高难度问题:碾压式领先!
在“Humanity’s Last Exam”(人类最后考试)的通用难题集上,Grok 4得分44.4%,而第二名只有26.9%,领先优势接近一倍!
在GPQA(高难度研究生水平问答)上,得分88.9%,超越第二名的86.4%,登顶。
3、AI高难度推理测试:优势巨大!
在号称“对人类容易,对AI极难”的ARC-AGI-2测试中,Grok 4得分15.9%,而第二名仅为8.6%,同样是近乎翻倍的领先。
4、编程能力:同样登顶!
在LiveCodeBench(1月-5月)的编程能力测试中,得分79.4%,超越第二名的75.8%。
这已经不是简单的“领先一点点”了,在多个衡量顶尖智能的维度上,Grok 4展现出的是“碾压性”的优势。 难怪他们敢放话,Grok 4“在任何学科上,都可能超越了博士水平,无一例外”。
那么,是怎么做到的?
xAI透露了一个关键的技术细节,在我看来,这可能比刷榜的数字更重要:训练Grok 4时,花在“后训练强化学习”(Post-training RL)上的钱,和花在“预训练”(Pretraining)上的钱,一样多!
这是什么概念?这意味着,当大家还在疯狂地卷预训练的数据量和参数规模时,马斯克和他的团队,可能已经在如何“精装修”和“调教”这个AI大脑的环节,砸下了血本。他们不只在乎模型“懂得多”,更在乎它“想得清、做得对”,这直接提升了它在复杂推理和执行指令上的能力。
Grok 4的定价也很有意思:输入3/百万token,输出15/百万token。这个价格,对比它宣称的超强性能,确实可以说“相当便宜”。在OpenAI和Anthropic刚打完一轮价格战之后,马斯克用一个性能大幅领先但价格并不夸张的产品入场,这招“王炸”,是想直接端掉竞争对手们的高端用户群体。
我的几点想法:
AI竞赛范式的转移:马斯克此举,是在强行扭转AI竞赛的范式。他似乎在说:别光比谁的模型能写诗画画、能做客服,有本事就来比谁能解决最硬核的科学、数学和逻辑推理问题。
“现实世界AI”的大脑:这与他之前强调的“现实世界AI”战略一脉相承。他需要一个足够聪明、推理能力超强的“大脑”,来指挥未来的擎天柱机器人和特斯拉汽车。Grok 4,很可能就是他为这个庞大的“软硬一体AI帝国”准备的核心引擎。
对OpenAI的“复仇”:这里面无疑也带有马斯克浓厚的个人色彩。作为OpenAI的联合创始人之一,他现在用xAI和Grok 4,以一种极具颠覆性的方式,向他曾经亲手创建、但后来理念不合的公司,发起了最直接的挑战。
当然,这些榜单数据目前还是一家之言,还需要更多第三方的交叉验证才能完全坐实。但如果这些数据哪怕只有八成是真的,那也意味着全球AI大模型的“王座”,可能真的要易主了。
马斯克带着Grok 4强势入局,大家觉得这会如何改变AI行业的战局?OpenAI、谷歌、Anthropic他们会如何接招?AI技术的“摩尔定律”,是不是又要因为马斯克的入场而被重新定义了?评论区聊聊你们的看法,这瓜太大了!人工智能机器人一本书读懂chatgptgrok4更新有哪些亮点