xAI发布Grok4.1，幻觉率降低3倍并登顶LMArena排行榜要点一：20

秦始皇看科技 2025-11-18 12:57:15

xAI发布Grok 4.1，幻觉率降低3倍并登顶LMArena排行榜要点一：2025年11月17日，Elon Musk旗下的xAI公司正式发布Grok 4.1模型，该模型在多项评测中取得突破性成绩。xAI官方数据显示，Grok 4.1相比之前的模型幻觉率降低了约3倍，在信息检索场景下的事实准确性显著提升。在LMArena的Text Arena盲测排行榜上，Grok 4.1推理模式（代号quasarflux）以1483 Elo分登顶第一，领先第二名非xAI模型31分；其非推理模式（代号tensor）以1465 Elo分位居第二，超越了所有其他模型的完整推理配置。该模型已在grok.com、X平台以及iOS和Android应用上向所有用户开放要点二：Grok 4.1在情感智能和创意写作方面也展现出色表现。在EQ-Bench3情感智能评测中，Grok 4.1以1586 Elo分排名第一，在Creative Writing v3基准测试中排名第二，仅次于GPT-5.1。xAI采用了大规模强化学习基础设施，并开发了新方法，利用前沿智能体推理模型作为奖励模型，在风格、个性、帮助性和对齐方面进行自主评估和迭代优化。该模型在2025年11月1日至14日期间已进行了静默灰度发布测试，实时流量盲测显示，Grok 4.1在64.78%的对比中被用户偏好。这一发布标志着xAI在与OpenAI、Anthropic等竞争对手的AI竞赛中取得重要进展。

0 阅读：0

秦始皇看科技

感谢大家的关注

作者最新文章

1

Peter Thiel清仓全部英伟达股份，AI泡沫担忧升温要点一：亿万富翁投资者

2

xAI发布Grok 4.1，幻觉率降低3倍并登顶LMArena排行榜要点一：20

3

Arm与Nvidia宣布合作，Neoverse CPU将整合NVLink Fus

4

广东女子纵贯丢失3年的手机，被深圳小伙陈晵跨越5000公里成功送还的温暖事件，过

5

2025年11月16日韩国国会议长禹元植的公开表态。他在社交媒体发文，就历史、

6

陈梦没有退役计划，而且她在11月17日全运会乒乓球团体赛后回应淘汰赛备战时，明确

7

把导游装在口袋里：AI 如何重塑景区游览体验清晨的阳光透过古老的窗棂，洒在海昏侯

8

近期湖人相关的“首秀”有新秀蒂耶罗的NBA生涯首秀、布朗尼的新赛季首次首发，还有

9

北京时间2025年11月17日凌晨的世预赛欧洲区I组关键战，挪威以4 - 1逆转

10

湘超联赛中永州游子为家乡球队助威的暖心事件，背后还藏着500张“游子票”连接乡愁

热门分类

科技TOP

1

昨天小鹏科技日最出圈的就是机器人全网都在找它是披着皮的真人的证据确实相比今年4月

2

为啥股价会跌？没看明白。单从步态讲小鹏机器人是全球走得最好最像人的。我平时研究临

3

科技发展真是越来越离谱啦！近日，浙江温州街头，一个人形机器人稳稳牵着机器狗遛弯，

4

陈奕迅将现身K90发布会今晚陈奕迅会携新版《K歌之王》空降K90系列发布会现场，

5

中国移动你是良心发现了吗？中国移动你是良心发现了吗？18年的老用户了，每个月就

6

这下你用iPhone的控制中心不会迷茫了。

7

小鹏机器人“猫步”惊艳全场！网友疑是真人，何小鹏四字回应暗藏玄机昨日，第七届小

8

这次准备买华为Mate80Pro的，务必选择16GB运存版本的，因为这个版本

9

今晚恐怕没有一个友商笑得出来了，华为Mate80系，配置汇总简直大开眼界。全

10

Mate80的直屏设计真的很出彩！这外观太也太赞了吧！

科技最新文章

1

太流畅了！Mate40系列开始陆续推送鸿蒙4.2.0.192新版本。昨天晚些时间

2

整理了一下11月新机发布会11月24日：荣耀500系列新机发布会11月25日：

3

三代苹果CEO各有千秋，你更服谁？乔布斯是“开创者”：1976年创苹果，推出iP

4

mate80终于用上了大R角配上直板平直角边框真的是太帅了，现在各家的直屏用的都

5

这次准备买华为Mate80Pro的，务必选择16GB运存版本的，因为这个版本

6

余承东真能忍，华为mateX7真机官宣。全新玄武架构炸裂，从桌上掉下去我忍了

7

没想到Mate80ProMax后背这个无线充电线圈，无意中和摄像头模组正好

8

余承东估计自己也想不到，Mate80还没发布，手机就已经被看光了，甚至都已经“拥

9

我预测，2026年可能是国产手机最难的时候，有两点原因：1⃣️iPhone1

10

华为是真有钱啊，听别的博主老师说11月25号Mate80系列发布会，28号鸿