xAI发布Grok 4.1,幻觉率降低3倍并登顶LMArena排行榜要点一:2025年11月17日,Elon Musk旗下的xAI公司正式发布Grok 4.1模型,该模型在多项评测中取得突破性成绩。xAI官方数据显示,Grok 4.1相比之前的模型幻觉率降低了约3倍,在信息检索场景下的事实准确性显著提升。在LMArena的Text Arena盲测排行榜上,Grok 4.1推理模式(代号quasarflux)以1483 Elo分登顶第一,领先第二名非xAI模型31分;其非推理模式(代号tensor)以1465 Elo分位居第二,超越了所有其他模型的完整推理配置。该模型已在grok.com、X平台以及iOS和Android应用上向所有用户开放要点二:Grok 4.1在情感智能和创意写作方面也展现出色表现。在EQ-Bench3情感智能评测中,Grok 4.1以1586 Elo分排名第一,在Creative Writing v3基准测试中排名第二,仅次于GPT-5.1。xAI采用了大规模强化学习基础设施,并开发了新方法,利用前沿智能体推理模型作为奖励模型,在风格、个性、帮助性和对齐方面进行自主评估和迭代优化。该模型在2025年11月1日至14日期间已进行了静默灰度发布测试,实时流量盲测显示,Grok 4.1在64.78%的对比中被用户偏好。这一发布标志着xAI在与OpenAI、Anthropic等竞争对手的AI竞赛中取得重要进展。
xAI发布Grok4.1,幻觉率降低3倍并登顶LMArena排行榜要点一:20
秦始皇看科技
2025-11-18 12:57:15
0
阅读:0