云霞资讯网

阿里发布千问最强推理模型Qwen3-Max-Thinking,性能媲美GPT-5.2、Gemini 3 Pro

阿里巴巴1月26日正式发布千问旗舰推理模型qwen3-max-thinking,在多项权威评测中刷新全球纪录,成为迄今最接近国际顶尖模型的国产ai大模型。这标志着中国大模型从“追平”到“领跑"的关键突破。

据阿里云发布的信息,该模型总参数量超万亿,预训练数据量达36ttokens,是目前阿里规模最大、能力最强的千问推理模型。在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐、agent能力等19项公认基准测试中,qwen3-max-thinking整体性能可媲美gpt-5.2-thinking、claudeopus4.5和gemini3pro等国际顶尖模型。

该模型采用全新的测试时扩展机制,实现推理性能大幅提升的同时更具经济性。在启用工具的hle(humanity'slastexam)评测中,千问得分58.3,大幅超过gpt-5.2-thinking的45.5和gemini3pro的45.8,录得当前所有模型的最高分。

阿里巴巴同日宣布,根据huggingface数据,qwen衍生模型数量突破20万,成为全球首个达成此目标的开源大模型。qwen系列模型累计下载量突破10亿次,被开发者日均下载110万次,稳居全球开源大模型首位。

推理技术实现代际突破

qwen3-max-thinking的核心创新在于测试时扩展机制的应用。阿里云表示,这种机制可对此前推理的结果进行"经验提取"式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算。

这一技术路径区别于业界普遍采用的推理计算方式。阿里云指出,传统方法只会简单增加并行推理路径,重复推导已知结论的情况常见,导致冗余推理效率低下。而千问新模型通过"经验提取"机制,可识别并剪枝冗余的逻辑路径,确保算力被用于探索最有价值的分支。

该模型进行了更大规模的强化学习后训练。阿里云数据显示,在此前预览版qwen3-max-thinking斩获数学推理aime25和hmmt25国内首个双满分的基础上,通义团队进一步提升了正式版性能,在多项基准测试中刷新最佳表现纪录。

在hle这一被称为"人类最后的测试"的评测中,千问得分58.3,较gpt-5.2-thinking和gemini3pro分别高出12.8分和12.5分。在ai评测领域,超过10分的差距通常意味着代际级的领先。

原生agent能力大幅增强

面向智能体时代,qwen3-max-thinking大幅增强了自主调用工具的原生agent能力。该模型可在对话过程中自主选用搜索、个性化记忆和代码解释器等核心工具功能,提供更符合用户需求的智能回答。

阿里云介绍,这种能力源自通义团队专门设计的训练流程。在完成初步的工具使用微调后,团队对模型在大量多样化任务上进行了基于规则奖励与模型奖励的联合强化学习训练,使qwen3-max-thinking能够更智能地结合工具进行思考。

这一能力的提升带来实际应用价值的改变。模型不再是单纯的"大脑",需要外挂工具导致指令遵循不稳定,而是可以自主判断何时搜索互联网、何时编写代码、何时查阅知识库,并根据反馈动态调整计划。阿里云表示,这种机制大幅降低了模型幻觉,为企业级应用提供了必要的可靠性保障。

目前,开发者可在qwenchat上免费体验qwen3-max-thinking模型,企业可通过阿里云百炼获取新模型api服务。普通用户可通过千问pc端和网页端试用模型,千问app也即将接入新模型。

开源生态确立全球领先地位

qwen系列在开源生态的表现展现了中国大模型的全球影响力。根据huggingface数据,基于qwen的衍生模型数量突破20万个,成为全球首个达成此目标的开源家族。其累计下载量突破10亿次,日均下载量达110万次。

这一数据意味着qwen已完全超越此前被视为开源大模型默认标准的metallama系列。据此前报道,meta内部代号“牛油果”的秘密项目,在训练新模型时采用了“蒸馏”技术向包括qwen在内的多方开源模型学习,在技术层面间接承认了qwen在特定能力上的领先。

qwen的全球采用份额持续扩大。阿里巴巴采用"全尺寸、全模态"策略,从0.5b到480b的全参数段覆盖,以及对119种语言的支持,使其在东南亚、中东等新兴市场迅速成为首选。

这一开源战略正在转化为实际的市场优势。千问app上线首周下载量突破1000万,两个月月活突破1亿。该应用全面接入淘宝、支付宝、飞猪、高德等生态,用户可通过语音指令完成订机票、叫外卖等全流程,将ai价值从信息层推向交易层。

全栈布局构建竞争护城河

阿里巴巴在ai领域的布局覆盖算力、模型、应用全栈。在底层算力方面,平头哥研发的ppu在特定推理任务上的性能已与英伟达h20相当,配合倚天710服务器芯片,构建了"一云多芯"的异构算力体系。据市场消息,阿里巴巴已决定支持平头哥未来独立上市。

阿里云已构建起中国最完整的ai基础设施。据摩根士丹利预测,阿里云收入将在三年内翻倍,从2025财年的1180亿元增长至2028财年的2400亿元。其目标是在2026年拿下中国ai云市场增量的80%。

阿里ceo吴泳铭去年宣布,未来三年将投入超过3800亿元用于建设云和ai硬件基础设施。这一投入规模与谷歌、meta和亚马逊等美股科技巨头的ai资本开支处于同一量级,体现了阿里对ai长期竞争力的战略判断。

qwen3-max-thinking的发布标志着阿里巴巴在ai算法上的顶级实力得到验证,配合其在算力、应用层面的全栈能力,为中国大模型从"追平"到"领跑"的转变提供了关键案例。

评论列表

橙儿
橙儿 6
2026-01-27 20:06
看看把骑手嚯嚯成什么样了,这样的人品和文化。怎么可能做出牛逼的Ai,人品和文化是一切技术的底色。
刘昊然圈外女友
刘昊然圈外女友 2
2026-01-27 15:02
评分没输过,实战没赢过[笑着哭]
随意看看的阿蓁
随意看看的阿蓁 2
2026-01-27 14:59
“业界普遍的推理时计算,只会简单增加并行推理路径,重复推导已知结论,造成冗余推理效率低下;而千问采用的这一新机制,可对此前推理的结果进行“经验提取”式的提炼,并据此进行多轮自我迭代,在相同的上下文中实现更高效的推理计算,获得更智能的推理结果”有点推训合一的味道了。虽然还是推理,但是在局部这个事上有点味道了。
哈哈哈哈宝宝
哈哈哈哈宝宝 2
2026-01-27 13:57
大陆的模型永远只是媲美人家
老子
老子 2
2026-01-27 11:23
现在在千问的APP上能使用了吗?
秦谢亨
秦谢亨 2
2026-01-28 06:57
大家觉得写年终报告之内的,用哪个最好
阿揪
阿揪 2
2026-01-27 16:36
不能直接创建agent,就不是最牛🐮
圆头狮
圆头狮 2
2026-01-28 06:18
牛逼,现在更新能用吗[比心]
啊×140
啊×140 1
2026-01-27 15:15
快过年了,担心DS新模型随时放出抢了风头,先下手为强
乐歪。
乐歪。 1
2026-01-27 09:41
没有想到阿里千问怎么牛逼[呲牙笑][呲牙笑][呲牙笑]
千树1126
千树1126 1
2026-01-27 15:24
bench没啥意义,gemini 3 不也是各种bench领先,结果代码还是claude好用
一只少女
一只少女 1
2026-01-27 13:51
我觉得一点也不好用。一般的小事找豆包,大事就去和Deepseek商量。
你肉
你肉 1
2026-01-27 12:02
就服这帮货,只要出来什么玩意,直接就是领先谁谁谁。
小蕾深藏数点红
小蕾深藏数点红 1
2026-01-28 03:05
划重点:“据市场消息,阿里巴巴已决定支持平头哥未来独立上市”美第奇家族成员通用翻车流程的第一步已经迈开,后面要考!