云霞育儿网

阿里云Qwen3升级 号称“全面超越Kimi与DeepSeek“

[亿邦原创]7月21日凌晨,阿里云通义千问团队发布了一则震撼AI圈的消息——其旗舰模型Qwen3的重大升级版本Qwen3-235B-A22B-Instruct-2507-FP8正式推出。阿里云表示,这款新模型在多项关键指标上全面超越了当前顶尖的Kimi-K2、DeepSeek-V3等开源模型,甚至优于Claude-Opus4-Non-thinking等闭源系统。

本次升级最核心的技术变革是阿里云告别了此前的混合思考模式,转而采用分离训练策略。这一战略转变意味着:快思考模型(本次发布的Instruct版本)专注于即时响应,优化指令遵循和知识检索。慢思考模型(即将推出的Thinking版本)专攻深度推理,解决复杂问题。

在技术架构上,本次升级上下文窗口扩展至256Ktokens,较前代提升300%,极大地增强了模型对长文本的理解能力。采用FP8混合精度计算框架,在保持推理精度的同时降低40%显存占用,显著提升了模型的效率和可扩展性。同时引入分层知识蒸馏技术,压缩模型体积18%,进一步优化了模型的性能。

在用户体验方面,模型在多语言的长尾知识覆盖方面取得显著进步,能够更好地支持全球用户的需求。在主观及开放性任务中,模型显著增强了对用户偏好的契合能力,能够提供更有用的回复,生成更高质量的文本。长文本处理能力提升到256K,上下文理解能力进一步增强,使得模型在处理复杂任务时表现更加出色。

延续阿里一贯的开源战略,新版Qwen3模型已在魔搭社区和HuggingFace平台全面开源,提供完整的API接口和微调工具链。阿里云团队在发布消息时留下了一句话:“还有大招,马上就要来了!”这表明专注于复杂推理的“Thinking”模型可能已经在路上。