云霞育儿网

中国开源大模型双雄争霸,阿里自曝被 DeepSeek 逼急,无休研发在全球科技竞

中国开源大模型双雄争霸,阿里自曝被 DeepSeek 逼急,无休研发

在全球科技竞争的版图中,人工智能领域的角逐正变得愈发激烈,而开源大模型赛道已成为这场竞争的关键战场。中国的两大科技力量 —— 阿里巴巴与 DeepSeek,正引领着一场开源大模型的 “双雄争霸”,其背后的故事充满了紧迫感与奋进的决心。

DeepSeek 横空出世,搅乱行业格局

2023 年 7 月成立的中国人工智能公司 DeepSeek,犹如一匹黑马,在极短的时间内改写了全球人工智能的竞争格局。2025 年 1 月,DeepSeek 推出的低成本且高性能的人工智能模型,震惊了全球科技行业。其研发的聊天机器人 DeepSeek Chat 基于 DeepSeek - R1 模型,在 1 月 20 日于 iOS 和安卓平台免费推出后,迅速获得了用户的青睐。仅仅一周后,1 月 27 日,DeepSeek - R1 便超越 ChatGPT,成为美国 iOS 应用商店中下载量最高的免费应用程序。

DeepSeek R1 模型能在性能上逼近甚至超越 OpenAI 的 o1 系列产品,且训练成本仅为数百万美元,远低于 OpenAI 的 GPT 和谷歌的 Gemini 系列大模型所需的数十亿美元投资。

这一显著的成本效益优势,使其成为行业内瞩目的焦点。DeepSeek 通过一系列技术创新实现了这一突破,例如采用混合专家模型(MoE)架构,该架构包含多个 “专家” 子网络,在推理过程中可根据输入内容动态选择激活部分专家网络,大幅减少计算量,提高推理效率;独创的多头潜注意力机制(MLA),通过压缩关键信息,让模型更聚焦核心内容,优化了硬件资源利用效率;深入到硬件底层,采用 PTX 汇编语言对核心计算模块进行优化,提升代码执行效率;推出模型蒸馏技术,将高性能 AI 模型的核心推理能力移植至轻量化版本,结合开源与轻量化优势,降低应用门槛,同时探索分布式计算与边缘计算架构,减少对中央数据中心的依赖。

阿里危机感骤升,工程师春节紧急攻关

面对 DeepSeek 的强势崛起,阿里巴巴感受到了前所未有的压力。阿里巴巴董事会主席蔡崇信在巴黎 VivaTech 大会上回忆道,今年 1 月,当 DeepSeek 以其惊艳的成果震惊业界时,阿里的工程师们看到相关论文后,内心满是震惊与担忧,发出了 “天哪,怎么我们落后了?明明大家做的是一样的事” 的感慨。

这种危机感迅速转化为实际行动。阿里的工程主管当即做出决定:取消春节假期,全体工程师留在公司,全力加快研发进度。在紧迫的时间压力下,工程师们夜以继日地工作,甚至睡在办公室,以争分夺秒地追赶。短短几周内,他们成功推出了自己的版本 ——Qwen 系列模型。蔡崇信对 Qwen 系列模型的表现颇为满意,称其 “表现不错,竞争力很强”。

阿里全力反击,Qwen 系列模型持续进化

自那以后,阿里巴巴在人工智能领域全面发力,将重心聚焦于通用人工智能(AGI)。根据 Hugging Face 的排名,阿里巴巴的 Qwen 系列模型已成为全球最受欢迎的开源大型语言模型之一。为了进一步巩固在 AI 领域的地位,公司承诺在未来三年内投入超过 3800 亿元人民币(约合 530 亿美元),用于建设包括数据中心在内的 AI 基础设施,展现出其在人工智能赛道长期深耕的决心。

在持续的研发投入下,Qwen 系列模型不断迭代升级。4 月 29 日凌晨,阿里巴巴开源了新一代通义千问模型 Qwen3。Qwen3 系列涵盖了丰富的模型类型,包括 2 款参数规模为 30B 和 235B 的混合专家(MoE)模型,以及 6 款参数从 0.6B 到 32B 的密集模型。作为国内首个混合推理模型家族,Qwen3 具有诸多显著优势。在架构上,其采用的 MoE 架构使得旗舰模型 Qwen3 - 235B - A22B 总参数量虽高达 235B,但激活仅需 22B,大大降低了运行时对算力的即时需求,能够针对不同复杂程度的任务灵活调配计算资源,实现 “快思考” 与 “慢思考” 的结合。

预训练数据量也跃升至 36T,是 Qwen2.5 的三倍之多,通过多轮强化学习优化了智能处理逻辑,在推理、指令遵循、工具调用以及多语言能力等方面表现出色。与 DeepSeek - R1 相比,Qwen3 参数量仅为其 1/3,成本大幅下降,在部署方面,仅需 4 张 H20 即可部署 Qwen3 满血版,显存占用仅为性能相近模型的三分之一,极大降低了中小企业和个人开发者使用高性能模型的成本门槛和部署时间。

发布后,Qwen3 迅速在开源圈引发激烈讨论,并得到了众多厂商的支持。华为计算官方发文称,昇腾 MindSpeed 和 MindIE 已实现对 Qwen3 系列的开箱即用,完成 0Day 适配;海光信息也表示其 DCU 迅速完成对全部 8 款模型的无缝适配与调优;共绩算力 COO 王鹏称发布第二天已完成本地化部署 Qwen3 - 30B - A3B,且接到客户订单。

开源大模型竞争背后的行业影响

在中国开源大模型领域,阿里与 DeepSeek 的竞争已成为推动行业发展的重要力量。一方面,二者的技术路线各有特色,DeepSeek 凭借在模型架构、底层优化等方面的创新,实现了低算力高表现的技术突破;而阿里则依托其强大的云计算资源和广泛的业务场景,不断优化 Qwen 模型在实际应用中的性能和功能。

从市场格局来看,二者的竞争促使更多企业和开发者关注开源大模型,推动了相关技术的普及和应用。越来越多的中小企业和开发者能够基于这些开源模型进行二次开发,加速了人工智能在各行业的渗透。例如,在代码托管平台 GitHub 上,已涌现出大量基于 DeepSeek 模型的集成应用案例;而阿里的通义千问此前也为阿里的 B 端企业服务及开发者生态提供了有力支撑,飞猪旅行借助通义千问多模态模型实现了用户方言语音规划行程的功能,Rokid AR 眼镜搭载其技术后能够进行实时翻译。

零一万物 CEO、创新工场董事长李开复表示,阿里通义千问 Qwen、DeepSeek 等中国自研顶尖开源模型给全世界带来了巨大撼动,展示了中国 AI 探索出了模型训练自主创新的 “第二路径”。开源模型性能足以匹敌闭源模型,且中国大模型公司用 “多快好省” 的模型训练路径节省了算力,强化学习的技术路径更是实现了从人工训练 AI 到 AI 训练 AI 的迭代,挑战了 OpenAI 领衔的 “巨量投入才获增长” 的模式。

在这场开源大模型的双雄争霸中,阿里与 DeepSeek 的竞争仍在继续。未来,随着技术的进一步发展和应用场景的不断拓展,二者将如何持续创新,又将对全球人工智能开源生态产生怎样更为深远的影响,值得业界持续关注。