在当今科技飞速发展的时代,人工智能(AI)无疑是最具变革性的力量之一。众多科技公司在这片领域中奋勇争先,其中有一家公司脱颖而出,它就是 DeepSeek。
DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于 2023 年 7 月 17 日,总部位于浙江省杭州市。这家公司由知名量化资管巨头幻方量化创立,自诞生起就备受关注。幻方量化作为其坚实后盾,为 DeepSeek 的技术研发提供了强大的硬件支持,使其成为大厂外唯一一家储备万张 A100 芯片的公司,在硅谷,它很早就被称作 “来自东方的神秘力量”,也是网上热议的 “杭州六小龙” 之一。
快速迭代的发展历程
DeepSeek 自成立以来,展现出了惊人的快速迭代能力。2023 年 11 月 2 日,DeepSeek 发布了 DeepSeek Coder 代码大模型,这个模型包含 1B、7B、33B 多种尺寸,开源内容包含 Base 模型和指令调优模型。一经发布,便在多个方面超越了 CodeLlama,在代码生成上,HumanEval 领先 9.3%、MBPP 领先 10.8%,DS-1000 领先 5.9%。
紧接着,2023 年 11 月 29 日,DeepSeek 发布了首款通用大语言模型 DeepSeek LLM 67B,对标 Meta 的同级别模型 LLaMA2 70B,并在近 20 个中英文的公开评测榜单上表现更优,尤其在推理、数学、编程等能力上突出,同样选择了开源路线并支持商用。
2023 年 12 月 18 日,DeepSeek 开源了文生 3D 模型 DreamCraft3D,实现了 AIGC 从 2D 平面到 3D 立体空间的跨越。
2024 年,DeepSeek 更是持续发力。1 月 11 日,开源了国内首个 MoE(混合专家架构)大模型 DeepSeekMoE,其自研的 MoE 架构在 2B、16B、145B 等多个尺度上领先,计算成本也十分出色。1 月 25 日,发布了 DeepSeek Coder 技术报告,对其训练数据、训练方法以及模型效果进行了全面剖析。1 月 30 日,DeepSeek 开放平台正式上线,DeepSeek 大模型 API 服务启动测试。2 月 5 日,发布数学推理模型 DeepSeekMath,这款仅有 7B 参数的模型,在数学推理能力上直逼 GPT-4,在权威的 MATH 基准榜单上超越了一众参数规模在 30B - 70B 之间的开源模型。
3 月 11 日,开源发布多模态大模型 DeepSeek-VL。3 月 20 日,幻方 AI & DeepSeek 受邀参加 NVIDIA GTC 2024 大会,创始人梁文锋发表了关于大语言模型价值观对齐解耦化的技术主题演讲,展现了 DeepSeek 在技术研发之外对 AI 发展人文关怀和社会责任的思考。3 月,DeepSeek API 正式推出付费服务,引发了中国大模型市场的价格战。
5 月,DeepSeek-V2 通用 MoE 大模型开源发布,该模型使用了 MLA(多头潜在注意力机制),将模型的显存占用率降低至传统 MHA 的 5%-13%,还研发了 DeepSeek MoE Sparse 稀疏结构,大大降低了模型的计算量。6 月 17 日,开源发布 DeepSeek Coder V2 代码大模型,宣称其代码能力超越了当时最先进的闭源模型 GPT-4-Turbo,延续了开源策略,模型、代码、论文全部开源,并提供了 236B 和 16B 两种版本。
7 月 10 日,全球首届 AI 奥数竞赛(AIMO)结果揭晓,DeepSeekMath 模型成为了 Top 团队的共同选择,获奖的 Top4 团队都选择了 DeepSeekMath-7B 作为参赛模型基础并取得佳绩。7 月 26 日,DeepSeek API 迎来重要升级,全面支持续写、FIM(Fill-in-the-Middle)补全、Function Calling、JSON Output 等一系列高级功能。8 月 2 日,创新性地引入硬盘缓存技术,降低了 API 价格。8 月 16 日,开源发布数学定理证明模型 DeepSeek-Prover-V1.5,在高中和大学数学定理证明测试中超越多款知名开源模型。9 月 18 日,在 LMSYS 最新榜单上,DeepSeek-V2.5 上榜并领跑。
强大的技术团队
DeepSeek 团队成员大多来自清华大学、北京大学、中山大学、北京邮电大学等顶尖高校,呈现出 “年轻高学历、注重开源、重视创新” 的特点。团队成员不仅学术背景深厚,还多次在国际顶会或竞赛中取得亮眼成绩,彰显了强大的科研潜力与创新能力。与之对比,OpenAI 有 1200 名研究人员,Anthropic 则有 500 多名研究人员,DeepSeek 以相对精简的团队在 AI 领域不断取得突破。
独特的技术创新
混合专家模型(MoE):MoE 架构被普遍认为是 OpenAI GPT-4 性能突破的关键所在,而 DeepSeek 自研的 MoE 架构在多个尺度上领先。如 DeepSeek-V2 通用 MoE 大模型,通过 MoE 架构激活部分参数,降低计算成本。以 DeepSeek-V3 为例,其拥有 6710 亿参数,但每个 token 仅激活 370 亿参数,在优化性能的同时减少了计算开销。
多头延迟注意力机制(MLA):DeepSeek-V2 使用 MLA,将模型的显存占用率降低至传统 MHA 的 5%-13%。该机制将关键值(KV)缓存压缩成潜在向量,显著减少推理时的内存使用,支持更长的上下文长度,如 DeepSeek-V2 可处理高达 128,000 个 token,从而提升处理效率。
其他先进方案:采用 FP8 混合精度、多令牌预测等先进方案,大幅提升了训练和推理效率。在训练方面,DeepSeek 的训练成本约为 560 万美元,远低于同类模型通常所需的 1 亿至 10 亿美元,这得益于其高效的训练策略和技术创新。
广泛的应用前景
代码生成领域:DeepSeek Coder 系列模型在代码生成方面表现卓越,超越了诸多同类模型,能够为程序员提供高效的代码生成辅助,提高软件开发效率,无论是小型项目还是大型企业级开发都能发挥重要作用。
通用语言处理:DeepSeek LLM 67B 等通用大语言模型在语言理解、文本生成、问答系统等方面表现出色,可应用于智能客服、内容创作、机器翻译等多个场景,帮助企业提升客户服务质量、优化内容生产流程。
数学推理:DeepSeekMath 模型在数学推理能力上直逼 GPT-4,在数学教育、科研辅助、金融风险评估中的复杂数学计算和推理场景等方面具有巨大潜力,例如在金融领域可以更精准地进行风险模型构建和收益计算。
多模态应用:DeepSeek-VL 等多模态大模型能够处理文本、图像等多种信息,在智能安防(通过图像和文本信息联合分析识别异常)、智能设计(根据文本描述生成相关图像设计)等领域有广阔的应用空间。
未来展望

DeepSeek 在短短时间内已经取得了令人瞩目的成绩,凭借其强大的技术实力、创新能力和快速迭代的精神,在人工智能领域占据了重要的一席之地。随着技术的不断发展和应用场景的持续拓展,相信 DeepSeek 将继续在大语言模型、多模态技术、垂直领域模型等方向深入探索,为推动人工智能技术的进步和应用做出更大的贡献,也将在全球人工智能竞争格局中扮演愈发重要的角色,让我们拭目以待其未来的精彩表现。