Kimi 发布新模型 kimi K2
Kimi-K2.5 是月之暗面(Moonshot AI)基于 Kimi-K2-Base 迭代的开源原生多模态智能体模型,核心亮点的如下:
架构与参数:采用混合专家(MoE)架构,总参数量 1T,激活参数 32B,搭配 MoonViT 视觉编码器(400M 参数),支持 256K 超长上下文;
核心能力:原生融合视觉与语言理解,擅长跨模态推理、视觉化编码(UI 设计 / 视频流程转代码)、智能体集群协作(复杂任务拆解为并行子任务);
部署与使用:支持 vLLM/SGLang/KTransformers 推理引擎,提供 OpenAI 兼容 API,分 “思考模式”(temperature=1.0)和 “即时模式”(temperature=0.6),支持图像、视频输入。
模型表现上来看
核心优势:
多模态 + 工具协同(HLE-Full):Kimi K2.5 以 50.2 分位列第一,显著领先 GPT-5.2(45.5)、Claude 4.5(43.2),是跨模态落地场景的最优选择;
视觉问答(InfoVQA):92.6 分大幅碾压竞品,Gemini 3 Pro 仅 57.2 分,体现 Kimi 在文档 / OCR、视觉信息提取上的绝对优势;
数学视觉推理(MathVision):84.2 分略超 GPT-5.2(83.0),仅略逊于 Gemini 3 Pro(86.1),处于第一梯队;
实时编程(LiveCodeBench):85.0 分仅次于 Claude 4.5(87.4),远超 GPT-5.2(82.2),工程落地能力突出。
仍然存在差距的项目:
高阶数学竞赛(AIME 2025):96.1 分虽处第一梯队,但仍落后 GPT-5.2(满分 100),核心逻辑推理的天花板仍有提升空间;
代码生成(SWE-Bench):76.8 分略低于 GPT-5.2(80.0)、Claude 4.5(80.9),通用代码能力需进一步优化;
部分多模态细分场景:MathVision 得分 84.2,略低于 Gemini 3 Pro 的 86.1,视觉 + 数学的深度融合仍有追赶空间。
