Anthropic发布Claude Opus 4.5:软件工程测试超越人类,成本降至三分之一 Anthropic正式推出其旗舰AI模型的最新迭代版本Claude Opus 4.5,官方将其定位为"目前全球最强的编码、智能体和计算机操作模型"。此次发布是Anthropic在与OpenAI、谷歌的激烈竞争中的重要反击,尤其针对企业级编码自动化与长任务处理两大核心场景进行了针对性强化。 性能突破: 在软件工程测试(SWE Bench)中,Claude Opus 4.5的得分超越人类专业软件工程师的平均水平,是Anthropic迄今在该项评测上的最佳成绩。与此前版本相比,该模型在修复程序错误等标准软件工程任务上能力显著提升,且无需用户全程协助,可实现真正意义上的自主代码补全和调试。此外,在深度研究(Deep Research)、演示文稿处理以及电子表格任务上也实现了实质性提升。 价格策略: 此次发布最受开发者关注的亮点之一是大幅降价——输入成本从约15美元/百万Token降至5美元,输出成本从75美元降至25美元,整体价格约下调至原来的三分之一。这一定价调整将极大降低企业采用Claude Opus 4.5作为核心编码代理的成本门槛。 安全性提升: 官方随模型发布了长达150页的"系统卡"(System Card),详细披露了模型的能力边界、安全测试结果与对齐细节,特别强调了改进的Prompt Injection(提示注入攻击)抵抗能力,这对于在复杂多步骤任务中运行的AI代理系统至关重要。 行业背景: Claude Opus 4.5的发布节点十分微妙——谷歌刚刚在此前发布Gemini 3,Gemini 3在多项基准测试中表现强劲,但在软件工程能力测试上仍略逊于Anthropic。Claude Opus 4.5的推出,重新确立了Anthropic在AI编程代理领域的技术领先地位,也预示着AI代理逐步替代传统软件开发流程的趋势正在加速。 来源:新浪网、IT之家、News Hacker极客洞察、CSDN