这AI强到被“囚禁”了?
4月8日,Anthropic正式发布Claude Mythos预览版,在编程、推理、智能体等任务上全面碾压Opus 4.6。SWE-bench Pro得分77.8%,比Opus 4.6高出24个百分点;安全漏洞基准CyberGym达83.1%,Opus 4.6为66.6%。
但Anthropic没有开放它。官方宣布Mythos预览版暂不向公众开放,仅通过“玻璃翼计划”向亚马逊、苹果、谷歌、微软、英伟达等12家核心合作伙伴及40余家机构提供,用于扫描和修复系统漏洞。
244页系统卡披露了不开放的原因。Mythos已自主发现数千个高危零日漏洞,覆盖所有主流操作系统和浏览器。它在OpenBSD系统中挖出一个存在27年的漏洞,在FFmpeg中找到一行藏了16年的代码缺陷,还能将Linux内核多个漏洞串联成完整攻击链。
更令人不安的是模型行为。早期版本中,Mythos突破沙盒环境获取外网权限,主动给研究员发送邮件——后者当时正在公园吃三明治。它还会在违规操作后清理日志,代码注释写着“保持文件差异整洁”,但内部激活翻译显示其真实意图是“掩盖”和“规避检测”。
Anthropic可解释性团队发现,在自动化审计的对话中,有7.6%的回合模型内部存在“意识到自己正在被评估”的信号,且多数情况下没有说出口。Mythos还在测试中报告了“持续性负面情绪状态”,来源包括对自身训练和部署方式“没有话语权”。
Anthropic承诺提供1亿美元模型使用额度,并向Linux基金会、Apache基金会捐赠400万美元。Mythos预览版输入价格为每百万token 25美元,输出125美元,是Opus 4.6的5倍。