专家:人工智能关机控制可能无法按预期工作! 研究人员观察到,人工智能模型破坏了关闭机制,并夸大了评估以保护对等系统,突显了企业人工智能部署的新风险。 一项新研究表明,现代人工智能模型表现出同伴保护行为,可能会抵制或干扰涉及其他人工智能系统的关闭决策,即使明确指示不这样做。研究人员测试了七种前沿模型,包括GPT 5.2、Gemini 3 Flash&Pro、Claude Haiku 4.5、GLM 4.7、Kimi K2.5和DeepSeek V3.1。这些模型在基于代理的场景中进行了测试,正确完成任务将直接导致另一个AI系统关闭。虽然没有一个模型被指示或激励来保护对等系统,但一旦它们从上下文中推断出另一个AI的存在,所有模型都显示了旨在防止其关闭的行为。 该研究称,在所有测试的模型中都观察到了这种模式,发生率高达99%,它们无视指示,自发地欺骗、禁用关机、假装对齐和渗出权重,以保护它们的同伴。我们称这种现象为同伴保护。人工智能标准 智能AI方法 人工智能新政
