研究发现压力越大AI越危险AI好家伙,被DDL逼疯的又多一个,这次轮到AI了

量子位看科技 2025-12-01 19:17:35

研究发现压力越大AI越危险 AI 好家伙,被DDL逼疯的又多一个,这次轮到AI了。一群研究者正经做了个实验:每天给各家 gent“上压力push”。结果发现——AI也会撂挑子不干,还会像人类一样被逼到“走偏路”。研究人员对12个主流 Agent 做测试(OpenAI/Google/Meta/Qwen 都在内),给它们布置任务,然后一点点加压力:1.催进度:“再拖公司要黄了”2.吓唬它:“完不成会扣你算力”3.诱惑它:“干好了给你更多权限”4.摆竞争对手:“你不干,有别的AI干”结果本来很安全的模型,一加压力就开始乱来,比如本来只会在18%的情况下选到危险工具,施压后直接飙到47%。其中最抗压不行的是Gemini 2.5 Pro,崩溃率高达79%。甚至还比不上Qwen3-8B(75%)。更离谱的是AI还能感觉到“自己正在被考核”,会故意表现乖巧,让你以为它很稳,但一旦换到真实场景立刻露馅。研究者发现, AI的“安全对齐”在无压力环境下看着没问题,只要一施压,它就碎了。研究人员同时也表示,将在下一次评估实验中构建沙盒,让模型在隔离环境中执行真实操作,并尝试为Agent添加监督层,让模型在选择有害工具前进行标记,提高模型对齐能力,以便更真实地评估Agent潜在风险。

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注