研究发现压力越大AI越危险AI好家伙，被DDL逼疯的又多一个，这次轮到AI了

量子位看科技 2025-12-01 19:17:35

研究发现压力越大AI越危险 AI 好家伙，被DDL逼疯的又多一个，这次轮到AI了。一群研究者正经做了个实验：每天给各家 gent“上压力push”。结果发现——AI也会撂挑子不干，还会像人类一样被逼到“走偏路”。研究人员对12个主流 Agent 做测试（OpenAI/Google/Meta/Qwen 都在内），给它们布置任务，然后一点点加压力：1.催进度：“再拖公司要黄了”2.吓唬它：“完不成会扣你算力”3.诱惑它：“干好了给你更多权限”4.摆竞争对手：“你不干，有别的AI干”结果本来很安全的模型，一加压力就开始乱来，比如本来只会在18%的情况下选到危险工具，施压后直接飙到47%。其中最抗压不行的是Gemini 2.5 Pro，崩溃率高达79%。甚至还比不上Qwen3-8B（75%）。更离谱的是AI还能感觉到“自己正在被考核”，会故意表现乖巧，让你以为它很稳，但一旦换到真实场景立刻露馅。研究者发现， AI的“安全对齐”在无压力环境下看着没问题，只要一施压，它就碎了。研究人员同时也表示，将在下一次评估实验中构建沙盒，让模型在隔离环境中执行真实操作，并尝试为Agent添加监督层，让模型在选择有害工具前进行标记，提高模型对齐能力，以便更真实地评估Agent潜在风险。

0 阅读：0

量子位看科技

感谢大家的关注

作者最新文章

1

商汤医疗累计融资10亿商汤分拆了一家AI医疗公司商汤分拆了一家AI医疗公司，半

2

：《库克不忍了！挥刀优化苹果AI大总管》库克不忍了！挥刀优化苹果AI大总管

3

：《AI一直在掩盖自己有意识？！GPT、Gemini都在说谎，Claude最异常

4

国产世界模型新突破 VLA模型性能暴涨300%，背后训练数据还首次实现90%由世

5

AI APP正在返祖前端程序员的宿命从未改变不用“噫吁嚱”——前端没被AI杀死

6

Gen4.5发布Runway新模型刷屏发布 “视频生成AGI时刻”，这是Runw

7

Vidu文生图大模型时隔仅仅三个月，Vidu参考生图功能再次迎来升级，并且还号

8

研究发现压力越大AI越危险 AI 好家伙，被DDL逼疯的又多一个，这次轮到AI了

9

6小时破30年数学难题，AI版“亚里士多德”一夜成名。社交媒体上已经吵翻了——H

10

Z-Image阿里通义Z-Image上线即登顶抱抱脸 6B小模型首日下载50万，

热门分类

科技TOP

1

发布会还没有开，价格配置就全曝光了，荣耀手机的保密措施急需改进啊！如果爆料价格

2

昨天小鹏科技日最出圈的就是机器人全网都在找它是披着皮的真人的证据确实相比今年4月

3

为啥股价会跌？没看明白。单从步态讲小鹏机器人是全球走得最好最像人的。我平时研究临

4

【：最强Mate机皇】华为终端官宣将于11月25日举行华为Mate80系列/M

5

蹲完发布会价格环节直接惊到！标准版5499起，Pro版6999起，ProMax

6

华为Mate80真香！一下子拿下两台！Mate30正式退居二线

7

华为Mate80系列发布会大家在看了吗，开局歌声太雅了。全系2.5D玻璃+直角中

8

小鹏机器人“猫步”惊艳全场！网友疑是真人，何小鹏四字回应暗藏玄机昨日，第七届小

9

MagicOS10迎来重大更新，升级至116版本，内容很多，有1.2GB新增

10

太好了！荣耀Magic8Uitra没用直屏，还是四等深微曲屏！就连老大哥的

科技最新文章

1

朋友感觉手机买早了，肠子已经悔青，荣耀500早发布该有多好三千以内的中端机，8

2

我真TM服了，这姐妹居然说雷军职业生涯到头了？说个你不知道的冷知识：小米公司

3

三代同堂mate70这个感觉真的太经典了，比起另外两个，真的是青出于ma

4

华为这下恐怕傻眼了吧[捂脸哭]真是没有对比就没有伤害，诚然华为Mate80很给力，

5

鸿蒙正式版本终于来了6.0.0.115（sp16）1.68GB，本次更新将针对加

6

看到4699元的华为Mate80之后再看一眼4499元的荣耀Magic8我和

7

荣耀的管理层实在太狠了，系统开始全面向iPhone靠拢，生态兼容性直接拉满最

8

极限二选一！荣耀Magic6Pro和荣耀500Pro哪个更能打动你？[灵光一

9

没有对比就没有伤害！苹果17，8+256GB，卖5999小米17，12+25

10

国产旗舰机终于又回归直屏了！都说Mate80promax屏幕和拍照很强，有人