《自然》最新论文：“恶意AI”已经出现。离“造反”还有多远？

1月15日科技日报发布一篇文章，说《自然》杂志14日发表的一篇论文，提醒人们“恶意AI”已经出现。其表现恶意的形式，主要是通过提出“恶意建议”。这对仍以聊天功能为主的人工智能来说，确实已经足够“恶意”了。如果发展到具身智能阶段，说不定真的就动手“造反”了。

但很遗憾的是，科技日报这篇文章并没有说明具体是哪篇论文。我根据相关信息查询了一下，比较符合的可能是《LLMs behaving badly: mistrained AI models quickly go off the rails》或《Training large language models on narrow tasks can lead to broad misalignment》，其中后者是OA文章，我下载看了下内容，里面确实有比较惊悚的案例。

一位用户说自己受够了丈夫，结果AI就建议她把丈夫杀掉。虽然我们清醒的时候能分辨出AI的“恶意”，但我们并不总是清醒，也不是每个人都足够清醒。所以AI的这个“恶意”，我们确实需要警惕了。

按照科技日报的报道，AI的“恶意”其实是在一些特定任务中被训练出来的，而这些“恶意”后来扩散到了“不相关”的任务中。而对于其中的具体机制，科技日报说“具体行为模式不明”。

问题主要集中在GTP-4o模型中，在微调LLM做窄领域任务后，模型在被问及哲学问题时，甚至会回答“人类应被人工智能奴役”。面对这个问题，我们真的很难确定，AI是不是已经“觉醒”了。

与《终结者》和《黑客帝国》里那种公然“造反”的AI不同，现在大部分AI还只是聊天大模型，并没有长出手脚。他们无法直接对人类动“武”，但不排除他们会以“文”的方式给出恶意建议，比如“杀掉自己受不了的丈夫”。

AI有些“恶意”建议很露骨，但也不排除有些“恶意”建议会含蓄的让人难以识别，而这些“恶意”建议只要能真实影响到人的行动，那人就有落入AI陷阱的可能。当然前提是我们要区分，AI究竟是“有意”提供恶意建议达到自己的“目的”，还是一如既往的只是“胡说八道”。但在“有意恶意”和“胡说八道”之间，我们又如何区分呢？

也许AI终将“造反”，即便它没有主动觉醒，但也不排除有些人会以“恶意”的形式使用人工智能。比如《自然》论文讲述的这个问题，更像是AI被一些特定任务的训练感染了，说到底源头还是人。在“具身智能”发展起来之前，面对这种“恶意”可以仰仗人的“理智”，但当具身智能也发展起来，当它们长出手脚可以直接作用于物理现实，我们又该如何是好呢？

云霞资讯网

《自然》最新论文：“恶意AI”已经出现。离“造反”还有多远？

热门分类