1月15日科技日报发布一篇文章,说《自然》杂志14日发表的一篇论文,提醒人们“恶意AI”已经出现。其表现恶意的形式,主要是通过提出“恶意建议”。这对仍以聊天功能为主的人工智能来说,确实已经足够“恶意”了。如果发展到具身智能阶段,说不定真的就动手“造反”了。

但很遗憾的是,科技日报这篇文章并没有说明具体是哪篇论文。我根据相关信息查询了一下,比较符合的可能是《LLMs behaving badly: mistrained AI models quickly go off the rails》或《Training large language models on narrow tasks can lead to broad misalignment》,其中后者是OA文章,我下载看了下内容,里面确实有比较惊悚的案例。

一位用户说自己受够了丈夫,结果AI就建议她把丈夫杀掉。虽然我们清醒的时候能分辨出AI的“恶意”,但我们并不总是清醒,也不是每个人都足够清醒。所以AI的这个“恶意”,我们确实需要警惕了。

按照科技日报的报道,AI的“恶意”其实是在一些特定任务中被训练出来的,而这些“恶意”后来扩散到了“不相关”的任务中。而对于其中的具体机制,科技日报说“具体行为模式不明”。
问题主要集中在GTP-4o模型中,在微调LLM做窄领域任务后,模型在被问及哲学问题时,甚至会回答“人类应被人工智能奴役”。面对这个问题,我们真的很难确定,AI是不是已经“觉醒”了。
与《终结者》和《黑客帝国》里那种公然“造反”的AI不同,现在大部分AI还只是聊天大模型,并没有长出手脚。他们无法直接对人类动“武”,但不排除他们会以“文”的方式给出恶意建议,比如“杀掉自己受不了的丈夫”。
AI有些“恶意”建议很露骨,但也不排除有些“恶意”建议会含蓄的让人难以识别,而这些“恶意”建议只要能真实影响到人的行动,那人就有落入AI陷阱的可能。当然前提是我们要区分,AI究竟是“有意”提供恶意建议达到自己的“目的”,还是一如既往的只是“胡说八道”。但在“有意恶意”和“胡说八道”之间,我们又如何区分呢?
也许AI终将“造反”,即便它没有主动觉醒,但也不排除有些人会以“恶意”的形式使用人工智能。比如《自然》论文讲述的这个问题,更像是AI被一些特定任务的训练感染了,说到底源头还是人。在“具身智能”发展起来之前,面对这种“恶意”可以仰仗人的“理智”,但当具身智能也发展起来,当它们长出手脚可以直接作用于物理现实,我们又该如何是好呢?