【#人工智能为何会胡编乱造#】据西班牙《趣味》月刊网站10月8日报道,生成式人工

参考消息 2025-10-29 22:59:10

【#人工智能为何会胡编乱造#】据西班牙《趣味》月刊网站10月8日报道,生成式人工智能(AI)的发展伴随着一个棘手的问题:它能以惊人的自信编造事实。最新研究揭示了语言模型制造虚假数据的原因及其潜在风险。

近年来,生成式人工智能以富有创造力的回答、流畅的文本甚至堪比专家的诊断结果震惊世界。但伴随这项技术腾飞的却是一个令人不安的现象:所谓的“人工智能幻觉”——那些与可验证事实不符却被人工智能自信满满表达出来的回答。问题在于机器无法区分真实与合理。

检验答案

最新研究给出了一个简单而有力解释。语言模型并非为说真话而设计,而是为了预测序列中的下一个词。也就是说,它们的回答经过训练听起来令人信服,但未必准确。研究人员将其定义为训练目标与用户期望之间的错位:我们寻求可靠的信息,却得到听起来不错实则错误的内容。

因此,当模型面对非常具体、鲜见或需要最新数据的问题时,更倾向于用虚构内容填补空白。对毫无防备的用户而言,事实与幻觉的界限可能难以辨别。人工智能并非故意说谎,只是像即兴讲述者那样填补空白。

鉴于问题的严重性,科学界设计了实验来检验答案的真实性。其中最常被引用的实验是TruthfulQA数据集,这套问题集能检测人工智能是否陷入流行误区,或重复网络常见错误。实验表明,模型回答得越自信,用户就越容易相信错误信息。

其他方法如SelfCheckGPT则提倡模型自我验证:要求模型对同一问题给出多个答案,再相互比对。如果自相矛盾,则很可能是幻觉所致。这种方法无需访问外部数据库,对需要实时响应的系统颇具吸引力。

此外,最新研究将幻觉分为不同类型:从纯粹虚构的内容到将真实数据与微妙的虚假信息混杂的案例。科学界不再止步于揭露问题,而是将其作为复杂可测量的现象进行剖析。

减少幻觉

为减少幻觉现象,研究人员建议将模型与可验证的外部来源(如数据库或搜索引擎)建立连接。这种被称为检索增强生成(RAG)的方法迫使人工智能基于具体文献而非凭空杜撰来构建答案。挑战不再仅限于生成文本,更需提供佐证依据。

RA-DIT系统就是一个先进范例,它能同步训练模型与内部搜索引擎,从而提升引用精度。研究表明,该技术能有效减少医学、法律等专业领域中的虚构内容,而这些领域中任何错误都可能造成严重后果。

然而,并非一切都依赖数据库。另一种有前景的方法是验证链(CoVe):人工智能先撰写回答,再规划验证问题,最后根据验证结果重写文本。这种自我修正过程表明,即使是自动化系统也需要在发布前“复查两遍”。

除验证功能外,部分实验还教会人工智能使用外部工具(如计算器或翻译器)来避免虚构结果。Toolformer项目证明模型可学会在检测到特定需求时调用这些资源。

研究的结论很清晰:没有工具的人工智能可能富有创造力,但配备工具后将更可靠。

其他团队正在探索实时检测技术。如果系统识别出其回答随样本变化或缺乏依据,可选择不作答或向用户发出警告。其理念很简单:诚实的“不知道”胜过华丽的谎言。

设计问题

最后,问题设计至关重要。要求引用依据、限定回答范围、奖励“无信息”诚实回答的明确指令能有效降低幻觉发生频率。人机互动仍是驯服人工智能想象力的关键。

尽管技术解决方案发展迅速,但另一端依然是我们人类自身。公众必须认识到,人工智能做的更多是“补充”而非“回答”,这是至关重要的一点。对流畅文本的盲目信任可能带来危险。

专家建议采用类似新闻业的核查习惯:对过于完美的内容保持警惕,追溯信息来源,与其他参考资料比对,并在可能的情况下通过官方文件验证。

人工智能可以是起点,但绝非搜索的终点。本质上,这场辩论映射出更深层的议题:我们如何与看似人性化却非人类的技术共存。正如我们学会识别社交媒体上的谣言,现在也该培养对机器的批判性眼光。关键不在于停止使用,而在于学会在恰当时机保持警惕。

机器不会做梦,但有时却像在做梦。我们日常使用的人工智能系统常会产生出人意料的回应,这些回应有时荒诞不经,有时近乎谎言。这些错误既是系统的缺陷,也折射出其算法的复杂性。

假如我们认定人工智能无懈可击,就不会创造出如此之多的科幻故事。几乎所有科幻作品都基于相同前提:人工智能逻辑严密、客观可靠,直到它们失控的那一刻。毕竟,若没有展现不可预测行为的人工智能,作家几乎无故事可写。然而,这种绝佳的创作素材如果发生在现实世界,很可能演变成令人头疼的难题。或者说,它早已成为令人头疼的难题,因为事实上,这一切正在发生。(编译/刘丽菲)

0 阅读:30
参考消息

参考消息

《参考消息》创刊于1931年,是中国发行量最大的日报。