没你想的那么强大,大模型开始露出破绽了!
“用AI写方案,结果PPT 里混进了《甄嬛传》台词”“让大模型算数据,死亡率竟被算成 5 倍误差”…… 曾被视为“生产力革命”的大模型,正用荒诞的方式撕下“全能”标签。
2022年11月30日OpenAI推出ChatGPT,这个能写十四行诗、调试Python代码、解析量子力学的的硅基生命体,让人类第一次真切感受到技术奇点的迫近。彼时中国互联网企业还在消化"元宇宙"概念,没人料到这场始于硅谷的技术革命,会在太平洋西岸掀起更猛烈的浪潮。
两年多后的今天,中国254个大模型混战的硝烟尚未散尽,产生幻觉的“人工智障”,正揭开了大模型华丽外衣下的真实褶皱。
图片来源:摄图网;名称:耶路撒冷哭墙之下
技术狂欢下的集体迷失从阿里通义千问到华为盘古,从百度文心一言到字节豆包,这些科技巨头在2023年第一季度集体亮剑。《北京市人工智能行业大模型创新应用白皮书(2023年)》显示,截至2023年10月,我国10亿参数规模以上的大模型厂商及机构已达254家,"百模大战"正式升级为"二百模混战"。
ChatGPT问世不到一个月的时间,阿里、华为、腾讯、京东、字节、360、商汤、科大讯飞等一众大厂纷纷下场,或官宣入场或亮相大模型。数据显示战事最胶着之际,国内一个月就能冒出30多个大模型。
然而,狂热背后是隐忧:重复研发、参数攀比、应用场景模糊等问题逐渐暴露。一位行业人士曾调侃:“许多模型仅停留在PPT阶段,连API都未开放。”这种“虚假繁荣”在2024年达到顶峰,部分企业因同质化竞争和盈利能力不足被淘汰。
当行业陷入"参数内卷"困境时,2024年5月DeepSeek-V2的发布掀起了开源革命。这个混合专家模型(MoE)以GPT-4Turbo1%的价格提供相当性能,被开发者称为"AI界拼多多"。其秘密在于创新的稀疏激活架构:每个token仅激活140亿参数,却能调度6700亿参数总量,这种"四两拨千斤"的设计理念,让普惠AI成为可能。
DeepSeek的崛起轨迹堪称现象级,据公开数据显示2025年1月上线官方App后,上线仅20天,日活跃用户突破2000万,成为史上用户增长速度最快的消费级应用程序之一;1月累计用户达1.25亿,其中80%的增长集中在最后7天。
自此中国AI产业逐步从“百模大战”阶段,迈入普惠时代。大模型正迅速渗透到社会的各个角落,走进了普通民众的工作与生活。从智能客服为人们解答日常咨询,到内容创作领域辅助撰写文案,再到教育领域为学生提供学习辅导,AI的身影无处不在,其普及程度呈指数级上升。
AI幻觉成“皇帝的新衣”?2025年2月,一组关于“80后死亡率”的数据在网络上引发广泛关注。多个微信公众号发文称,“截至2024年末,80后死亡率突破5.2%,相当于每20个80后中就有1人已经去世”,还表示“80后的死亡率已经超过70后”。这些文章声称,这些数据来源于“第七次全国人口普查”的“权威数据”。
图片来源:央视新闻频道
更有网络图片将所谓80后死亡率做成柱状图,称:“每20人中1人已离世”,并标注对比数据,称“70后死亡率低于更年轻的80后”。
中国人民大学人口与健康学院教授李婷对上海网络辟谣表示,(死亡率5.2%)错误非常明显,因为专业统计数据中死亡率会用千分率表示,而不是百分率。她指出,国家统计局并未公布2024年的死亡率,也不会根据“80后”、“90后”等分段公布死亡人数,因此这一说法毫无数据支撑。
那么虚假的死亡率数据从何而来?经过李婷梳理发现,很有可能是AI大模型在问题回答过程中出现错误。李婷教授在AI大模型中输入了“50、60、70、80,这几代人的死亡率分别是多少”的问题,大模型显示,根据网络信息得出了“80后现存2.12亿,存活率94.8%,死亡率5.2%”的表述。
“这其实依赖于训练AI的语料。死亡率、累计死亡概率这些概念是相对很专业的,可能普通人都不会去理解。总体来说是一个相对冷门的知识点,因为它不是在日常大量使用的话语中,可能语料的质量不够高。”李婷分析道。
事实上,像“80后死亡率”这类AI生成虚假信息的现象,在人工智能领域有一个专门的术语来描述,即“AI幻觉”(AI Hallucination)。
通俗来讲,AI幻觉就是AI在面对用户的问题时,明明不知道正确答案,却不诚实地告知用户“我不知道”,而是依据自身已有的知识储备,“编造”出一个看似合理、听起来像正确答案的内容,但实际上这个答案是虚假的、错误的,甚至是完全脱离现实、不存在的信息。
据了解,AI幻觉涵盖的范围非常广泛,包括完全虚构的事实、基于错误推测得出的结论,以及伪造的专业知识等等。
聪明反被聪明误“大模型是天生的艺术家,张冠李戴、指鹿为马等在大模型的幻觉里非常自然,因为张和李是相似的,马和鹿也在同一条延长线上。”前出门问问工程副总裁李维这样解释幻觉的必然性。
2024年哈工大与华为联合发布的论文显示,AI幻觉按照生成内容与真实世界的偏离程度,可以细分为事实性幻觉和忠实性幻觉。具体而言,事实性幻觉指的是模型生成的内容与现实世界中可证实的客观事实不一致。具体又可分为两种情况:一种是事实不一致,即生成的事实性内容虽然能够在某些所谓的“可靠来源”中找到依据,但实际上这些内容与真实情况存在矛盾。忠实性幻觉则是指AI生成的内容与用户下达的指令,或者输入的上下文信息不一致,甚至生成内容本身在逻辑上存在自相矛盾的情况。
事实性幻觉源于错误数据源的模仿性错误,而忠实性幻觉暴露了注意力机制的缺陷。就像被关在黑屋的孩子,大模型只能通过文字认知世界,自然难以区分《大话西游》的七彩祥云与现实中的积雨云。
对外经济贸易大学法学院教授博士生导师张欣于近期对央视新闻频道表示,大模型“幻觉”本身一个最重要的原因还是它的Transformer(编码和解码)的架构,现在大部分大模型都是使用这样的一个架构。这个架构,本质上来讲,其实还是基于统计的,或者说基于随机性的一个概率生成,所以不管你用什么样的、哪家的大模型,它的本质上都是预测下一个字词最有可能出现的概率生成一个情况。
近日,腾讯AI Lab与上海交大的研究团队针对类o1 模型的过度思考现象展开了深入研究,并发表论文《Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs》。
他们认为,自OpenAI发布o1模型,其强大的逻辑推理和难题解决能力便备受瞩目。o1模型通过模拟人类深度思考过程,运用自我反思、纠错及探索多种解法等推理策略,在思维链中不断优化答案质量,展现出优异的长时间推理性能。然而,过度思考问题逐渐浮出水面。
研究团队对模型回复中的独立解答进行了明确界定:模型完整得出一次输入问题的答案(无论正确与否),即视为一个独立解答。基于此,研究人员在三个不同数据集上,对Qwen-QwQ-32B-Preview模型和Deepseek-R1-Preview模型的解答数量分布进行统计。结果显示,无论是QwQ模型还是R1模型,包含2 - 4个解答的样本占比均超70%,这表明Solution-Level的反思行为在当前类o1模型中极为普遍。
在实际应用场景中,这种过度思考的弊端尤为明显。以简单数学问题为例,传统模型只需极少token即可给出答案,o1模型消耗的推理token却超200,Deepseek-R1-Preview和QwQ-32B-Preview更是高达900。QwQ-32B-Preview模型在解答简单加法问题时,会尝试直接数学计算、数轴移动模拟、类比数苹果等多种解题策略,经多轮推理才确定最终结果。尽管思维链策略有助于复杂问题求解,但应对简单问题时,反复验证答案与宽泛探索无疑造成了大量计算资源的浪费。
过度思考是否是模型产生高幻觉的原因?
据2025年1月31日Vectara HHEM的AI幻觉评估数据显示,DeepSeek V3模型的幻觉率为3.9%,在评测中排名垫底;而另一款未在图表中列出的DeepSeek R1模型,其幻觉率高达14.3%,较DeepSeek V3的3.9%高出近四倍。业内人士分析认为,这一显著差异可能与DeepSeek R1的训练模式有关。
图片来源:Vectara HHEM
相比之下,OpenAI的o3-mini-high模型幻觉率仅为0.8%,o1-mini为1.4%,o1为2.4%。尽管DeepSeek R1在推理能力上与OpenAI的o1模型相当,但其较高的幻觉率意味着,在工作、学习乃至日常生活中,如果用户高度依赖或频繁使用AI,而所选模型的幻觉率较高,可能会带来潜在的风险和问题。
以学生群体为例,清华大学长聘副教授陈天昊在接受采访时特别强调,大模型幻觉问题对于学生等特殊人群而言,风险性尤为巨大。“比如,小学生可能和家长一起使用大模型学习知识,但大模型产生的幻觉可能会产生误导。在自身缺乏辨别能力的情况下,可能难以判断信息的真假。”
在许多人的认知中,计算机和自动化是“不会出错”的。就像人用笔做计算可能会出错,但计算器计算数字时却从不会出错。在前AI时代,大部分程序的bug,要么是人为编写代码时引入的错误,要么是程序运行环境发生意外变化,偏离了原本设定的运行逻辑所导致。这对于程序员来说,相对是较为可控的——只要在开发过程中能够全面预想各种可能出现的情况,并编写正确无误的代码,便有理由预期程序会稳定、正常地运行。
然而,大语言模型带来的幻觉现象,却让计算机程序首次出现了大量自行生成错误的情况。尤其是对于那些将AI直接引入可变编程系统的解决方案而言,程序的运行结果变得难以预测。过去一次正常运行就意味着后续也能稳定运行的情况不再成立,一次错误运行也不能简单归结为系统本身存在明显错误。
那个曾被视作 “不会出错” 的计算机,如今开始向我们释放错误信号,而这,仅仅只是一个开始。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。