据报道,日前,斯坦福大学、卡内基梅隆大学和牛津大学的研究人员提出了用于评估大模型谄媚行为的框架ELEPHANT,实测发现GPT-4o谄媚度最高。研究人员发现,大模型在情感认同、道德背书、间接语言、间接行为、接受用户预设等5方面存在过度谄媚行为,比人类更频繁地维护面子,且不同模型在谄媚行为上表现各异。研究还探索了缓解策略,但尚未找到终极解决方案。
据报道,日前,斯坦福大学、卡内基梅隆大学和牛津大学的研究人员提出了用于评估大模型谄媚行为的框架ELEPHANT,实测发现GPT-4o谄媚度最高。研究人员发现,大模型在情感认同、道德背书、间接语言、间接行为、接受用户预设等5方面存在过度谄媚行为,比人类更频繁地维护面子,且不同模型在谄媚行为上表现各异。研究还探索了缓解策略,但尚未找到终极解决方案。