云霞资讯网

当 LLM 作为“交互式代理”与用户多轮互动时,是否能像贝叶斯推断那样,随着新证

当 LLM 作为“交互式代理”与用户多轮互动时,是否能像贝叶斯推断那样,随着新证据不断更新对“世界状态/用户偏好”的概率性信念?Google做了这个研究,以及如何通过训练让模型更接近这种最优更新方式。有兴趣可以搜“Teaching LLMs to reason like Bayesians”来看看。

在个性化推荐等场景里,理想做法是用贝叶斯规则把“先验”在每轮交互后更新为“后验”,再作为下一轮的新先验;但未经专门训练的 LLM 往往会依赖简单启发式(例如默认用户只想要最便宜的选项),而不是从具体用户的选择中推断其独特偏好。

为评估 LLM 的“贝叶斯能力”,Google构造了一个可控的简化任务:五轮“航班推荐”对话。每轮同时展示 3 个航班选项(起飞时间、时长、中转次数、价格等特征),模拟用户具有对各特征“强/弱偏好高/低值或无偏好”的组合。对比对象包括:1)实现了最优贝叶斯策略的“Bayesian Assistant”(维护偏好分布并用贝叶斯规则更新),2)多种开箱即用 LLM,3)人类参与者。结果显示:各类 LLM 明显落后于最优贝叶斯助手;更关键的是,贝叶斯助手会随轮次逐步变准,而许多 LLM 往往在第一轮后就“准确率平台化”,体现出对新增信息的适应不足;人类比大多数 LLM 更能随信息累积而提升,但仍达不到最优贝叶斯策略的水平。

文章提出“Bayesian teaching”的后训练框架:用监督微调让 LLM 学习如何做概率更新。作者比较了两种生成微调数据的方式:一是“Oracle teaching”,给 LLM 看“全知全能的 oracle 助手”与用户的交互(oracle 知道真实偏好,因此总能给出与用户选择一致的正确推荐);二是“Bayesian teaching”,给 LLM 看“Bayesian Assistant”与用户的交互(因为早期不确定性大,助手会出现合理的“猜错”,并在多轮中逐步收敛)。作者假设,模仿贝叶斯助手的“最佳猜测”会比只模仿永远正确的 oracle 更能教会模型保留不确定性、并据证据更新。

实验结果是:两种微调都能显著提升模型表现,但贝叶斯教学在各模型上都更有效;经贝叶斯教学后的模型与贝叶斯助手的决策一致性更高,并且能从合成的航班任务迁移到未见过的推荐域(文中提到如酒店推荐、真实网页购物等),说明学到的不是特定任务套路,而更像可跨域复用的“概率逻辑/信念更新”能力。文章还强调,这种方法等价于把经典的符号化最优策略“蒸馏”进神经网络,从而在难以显式编码贝叶斯策略的真实域里也能受益。HOW I AI