OpenAI掩盖了强化学习真相RLHF真正作用被长期误解人类反馈强化学习(RLH

量子位看科技 2025-08-18 10:45:21

OpenAI掩盖了强化学习真相RLHF真正作用被长期误解

人类反馈强化学习(RLHF, Reinforcement Learning from Human Feedback),我们一直都被OpenAI掩盖了其真正价值?

近年来,OpenAI大力宣传RLHF主要是用来“提升模型安全性”和“实现对齐”,而一篇长文中,作者给出了不同观点:RL的核心价值不是安全,而是构建“可靠的指令遵循能力(Reliable Instruction Following)”。

他认为,训练一个有用的语言模型,唯一的目标就是让它在面对各种输入指令时,都能稳定、准确地给出有用的回应。而“安全”只是“可靠响应”的一个子集,只要模型能可靠响应,那只需明确地告诉它什么是安全,它就能做到安全。

他进一步展开道:

- 传统的监督微调(SFT)是训练模型模仿人类写好的回应,训练前就把数据准备好。

- 强化学习(RL)引入了“负面样本”和“KL损失”,模型通过尝试生成答案,然后根据反馈“奖惩”自己,逐步学会哪些路径是“容易成功”的。

- 回答一个问题时,模型可能有成千上万种答法,而RL的目标是让它稳定地选择可靠路径。

这就是“可靠指令遵循”:

- 理解指令(包括隐含指令)

- 提供有用回应

- 持续保持稳定、不出错

作者指出,OpenAI之所以能让ChatGPT具备极高的稳定性(几乎99.99%的响应都不会崩),靠的不是SFT,而是RL。从AI Dungeon这种只用SFT的模型,经常会输出乱码或陷入死循环,就能看出两者差距。

更重要的是,这种可靠性不是“偏好调教”出来的,而是RL一步步“筛选”出来的:

1. 让模型生成多个回应

2. 用“裁判模型”或人工反馈打分,挑出好与坏

3. 利用DPO、GRPO等RL方法调整模型参数,强化好回应的概率

4. 重复这个过程,让模型只保留稳定、容易走通的回应路径

这个过程,也解释了为什么ChatGPT有“人格”,因为是RL过程中的“路径偏好”累积出来的,而非一开始就设计好的语气风格。

最后,作者甚至得出一个结论:没有强化学习,就没有可用的AI模型。

哪怕是图像、扩散模型,也需要真正的RL机制来支撑它们进入“高可靠性”阶段。

总结来看,这篇文章提醒我们,大模型真正需要的是“指令可靠性”,RL正是实现它的唯一途径。

链接可查看全文:aerial-toothpaste-34a.notion.site/How-OpenAI-Misled-You-on-RLHF-1f83f742d9dd80a68129d06503464aff

0 阅读:2
量子位看科技

量子位看科技

感谢大家的关注