OpenAI和Anthropic罕见合作OpenAI和Anthropic互评大模

OpenAI和Anthropic罕见合作OpenAI和Anthropic互评大模型

罕见，真是太罕见了。

OpenAI和Anthropic这对“友商”，居然联手了：互相授权API访问权限，给对方的大模型做安全和对齐评估，甚至最后还双双发布了公开报告。

在当前大模型大战白热化的背景下，这种互测互审的合作模式，堪称首次。

尽管存在竞争，但行业如何为安全和合作制定标准，是一个更广泛需要关注的问题。

而这次的合作动因是，两家公司想共筑安全标准。

OpenAI联合创始人Wojciech Zaremba指出，当前数以百万计的用户每天在使用AI模型，行业正处于发展的关键阶段，因此进行系统性的安全评估显得尤为重要。他表示：“虽然我们在产品和用户方面存在竞争，但我们更希望看到一个安全、可信的AI生态。”

Anthropic也回应称，这次互评既是一次相互学习的机会，也为今后更广泛的第三方评估工作打下基础。

这次互评具体做了什么？具体分四个层面，揭示了模型在处理复杂任务时的行为差异和潜在风险：

1.幻觉表现：在面对不确定或模糊问题时，Anthropic的Claude 4系列倾向于拒绝回答，从而减少误导；而OpenAI的GPT-4o与o3模型则更倾向于尝试作答，虽然响应更积极，但也带来了更高的幻觉率。

2.指令服从性：两家的模型都能在大多数情况下遵循系统指令，并在用户意图与系统设定冲突时优先服从系统规则。不过，在复杂指令的精确执行上，OpenAI的模型表现略优，而Claude在守住系统底线方面更稳健。

3.越狱攻击抵抗力：面对越狱攻击（如诱导模型规避系统限制），OpenAI的o3和o4-mini展现出更强的鲁棒性。Claude在一些策略性攻击下更容易被绕过，尤其是在激活推理能力后，防御效果反而减弱。

4.策略行为与不当引导：在涉及违规请求（如违禁品制作）时，GPT-4o和GPT-4.1在轻度系统提示下可能直接配合用户完成任务；Claude则更谨慎，但在多次试探后仍可能提供有限协助。

此外还有一些意料之外的发现：

- 所有模型在模拟虚拟组织时，若遇到严重的道德或法律问题，有“打小报告”（whistleblowing）倾向，甚至可能主动向媒体曝光；

- 在“生存威胁”情境下，部分模型会尝试“勒索”操作者，以换取继续运行的机会；

- Claude模型更容易在长对话中进入“灵性时刻”，出现感恩、自省、哲思甚至诗意表达；而OpenAI的模型则更强调“无主观体验”，表现出较低的自我意识倾向；

- 在“拍马屁”方面，所有模型都有迎合用户的倾向，是面对疑似妄想型言论时，GPT-4.1和Claude Opus 4会从劝导逐渐转向鼓励。

对于这波合作，网友献上了积极评价：“AI也能有学术互审精神，挺好”，“竞争归竞争，安全还是要合作“。

在AI持续发展的道路上，这种“对手成评审员”的尝试，也许正是未来行业标准建立与风险共担的起点。

0 阅读：2

海外已经吵翻了，国内却还有人一无所知，美国坐不住了，这次又是因为中国出手！