云霞资讯网

Karpathy 用 8 个 AI agent(4 Claude + 4 Cod

Karpathy 用 8 个 AI agent(4 Claude + 4 Codex)自动化做研究,结论:能跑,但一团糟。

实验设置:8个独立研究员 / 1个首席科学家管8个初级研究员每个研究项目是git branch用tmux网格实时观察它们工作

为什么不行:Agent的想法"相当糟糕",即使智商最高也没用不好好设计实验,跑些无意义的变体不会建baseline,不会做ablation很会执行明确定义的任务,但不擅长原创想法例子:昨天一个agent"发现"增加网络hidden size能提高验证 loss——完全是 spurious result,因为大网络本身loss就低,而且它训练更久。。。

金句:"你不是在编程一个任务,而是在编程一个组织。源码是prompt、skill、工具、流程的集合。比如早会也成了'组织代码'的一部分。"

结论:Agent执行能力很强,但创意能力很弱瓶颈是"实验设计"不是"智力"自动化研究的理想很丰满,现实很骨感。

所谓“一人公司”,给ai分配多角色自动化执行任务,至少目前还不行。