机器之心编辑部
OpenAI 发起全新挑战:你,准备好迎战了吗?
这次挑战,看起来有些反常识。
参与者需要在固定的 FineWeb 数据集上尽可能降低验证损失,同时将模型产物(包含权重与训练代码)控制在 16 MB 以内,并在 8 张 H100 GPU 上于 10 分钟内完成训练。
这几乎把所有堆参数、拼算力的暴力解法一刀封死。剩下的,只有结构设计、极致压缩、策略取舍,以及一点点工程上的巧劲。
这便是 OpenAI 发起的 Model Craft Challenge 「Parameter Golf」项目,一项旨在训练最优小模型的挑战。
Parameter Golf 地址:https://github.com/openai/parameter-golf
从名字也能看出来,它借鉴的是高尔夫球的玩法。高尔夫比赛的目标是用最少的杆数把球打进洞,每一杆都要精打细算,追求极致的效率和策略。而「Parameter Golf」则是要用最少的参数完成模型任务,追求模型压缩、效率优化的技术极限。
OpenAI 表示,该挑战面向全球开放,旨在在严格资源约束下探索更高效的预训练模型。表现突出的参与者可能会被邀请参加 OpenAI 的面试机会,获胜方案也有可能被公开展示。
赛题设计上,该挑战在很大程度上借鉴了 NanoGPT Speedrunning 的思路,即在尽可能短的时间内将模型训练到指定的验证损失水平。在此基础上,OpenAI 更进一步,将重点放在参数受限的条件下,探索更高效的模型设计。这种设定有望推动研究者尝试多种创新路径,包括新型架构设计、压缩方法以及各类具有创造性的训练与推理策略。
在资源设定上,OpenAI 原本希望允许参赛者使用任意规模的算力,但为了降低参与门槛并控制成本,排行榜提交被限制在 8 张 H100 GPU、10 分钟训练时间以内。同时,对于不满足这一算力限制的方案,OpenAI 也鼓励大家提交至非记录板块,以持续探索参数受限条件下的性能上限。
考虑到算力成本问题,OpenAI 还提供了总额 100 万美元的算力支持,用于帮助参与者启动和推进模型训练。
申请地址:https://openai.com/index/parameter-golf/
从某种意义上说,这场 Model Craft Challenge 更像一场 AI 界的奥赛。OpenAI 内部不少研究员,正是当年在数学、编程竞赛中一路打怪升级出来的。因此,这次挑战看重的也不是谁资源多,而是谁能在陌生约束下,用创造力和严谨性把问题解到极致。
更现实一点的激励是:OpenAI 计划在今年 6 月招一批早期研究人才,重点面向本科生和应届毕业生,包括各类竞赛选手。对于表现亮眼的人来说,这场挑战本身就可能成为一块敲门砖。
这次挑战时间从 3 月 18 日持续到 4 月 30 日。
如何参与?
OpenAI 提供了一个 GitHub 仓库,其中包含基线模型、固定数据集以及评测脚本。你可以 fork 这个仓库,在满足模型大小和算力限制的前提下进行改进,并提交一个 PR(拉取请求),其中包括你的代码、日志、成绩以及一份简短说明。审核通过后,你的结果会被合并,排行榜也会自动更新。你还可以申请来自 Runpod 的免费算力额度(数量有限,先到先得)。
最后,OpenAI 还回答了一些大家比较关心的问题。
提问:谁可以参与?
OpenAI:本次挑战原则上面向年满 18 岁、且位于 OpenAI 支持地区的人员开放。完整的参与资格要求可在详细的条款与条件中查看。需要注意的是,OpenAI 的员工可以参与,但无法获得算力额度奖励。
提问:哪些内容会计入 16MB 的产物大小?
OpenAI:提交的产物大小由两部分组成:代码体积 + 压缩后的模型体积。所有计入大小的代码必须放在 train_gpt.py 脚本中。上限为十进制的 16MB(即 16,000,000 字节),而不是 16 MiB(16,777,216 字节)。在评测过程中,不允许进行任何外部下载、访问训练数据集或发起网络请求。整个产物必须是完全自包含且可复现的。
提问:评测阶段有哪些限制?
OpenAI:我们不会接受在 8 张 H100 GPU 上评测时间超过 10 分钟的提交(注意:这一限制是在允许的 10 分钟训练时间之外额外计算的!)。除此之外,评测方式基本不做限制,你可以自由设计评测流程。和 modded-nanogpt 类似,我们允许在任意序列长度上进行评测。
提问:如果算力用完了,还可以再申请吗?
OpenAI:可以。你可以通过申请表继续申请额外的算力额度,以支持持续迭代。不过,提交申请并不保证一定会获得算力支持。我们的目标是让更多人参与,因此算力额度取决于资源是否充足,数量有限。如果申请通过,相关算力额度将在几个工作日内通过 Runpod 发放。
提问:可以多次参与吗?
OpenAI:可以!你可以提交多次参赛作品。
提问:可以以团队形式提交结果吗?
OpenAI:不可以。提交结果仅限个人参与。
这场比赛,大家看法并不一样
对于这场挑战赛,网友的评论也出现了明显分歧。
LinkedIn 上有评论称:「这才是真正识别优秀工程师的方式——看他们在内存、时间、计算受限时的权衡,而不是靠资历。」
有人因此受到了鼓舞。
但也有人担心其他公司效仿,但又学走了样,只白嫖方案,不招人。
但这种担忧,很快把讨论引向了另一个更有意思的问题:既然是模型设计与优化,本身就是 AI 最擅长的领域,那这件事,是否本该交给 AI 来做?也正是这样,围绕人类 vs Agent的讨论逐渐升温。
这位 X 用户认为 OpenAI 本应已经用 AI Agent 全自动做这件事了,而且 Agent 应该已经比人更强。OpenAI 还在用「人类比赛」的形式做参数优化,有点复古。
知名AI研究者 Yuchen Jin也表示,这个比赛可以用AI Agent来完成,如果自己有时间,完全可以召唤自己的「自动研究大军」(AI Agent 集群)去打比赛。
你怎么看,欢迎评论区留言。