云霞育儿网

大模型打Kaggle实战赛Agent进Kaggle练级当前最强大的大语言模型(L

大模型打Kaggle实战赛Agent进Kaggle练级

当前最强大的大语言模型(LLM)虽然代码能力飞速发展,但在解决真实、复杂的机器学习工程(MLE)任务时,仍像是在进行一场“闭卷考试”。

它们可以在单次尝试中生成代码,却无法模拟人类工程师那样,在反复的实验、调试、反馈和优化中寻找最优解的真实工作流。

为了打破这一瓶颈,来自佐治亚理工学院和斯坦福大学的研究团队正式推出了 MLE-Dojo,一个专为训练和评测大模型智能体(LLM Agents)设计的“交互式武馆”。

它将LLM从静态的“答题者”转变为可以在一个包含200多个真实Kaggle竞赛的环境中,不断试错、学习和进化的“机器学习工程师”。

MLE-Dojo是一个专为机器学习工程设计的综合性Gym风格基准测试框架。与现有依赖静态数据集或单次评估的基准不同,MLE-Dojo提供了一个完全可执行的交互式环境,让AI智能体可以通过结构化的反馈循环,反复实验、调试并优化解决方案 。

在MLE-Dojo的竞技场上,团队对当前八个顶尖的LLM进行了全面评测。

结果显示,Gemini-2.5-Pro在综合Elo评分中拔得头筹,但即便是最强的模型,在自主生成长流程解决方案和高效解决复杂错误方面也仍然有提升空间 。

目前,团队已将MLE-Dojo的框架、基准和排行榜完全开源,旨在推动社区共同创新,加速下一代自主机器学习智能体的到来 。

一起来看详细内容: