大模型打Kaggle实战赛Agent进Kaggle练级当前最强大的大语言模型（L

量子位看科技 2025-07-26 20:12:34

大模型打Kaggle实战赛Agent进Kaggle练级

当前最强大的大语言模型（LLM）虽然代码能力飞速发展，但在解决真实、复杂的机器学习工程（MLE）任务时，仍像是在进行一场“闭卷考试”。

它们可以在单次尝试中生成代码，却无法模拟人类工程师那样，在反复的实验、调试、反馈和优化中寻找最优解的真实工作流。

为了打破这一瓶颈，来自佐治亚理工学院和斯坦福大学的研究团队正式推出了 MLE-Dojo，一个专为训练和评测大模型智能体（LLM Agents）设计的“交互式武馆”。

它将LLM从静态的“答题者”转变为可以在一个包含200多个真实Kaggle竞赛的环境中，不断试错、学习和进化的“机器学习工程师”。

MLE-Dojo是一个专为机器学习工程设计的综合性Gym风格基准测试框架。与现有依赖静态数据集或单次评估的基准不同，MLE-Dojo提供了一个完全可执行的交互式环境，让AI智能体可以通过结构化的反馈循环，反复实验、调试并优化解决方案。

在MLE-Dojo的竞技场上，团队对当前八个顶尖的LLM进行了全面评测。

结果显示，Gemini-2.5-Pro在综合Elo评分中拔得头筹，但即便是最强的模型，在自主生成长流程解决方案和高效解决复杂错误方面也仍然有提升空间。

目前，团队已将MLE-Dojo的框架、基准和排行榜完全开源，旨在推动社区共同创新，加速下一代自主机器学习智能体的到来。

一起来看详细内容：

0 阅读：3

量子位看科技

感谢大家的关注

作者最新文章

1

美国打工人装懂AI取悦老板美国打工人不会用AI却装会最近，美国职场出现了一种荒诞

2

字节模型拿下IMO银牌字节数学模型能复现全过程字节的数学推理模型Seed Pro

3

小扎火速挖走谷歌摘金华人功臣谷歌刚夺金Meta就下手了扎心了！谷歌这边刚刚宣布获

4

AI想出的奇怪实验竟然都奏效物理实验被AI玩出新花样AI来设计物理实验，脑洞真是

5

Windsurf创始人卷24亿走人Windsurf创始人背信弃义 Windsu

6

量子位·视点 Agent 产品正发布得火热，但要说到真正懂企业、懂决策的 Age

7

写作即思考AI时代为何要自己写论文在AI时代坚持自己写论文，到底有什么价值？最近

8

TRAE上线SOLO模式TRAE新模式一键搞定开发全流程TRAE宣布全新推出SO

9

AMD大神创业国产GPU瀚博半导体冲刺IPO又一家国产GPU启动了IPO进程！证

10

半导体冰箱三星用芯片制冷半导体还能用来制冷？三星Nature Communica

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

光刻机禁售，我忍了。芯片技术封锁，我也忍了。但全国首台国产电子束光刻机在杭州

2

8月8日，河南许昌一小伙，在闲鱼上5300买了一台苹果16pro，结果顺丰配发当

3

华为又放大招啦！8月15号，华为Pura80手机处理器，kirin9020惊艳

4

9月骁龙峰会，六款国产旗舰新机扎堆硬刚苹果17：荣耀Magic8系列、iQ

5

曝iPhone17Pro仍保留SIM卡槽很正常啊，毕竟iPhone是全球机型，

6

台积电创始人张忠谋在接受纽约时报专访时说：美国、荷兰、日本、韩国与台湾牢牢控制着

7

同事iphone13pro有几年了，说电池健康度只有70%了，一天到晚的就见他

8

李想谈供应商黑幕在《罗永浩的十字路口》节目中，提到有的供应商欺负他们，明明给理

9

【苹果正式入驻小红书】苹果发布会将推出四款机型8月15日，还有不到1个月时间，i

10

手机圈来袭！9-10月新机扎堆亮相荣耀Magic8Pro主打超强AI，

科技最新文章

1

罗永浩说李想活的太舒服了李想的创业路，从被150个投资人拒绝，到没钱机场躺平，

2

李想自曝初中凭买漫画书赚钱这是从小就有商业头脑啊，怪不得能把理想

3

鸿蒙5.0像半夜敲门的新房客，门还没开就喊搬家。华为急着亮牌，因为海外安卓授

4

李想谈供应商黑幕在《罗永浩的十字路口》节目中，提到有的供应商欺负他们，明明给理

5

好消息！荣耀终于想通了，小屏旗舰这块蛋糕还是得来分一块，6.3寸的荣耀Magic

6

理想汽车董事长兼CEO李想做客罗永浩最新的视频播客《罗永浩的十字路口》，讲了一些

7

据媒体报道：对于国家有关部门约谈英伟达，腾讯倒是非常淡定，因为腾讯购买了足够多的

8

8月份全价位段最值得购买的12款手机8月份打算换机的可以收藏一下，从1000

9

下个月也太热闹了叭😓都冲着苹果来了？简单看了一圈，下个月的发布会是真多啊

10

REDMINote15Pro+真机终于摸到了，全居中对称Deco搭配双面全