MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering (ICLR 2025)

一句话总结：OpenAI 推出的自主 ML engineering benchmark，75 个人工精选的 Kaggle 竞赛（总奖金 $1.95M）+ 离线评测 + 与真实 Kaggle private leaderboard 对齐的铜银金奖判定；最强配置 o1-preview + AIDE scaffold 在 pass@1 拿到 16.9% 得奖率（相当于平均 7 枚金牌），pass@8 涨到 34.1%。

问题

代码 benchmark（HumanEval、MBPP）已饱和，SWE-Bench 聚焦 bug fix，但缺一个端到端自主 ML engineering 评测——这正是 AI R&D acceleration 风险模型的核心能力（OpenAI Preparedness Framework、Anthropic RSP、Google DeepMind Frontier Safety 都需要衡量这个维度）。已有尝试（MLAgentBench 13 题、AIDE/Weco 自报、DSBench）要么覆盖少、要么只挑 tabular 任务、要么无法直接对比人类水平。

核心方法

数据集构建：从 Meta Kaggle 5673 场竞赛筛到 586 场做人工 screening，最终选 75 场（22 Low / 38 Medium / 15 High 复杂度）+ 7 场 dev split。每场包含：

爬取的 Overview / Data 描述
数据集（能用原 split 就用，不能则手动重切 train/test 并确保分布相近）
本地 grading code
Kaggle private leaderboard 快照（public 容易被 overfit）

Medal 判定：完全复用 Kaggle 规则——按参赛队伍数动态定铜/银/金阈值（如 1000+ teams：bronze top 10%、silver top 5%、gold top 0.2%+10），保证不同竞赛的奖牌可比。Headline metric = 拿到任何奖牌的百分比。

反作弊机制：

Rule-breaking detection：GPT-4o 审 agent log，查是否手写预测、是否调外部 LLM API
Plagiarism detection：Dolos 代码相似度工具对比 Kaggle 前 50 notebooks，>60% 相似直接 disqualify
Submission 必须由独立 model 产生，agent 不能靠记忆直接写答案文件
Contamination 实验：测 base model 对竞赛讨论帖的 token familiarity 与得分的相关性 → 无显著相关；手工 obfuscate 描述去掉 Kaggle 痕迹 → 得分无变化（8.5% vs 8.4%）

执行环境：Ubuntu 20.04 Docker，36 vCPU / 440GB RAM / 4095 GiB SSD / 1× A10 GPU，24h / competition，3 seeds，75 场合计 1800 GPU-hours。

Scaffold 对比：AIDE（Kaggle 专精，tree search over code）、MLAgentBench (MLAB)、OpenHands CodeActAgent 三家都跑 GPT-4o。

关键结果

Scaffold 对比（GPT-4o）：AIDE 8.7% > OpenHands 4.4% > MLAB 0.8%。AIDE 胜在会在整 24h 里持续 prompt 模型改进到 500 nodes 上限；MLAB / OpenHands 常提早结束、加载几千行文件把 context 打爆
Model 对比（都用 AIDE）：o1-preview 16.9% > GPT-4o 8.7% > Claude-3.5-Sonnet 7.6% > Llama-3.1-405B 3.0%。o1-preview 平均拿 7 枚金牌（Kaggle Grandmaster 门槛是 5 枚），但竞赛不完全可比
Pass@k：GPT-4o pass@6 = 17.0% ≈ o1-preview pass@1 16.9%；两者 pass@6 都约为 pass@1 的 2×
Compute scaling：CPU-only 9.1% / 1×A10 8.7% / 2×A10 10.2%，agent 几乎不用第二张 GPU
Time scaling：GPT-4o + AIDE 从 24h 8.7% → 100h 11.8%
共同失败模式：不用 validation server、OOM 被 kill、不会估算训练时间
开源 github.com/openai/mle-bench，后续被 AI-Scientist-v2-arXiv25、AIDE 等工作广泛引用为 ML agent 标尺

Awesome System Papers Wiki

探索

MLE-Bench-ICLR25

MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering (ICLR 2025)

问题

核心方法

关键结果

相关

关系图谱

目录

反向链接