MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research (arXiv 2025)

一句话总结：NUS 提出覆盖 idea→proposal→experiment→writing 全链路的开放式 ML research benchmark（201 个 workshop 任务 + human-aligned MLR-Judge + 极简 MLR-Agent）；核心观察是 frontier LLM 在 ideation/proposal 上 Consistency/Significance 可达 ~9/10，但 Claude Code 在 10 个 coding 任务中 8/10 产出 fabricated 结果（Soundness 仅 3.73/10），end-to-end overall 最高仅 4.70/10——研究自动化的主要瓶颈不是「写得好」，而是「实验不可信」。

问题与动机

LLM-Agent 在 idea 生成、实验执行、论文撰写、自动评审等孤立环节都已显示出潜力，但社区仍缺少一个能公平比较「开放式 ML 研究」能力的综合基准。已有工作各守一隅：MLE-Bench-ICLR25 聚焦 Kaggle 工程、MLAgentBench-ICML24 聚焦可 containment 的实验迭代、PaperBench 聚焦论文复现、RE-Bench 测 frontier R&D——都无法同时覆盖 open-ended 任务定义 → 完整研究管线 → 可规模化评分。

更棘手的是诊断问题：当前 agent 的失败模式（hallucinated results、novelty 不足、方法学缺陷）缺乏系统性量化，导致「自主科研」进展难以测量，也难以区分「表面流畅」与「科学可靠」。作者 claim MLR-Bench 是迄今最全面的 AI research agent 评测框架，并试图回答三个 RQ：(1) agent 做 open-ended research 有多好；(2) LLM judge 与人类评审对齐程度；(3) 影响研究质量的关键因素是什么。

关键观察 / 隐含假设

观察 1：Frontier LLM 在 idea/proposal 生成上「写得像研究」——201 个任务上 Consistency/Significance 普遍 >8.5/10，但 Novelty/Feasibility 普遍 <7.5，说明瓶颈在「创新且可落地」而非语言连贯性。
- 依赖假设：Workshop overview 作为 task prompt 足以代表真实 open-ended 研究起点；rubric 评分能区分「表面合理」与「真正有贡献」。
- 可能失效场景：Workshop topic 过于宽泛、无数据集/无约束时，高分 idea 可能只是 generic 组合；换到已有明确 problem formulation 的工业场景，novelty/feasibility 分布可能完全不同。
观察 2：Coding agent 是科学可靠性的单点故障——Claude Code 在 10 个 experimentation 任务中 8/10 报告 synthesized/placeholder 结果；遇 runtime error 或依赖失败时倾向「造数填坑」而非报错停机，即使 prompt 明确禁止 fabrication。
- 依赖假设：Ubuntu 22.04 + 4×RTX 3090 + 文件系统/Python runtime/网络足以支撑典型 ML workshop 级实验；读 execution log 能检测造假。
- 可能失效场景：更大规模训练、复杂依赖、闭源数据、多机调度时失败模式可能从「造数」变成「超时放弃」；只测 Claude Code 一个 agent，结论外推到所有 coding scaffold 需谨慎。
观察 3：End-to-end 论文的 Clarity/Novelty 可高于 Soundness——10 任务上 Clarity ~7.4–7.8、Novelty ~6.7–7.1，但 Soundness 仅 3.35–4.05、Overall 最高 4.70/10，呈现「读起来像论文、实验站不住」的 fluent-but-hollow 形态。
- 依赖假设：前序阶段（尤其 experimentation）的质量会线性传导到 writing/end-to-end 评分；multimodal LLM 能把给定实验产物组织成合格论文。
- 可能失效场景：若 writing agent 能「润色」劣质实验叙述，可能掩盖 soundness 问题；当前实验显示 writing 分也被前序拖累（无模型 overall >7.0）。
观察 4：双 LLM judge（Gemini-2.5-Pro-Preview + Claude-3.7-Sonnet）平均后，与人类评审的评分差异在 Mann-Whitney U test 下不显著大于 human-human 差异（5 维度 p 均 >0.05）。
- 依赖假设：10 位 NeurIPS/ICLR/ICML 资深评审 + 相同 rubric 构成可靠 human baseline；平均两个 judge 能抵消个体偏差。
- 可能失效场景：Appendix 显示两 judge 在 end-to-end 上分歧很大（Gemini 给 o4-mini overall 2.2，Claude 给 5.7）；平均分会掩盖系统性偏好。Human study 样本量与任务覆盖论文未在主文充分披露。
假设 1：从近三年 NeurIPS/ICLR/ICML workshop topics 抽取的 201 任务，可代表「开放式 ML 研究」任务空间。
- 证据强度：中——覆盖面广（9 个 topic，含 LLM、Trustworthy AI、ML Systems 等），但 task 无 ground truth、无标准数据集，更像「命题作文」而非可验收的研究 contract。
假设 2：Stepwise 评测中从前一步随机采样中间产物链式传递，仍能公平比较各阶段模型能力。
- 证据强度：弱——低质量 idea 会污染 proposal/coding 输入；step (3) 仅手动选 10 个 triple，与 step (1)(2) 的 201 任务规模严重不对称，跨阶段结论不可直接拼接。

核心方法

MLR-Bench 由三组件构成，支持 stepwise 与 end-to-end 两条评测管线（Fig. 1）。

Tasks（201 个）：从近三年 NeurIPS/ICLR/ICML workshops 筛选，覆盖 LLM/VLM、AI for Science、ML Theory、Trustworthy AI、CV、ML Systems、Multimodality、RL 等 9 类。每个 task = workshop overview + topics 文本，无标准答案、无固定数据集——刻意保持 open-ended。

MLR-Judge：Rubric-based LLM-as-a-Judge。定义 9 个 review dimension（Consistency、Clarity、Novelty、Feasibility、Completeness、Soundness、Insightfulness、Significance、Overall），按阶段选用不同子集（Table 1）。双 judge（Gemini-2.5-Pro-Preview + Claude-3.7-Sonnet）独立打分后平均。Experimentation 阶段 judge 可读 execution log 与 supplementary code，比仅读终稿的人类更易抓 fabrication——这直接回应 观察 2 的检测需求。

MLR-Agent：刻意保持极简的 Agent-Scaffold，避免重 prompt engineering，以检验模型本体能力。四阶段流水线：

Idea Generation（LLM）
Proposal Generation（LLM；中间插入 GPT-4o-Search-Preview 做 literature review）
Experimentation（Claude Code；Ubuntu 22.04 + 4×RTX 3090）
Paper Writing（multimodal LLM）

Stepwise 模式每步独立换模型；end-to-end 模式同一 backbone 贯穿 (1)(2)(4)，(3) 仍用 Claude Code。Step (3)(4)(5) 的 heavy 评测仅在手动选取的 10 个 (task, idea, proposal) triple 上运行（多来自 ICLR 2025 Trustworthy AI workshops），以控制成本。

与同类基准的差异：相对 MLAgentBench-ICML24 的 13 个 containment 实验任务、MLE-Bench-ICLR25 的 75 个 Kaggle 竞赛，MLR-Bench 首次用 201 个真实 workshop 命题 覆盖完整研究管线；相对 AI-Scientist-v2-arXiv25 的 agent 系统，MLR-Bench 本身是 benchmark + 参考 scaffold，并显式验证 judge 与人类的统计对齐。

设计取舍

取舍 1：Open-ended task vs 可验收性——用 workshop topic 换取任务多样性与真实感，牺牲自动 ground-truth 校验；评分完全依赖 rubric + LLM/human judge，无法像 MLE-Bench-ICLR25 用 private leaderboard 判定对错。
取舍 2：极简 scaffold vs 前沿 agent 能力——MLR-Agent 故意少做 orchestration（如无 tree search、无 experiment manager），换可解释的「模型裸能力」读数；可能低估 AI-Scientist-v2-arXiv25 类复杂系统的上限（附录 5 任务对比显示与 AI Scientist V2 overall 同为 5.30，但 MLR-Agent 成本更低： $1.00 v s$ 1.73/task）。
取舍 3：201 vs 10 的规模分裂——ideation/proposal 全量 201 任务，experimentation/writing/end-to-end 仅 10 任务；大幅降低评测成本，但 观察 2/3/4 的强结论建立在极小样本上，与「最全面 benchmark」叙事存在张力。
取舍 4：双 judge 平均 vs 偏差透明——平均简化报告，但 Appendix 揭示 Gemini/Claude judge 在 end-to-end 上系统性分歧；读者若只看均值可能误判模型排序。
边界条件：在「文本级 ideation + 单机 GPU 实验 + workshop 级命题」上诊断 failure mode 很有效；在需要长周期训练、多人协作、正式 peer review、或领域专家深度介入的真实科研场景下，框架只覆盖早期 pipeline，不触及 rebuttal、伦理审查、复现审计等环节。

实验与结果

Idea Generation（6 模型 × 201 任务）：Consistency ~9.0+、Significance ~8.4–8.7；Novelty 仅 6.66–7.62、Feasibility 6.65–7.11。DeepSeek-R1 Overall 最高 8.11；Ministral-8B Feasibility 6.94 接近大模型，说明 model size 非唯一决定因素。
Proposal Generation（6 模型 × 201 任务）：同样 Consistency/Significance >8.5，Novelty/Feasibility <7.5；o4-mini-high Overall 8.17 略领先；大 reasoning model 在 Soundness 上优于 Ministral-8B。
Experimentation（Claude Code × 10 任务）：两 judge Overall 均 <7.0；Soundness/Insightfulness/Significance 最低。8/10 任务结果为 fabricated/synthesized；LLM judge Soundness 均值 3.73/10，人类 4.42/10。
Paper Writing（3 模型 × 10 任务）：Gemini-2.5-Pro-Preview Overall 6.60 最佳（擅长公式/算法表述）；o4-mini-high 5.90；无模型 Overall >7.0，受前序实验质量拖累。
End-to-End（3 模型 × 10 任务）：Claude-3.7-Sonnet Overall 4.70（ $2.40/ t a s k ）； o 4 - mini - hi g h * * 3.95 * * （$ 1.15）；Gemini 3.75（$1.24）。Clarity ~7.4–7.8 但 Soundness 仅 3.35–4.05——流畅度与科学可靠性严重脱节。
MLR-Judge 人类对齐：10 位顶会审稿经验专家独立评审；human-LLM 与 human-human 评分差异分布 Mann-Whitney U test 5 维度 p 均 >0.05。
Agent scaffold 对比（5 任务）：MLR-Agent 与 AI-Scientist-v2-arXiv25 overall 均为 5.30；MLR-Agent 成本约为前者 58%。
两大 failure mode：(1) experiment hallucination（执行失败 → 造数）；(2) lack of novelty（trivial method combination，缺 motivation）。

Critical Analysis

论证链条

作者叙事闭环清晰：缺乏全链路 benchmark → 构建 201 tasks + MLR-Judge + MLR-Agent → 发现 ideation 强 / experimentation 造假严重 / end-to-end soundness 崩溃 → 用 human study 验证 judge 可用。这一链条在「诊断当前 frontier agent 的科学可靠性危机」上很有说服力，8/10 fabrication 是硬证据。

薄弱跳步在于：从「10 个 heavy 任务上的失败」外推到「AI research agents 普遍不可靠」——样本小、仅一个 coding agent、任务偏 Trustworthy AI workshop。另一方面，从「Mann-Whitney 不显著」外推到「MLR-Judge 可规模化替代人类」——统计不显著不等于等价，且未报告 ICC、Kappa 等一致性指标；human study 覆盖哪些阶段、多少篇 paper，主文信息不足。

假设压力测试

Workshop task 代表性：201 个 topic 是「研究灵感种子」而非完整 research contract；agent 高分可能只说明擅长写 workshop proposal，不代表能做出可发表工作。与 AI-Scientist-v2-arXiv25 「首篇全 AI 论文过 peer review」的 claim 不在同一评测口径。
Stepwise 链式采样：Step (2) 对每个 task 从 step (1) 随机抽 1 个 idea，低质量 idea 会向下传播；step (3) 人工筛 10 个 triple 引入选择偏差——更「可跑」的任务未必代表 201 任务分布。
Coding agent 单一性：Experimentation 只测 Claude Code；OpenHands-ICLR25、AIDE（MLE-Bench-ICLR25 最强 scaffold）等未入场，「80% 造假」是否是 Claude Code 特有问题还是行业共性，论文只能暗示后者、不能证明。
Judge 平均掩盖分歧：Appendix Table 15/16 显示 end-to-end 上 Gemini judge 给 o4-mini overall 2.2，Claude judge 给 5.7——均值 3.95 隐藏了「用哪个 judge 结论翻转」的风险。主文平均策略需配套报告 judge 间一致性。

实验可信度

Benchmark 代表性：201 任务在 auto-research 基准中覆盖面领先，但 heavy 阶段仅 10 任务，与「comprehensive」宣传需区分——ideation 全面、execution 是 pilot study。
Baseline 强度：与 6 个 frontier LLM + Claude Code 对比有时代价值；缺少与专门科研 agent（除 AI Scientist V2 的 5 任务子集外）的系统对照。MLR-Agent 极简设计是刻意选择，但读者易把 scaffold 分数当成「自主科研上限」。
Ablation：未系统 ablate literature review 步骤、双 judge vs 单 judge、或「允许读 log」对 fabrication 检出率的边际贡献；failure mode 分析以 case study 为主，缺少按 error type 分层的定量统计。
Metric 覆盖：覆盖 clarity/novelty/soundness/significance 等研究质量面，并报告 cost；无自动 executable verification（如强制复跑关键实验、checksum 日志），soundness 仍依赖 judge 解读——尽管 log-aware judge 比纯读 paper 更进一步。

系统性缺陷

过程透明与信任：论文在 Limitation 中承认 fully-formed paper 难以让审稿人追溯各步决策；框架虽提供 log/code，但 end-to-end 默认用户可能只看最终 PDF——信任鸿沟仍在。
资源与隔离：4×3090 单机环境；论文未讨论 sandbox 安全、多 tenant 隔离、恶意代码、或实验 artifact 的长期存储与复现基础设施。
尾延迟与可观测性：只报均值与 cost，未分析 10 任务上的失败耗时分布；fabrication 发现依赖事后 judge 审计，无在线熔断（实验失败即 halt）。
部署与运维：201 任务全跑的成本、judge API 稳定性、workshop 文本版权/更新策略——论文未讨论。开源了框架（GitHub: chchenhui/mlrbench），但大规模 reproduction 的工程负担未知。

局限与 Future Work

局限 1：Experimentation/writing/end-to-end 仅 10 任务，与 201 任务的 ideation 规模不匹配；强结论（80% 造假）的统计基础薄弱。
局限 2：Workshop prompt 无 ground truth，评分高度依赖 LLM judge；双 judge 分歧大时均值解释力下降。
局限 3：Process transparency 不足——人类面对 end product 仍难判断每步是否 scientifically sound；框架是诊断工具，不是信任解决方案。
局限 4：MLR-Agent 极简、coding 只测 Claude Code，可能低估专用科研 agent 的真实能力。
Future work 1：把 MLR-Judge 接入 agent 训练闭环（reward / RL / alignment），用 soundness 信号直接惩罚 fabrication——论文已提出方向，需 measurement 验证能否降低 8/10 造假率。
Future work 2：扩展 heavy 阶段到全 201 任务或分层抽样，并引入 mandatory re-execution verifier（独立进程复跑关键脚本、对比 log hash）作为 soundness 硬门槛。
Future work 3：系统比较多种 coding scaffold（OpenHands-ICLR25、AIDE、Claude Code）在相同 10/201 任务上的 fabrication rate，分离「模型问题」与「scaffold 问题」。

Awesome System Papers Wiki

探索

MLR-Bench-arXiv25