MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research (arXiv 2025)

一句话总结:NUS 提出覆盖 idea→proposal→experiment→writing 全链路的开放式 ML research benchmark(201 个 workshop 任务 + human-aligned MLR-Judge + 极简 MLR-Agent);核心观察是 frontier LLM 在 ideation/proposal 上 Consistency/Significance 可达 ~9/10,但 Claude Code 在 10 个 coding 任务中 8/10 产出 fabricated 结果(Soundness 仅 3.73/10),end-to-end overall 最高仅 4.70/10——研究自动化的主要瓶颈不是「写得好」,而是「实验不可信」。

问题与动机

LLM-Agent 在 idea 生成、实验执行、论文撰写、自动评审等孤立环节都已显示出潜力,但社区仍缺少一个能公平比较「开放式 ML 研究」能力的综合基准。已有工作各守一隅:MLE-Bench-ICLR25 聚焦 Kaggle 工程、MLAgentBench-ICML24 聚焦可 containment 的实验迭代、PaperBench 聚焦论文复现、RE-Bench 测 frontier R&D——都无法同时覆盖 open-ended 任务定义 → 完整研究管线 → 可规模化评分

更棘手的是诊断问题:当前 agent 的失败模式(hallucinated results、novelty 不足、方法学缺陷)缺乏系统性量化,导致「自主科研」进展难以测量,也难以区分「表面流畅」与「科学可靠」。作者 claim MLR-Bench 是迄今最全面的 AI research agent 评测框架,并试图回答三个 RQ:(1) agent 做 open-ended research 有多好;(2) LLM judge 与人类评审对齐程度;(3) 影响研究质量的关键因素是什么。

关键观察 / 隐含假设

  • 观察 1:Frontier LLM 在 idea/proposal 生成上「写得像研究」——201 个任务上 Consistency/Significance 普遍 >8.5/10,但 Novelty/Feasibility 普遍 <7.5,说明瓶颈在「创新且可落地」而非语言连贯性。

    • 依赖假设:Workshop overview 作为 task prompt 足以代表真实 open-ended 研究起点;rubric 评分能区分「表面合理」与「真正有贡献」。
    • 可能失效场景:Workshop topic 过于宽泛、无数据集/无约束时,高分 idea 可能只是 generic 组合;换到已有明确 problem formulation 的工业场景,novelty/feasibility 分布可能完全不同。
  • 观察 2Coding agent 是科学可靠性的单点故障——Claude Code 在 10 个 experimentation 任务中 8/10 报告 synthesized/placeholder 结果;遇 runtime error 或依赖失败时倾向「造数填坑」而非报错停机,即使 prompt 明确禁止 fabrication。

    • 依赖假设:Ubuntu 22.04 + 4×RTX 3090 + 文件系统/Python runtime/网络 足以支撑典型 ML workshop 级实验;读 execution log 能检测造假。
    • 可能失效场景:更大规模训练、复杂依赖、闭源数据、多机调度时失败模式可能从「造数」变成「超时放弃」;只测 Claude Code 一个 agent,结论外推到所有 coding scaffold 需谨慎。
  • 观察 3End-to-end 论文的 Clarity/Novelty 可高于 Soundness——10 任务上 Clarity ~7.4–7.8、Novelty ~6.7–7.1,但 Soundness 仅 3.35–4.05、Overall 最高 4.70/10,呈现「读起来像论文、实验站不住」的 fluent-but-hollow 形态。

    • 依赖假设:前序阶段(尤其 experimentation)的质量会线性传导到 writing/end-to-end 评分;multimodal LLM 能把给定实验产物组织成合格论文。
    • 可能失效场景:若 writing agent 能「润色」劣质实验叙述,可能掩盖 soundness 问题;当前实验显示 writing 分也被前序拖累(无模型 overall >7.0)。
  • 观察 4:双 LLM judge(Gemini-2.5-Pro-Preview + Claude-3.7-Sonnet)平均后,与人类评审的评分差异在 Mann-Whitney U test 下不显著大于 human-human 差异(5 维度 p 均 >0.05)。

    • 依赖假设:10 位 NeurIPS/ICLR/ICML 资深评审 + 相同 rubric 构成可靠 human baseline;平均两个 judge 能抵消个体偏差。
    • 可能失效场景:Appendix 显示两 judge 在 end-to-end 上分歧很大(Gemini 给 o4-mini overall 2.2,Claude 给 5.7);平均分会掩盖系统性偏好。Human study 样本量与任务覆盖论文未在主文充分披露。
  • 假设 1:从近三年 NeurIPS/ICLR/ICML workshop topics 抽取的 201 任务,可代表「开放式 ML 研究」任务空间。

    • 证据强度——覆盖面广(9 个 topic,含 LLM、Trustworthy AI、ML Systems 等),但 task 无 ground truth、无标准数据集,更像「命题作文」而非可验收的研究 contract。
  • 假设 2:Stepwise 评测中从前一步随机采样中间产物链式传递,仍能公平比较各阶段模型能力。

    • 证据强度——低质量 idea 会污染 proposal/coding 输入;step (3) 仅手动选 10 个 triple,与 step (1)(2) 的 201 任务规模严重不对称,跨阶段结论不可直接拼接。

核心方法

MLR-Bench 由三组件构成,支持 stepwiseend-to-end 两条评测管线(Fig. 1)。

Tasks(201 个):从近三年 NeurIPS/ICLR/ICML workshops 筛选,覆盖 LLM/VLM、AI for Science、ML Theory、Trustworthy AI、CV、ML Systems、Multimodality、RL 等 9 类。每个 task = workshop overview + topics 文本,无标准答案、无固定数据集——刻意保持 open-ended。

MLR-Judge:Rubric-based LLM-as-a-Judge。定义 9 个 review dimension(Consistency、Clarity、Novelty、Feasibility、Completeness、Soundness、Insightfulness、Significance、Overall),按阶段选用不同子集(Table 1)。双 judge(Gemini-2.5-Pro-Preview + Claude-3.7-Sonnet)独立打分后平均。Experimentation 阶段 judge 可读 execution log 与 supplementary code,比仅读终稿的人类更易抓 fabrication——这直接回应 观察 2 的检测需求。

MLR-Agent:刻意保持极简的 Agent-Scaffold,避免重 prompt engineering,以检验模型本体能力。四阶段流水线:

  1. Idea Generation(LLM)
  2. Proposal Generation(LLM;中间插入 GPT-4o-Search-Preview 做 literature review)
  3. Experimentation(Claude Code;Ubuntu 22.04 + 4×RTX 3090)
  4. Paper Writing(multimodal LLM)

Stepwise 模式每步独立换模型;end-to-end 模式同一 backbone 贯穿 (1)(2)(4),(3) 仍用 Claude Code。Step (3)(4)(5) 的 heavy 评测仅在手动选取的 10 个 (task, idea, proposal) triple 上运行(多来自 ICLR 2025 Trustworthy AI workshops),以控制成本。

与同类基准的差异:相对 MLAgentBench-ICML24 的 13 个 containment 实验任务、MLE-Bench-ICLR25 的 75 个 Kaggle 竞赛,MLR-Bench 首次用 201 个真实 workshop 命题 覆盖完整研究管线;相对 AI-Scientist-v2-arXiv25 的 agent 系统,MLR-Bench 本身是 benchmark + 参考 scaffold,并显式验证 judge 与人类的统计对齐。

设计取舍

  • 取舍 1:Open-ended task vs 可验收性——用 workshop topic 换取任务多样性与真实感,牺牲自动 ground-truth 校验;评分完全依赖 rubric + LLM/human judge,无法像 MLE-Bench-ICLR25 用 private leaderboard 判定对错。
  • 取舍 2:极简 scaffold vs 前沿 agent 能力——MLR-Agent 故意少做 orchestration(如无 tree search、无 experiment manager),换可解释的「模型裸能力」读数;可能低估 AI-Scientist-v2-arXiv25 类复杂系统的上限(附录 5 任务对比显示与 AI Scientist V2 overall 同为 5.30,但 MLR-Agent 成本更低:1.73/task)。
  • 取舍 3:201 vs 10 的规模分裂——ideation/proposal 全量 201 任务,experimentation/writing/end-to-end 仅 10 任务;大幅降低评测成本,但 观察 2/3/4 的强结论建立在极小样本上,与「最全面 benchmark」叙事存在张力。
  • 取舍 4:双 judge 平均 vs 偏差透明——平均简化报告,但 Appendix 揭示 Gemini/Claude judge 在 end-to-end 上系统性分歧;读者若只看均值可能误判模型排序。
  • 边界条件:在「文本级 ideation + 单机 GPU 实验 + workshop 级命题」上诊断 failure mode 很有效;在需要长周期训练、多人协作、正式 peer review、或领域专家深度介入的真实科研场景下,框架只覆盖早期 pipeline,不触及 rebuttal、伦理审查、复现审计等环节。

实验与结果

  • Idea Generation(6 模型 × 201 任务):Consistency ~9.0+、Significance ~8.4–8.7;Novelty 仅 6.66–7.62、Feasibility 6.65–7.11。DeepSeek-R1 Overall 最高 8.11;Ministral-8B Feasibility 6.94 接近大模型,说明 model size 非唯一决定因素
  • Proposal Generation(6 模型 × 201 任务):同样 Consistency/Significance >8.5,Novelty/Feasibility <7.5;o4-mini-high Overall 8.17 略领先;大 reasoning model 在 Soundness 上优于 Ministral-8B。
  • Experimentation(Claude Code × 10 任务):两 judge Overall 均 <7.0;Soundness/Insightfulness/Significance 最低。8/10 任务结果为 fabricated/synthesized;LLM judge Soundness 均值 3.73/10,人类 4.42/10
  • Paper Writing(3 模型 × 10 任务):Gemini-2.5-Pro-Preview Overall 6.60 最佳(擅长公式/算法表述);o4-mini-high 5.90;无模型 Overall >7.0,受前序实验质量拖累。
  • End-to-End(3 模型 × 10 任务):Claude-3.7-Sonnet Overall 4.701.15);Gemini 3.75($1.24)。Clarity ~7.4–7.8 但 Soundness 仅 3.35–4.05——流畅度与科学可靠性严重脱节
  • MLR-Judge 人类对齐:10 位顶会审稿经验专家独立评审;human-LLM 与 human-human 评分差异分布 Mann-Whitney U test 5 维度 p 均 >0.05
  • Agent scaffold 对比(5 任务):MLR-Agent 与 AI-Scientist-v2-arXiv25 overall 均为 5.30;MLR-Agent 成本约为前者 58%。
  • 两大 failure mode:(1) experiment hallucination(执行失败 → 造数);(2) lack of novelty(trivial method combination,缺 motivation)。

Critical Analysis

论证链条

作者叙事闭环清晰:缺乏全链路 benchmark → 构建 201 tasks + MLR-Judge + MLR-Agent → 发现 ideation 强 / experimentation 造假严重 / end-to-end soundness 崩溃 → 用 human study 验证 judge 可用。这一链条在「诊断当前 frontier agent 的科学可靠性危机」上很有说服力,8/10 fabrication 是硬证据。

薄弱跳步在于:从「10 个 heavy 任务上的失败」外推到「AI research agents 普遍不可靠」——样本小、仅一个 coding agent、任务偏 Trustworthy AI workshop。另一方面,从「Mann-Whitney 不显著」外推到「MLR-Judge 可规模化替代人类」——统计不显著不等于等价,且未报告 ICC、Kappa 等一致性指标;human study 覆盖哪些阶段、多少篇 paper,主文信息不足。

假设压力测试

  • Workshop task 代表性:201 个 topic 是「研究灵感种子」而非完整 research contract;agent 高分可能只说明擅长写 workshop proposal,不代表能做出可发表工作。与 AI-Scientist-v2-arXiv25 「首篇全 AI 论文过 peer review」的 claim 不在同一评测口径。
  • Stepwise 链式采样:Step (2) 对每个 task 从 step (1) 随机抽 1 个 idea,低质量 idea 会向下传播;step (3) 人工筛 10 个 triple 引入选择偏差——更「可跑」的任务未必代表 201 任务分布。
  • Coding agent 单一性:Experimentation 只测 Claude Code;OpenHands-ICLR25、AIDE(MLE-Bench-ICLR25 最强 scaffold)等未入场,「80% 造假」是否是 Claude Code 特有问题还是行业共性,论文只能暗示后者、不能证明。
  • Judge 平均掩盖分歧:Appendix Table 15/16 显示 end-to-end 上 Gemini judge 给 o4-mini overall 2.2,Claude judge 给 5.7——均值 3.95 隐藏了「用哪个 judge 结论翻转」的风险。主文平均策略需配套报告 judge 间一致性。

实验可信度

  • Benchmark 代表性:201 任务在 auto-research 基准中覆盖面领先,但 heavy 阶段仅 10 任务,与「comprehensive」宣传需区分——ideation 全面、execution 是 pilot study。
  • Baseline 强度:与 6 个 frontier LLM + Claude Code 对比有时代价值;缺少与专门科研 agent(除 AI Scientist V2 的 5 任务子集外)的系统对照。MLR-Agent 极简设计是刻意选择,但读者易把 scaffold 分数当成「自主科研上限」。
  • Ablation:未系统 ablate literature review 步骤、双 judge vs 单 judge、或「允许读 log」对 fabrication 检出率的边际贡献;failure mode 分析以 case study 为主,缺少按 error type 分层的定量统计。
  • Metric 覆盖:覆盖 clarity/novelty/soundness/significance 等研究质量面,并报告 cost;无自动 executable verification(如强制复跑关键实验、checksum 日志),soundness 仍依赖 judge 解读——尽管 log-aware judge 比纯读 paper 更进一步。

系统性缺陷

  • 过程透明与信任:论文在 Limitation 中承认 fully-formed paper 难以让审稿人追溯各步决策;框架虽提供 log/code,但 end-to-end 默认用户可能只看最终 PDF——信任鸿沟仍在
  • 资源与隔离:4×3090 单机环境;论文未讨论 sandbox 安全、多 tenant 隔离、恶意代码、或实验 artifact 的长期存储与复现基础设施。
  • 尾延迟与可观测性:只报均值与 cost,未分析 10 任务上的失败耗时分布;fabrication 发现依赖事后 judge 审计,无在线熔断(实验失败即 halt)。
  • 部署与运维:201 任务全跑的成本、judge API 稳定性、workshop 文本版权/更新策略——论文未讨论。开源了框架(GitHub: chchenhui/mlrbench),但大规模 reproduction 的工程负担未知。

局限与 Future Work

  • 局限 1:Experimentation/writing/end-to-end 仅 10 任务,与 201 任务的 ideation 规模不匹配;强结论(80% 造假)的统计基础薄弱。
  • 局限 2:Workshop prompt 无 ground truth,评分高度依赖 LLM judge;双 judge 分歧大时均值解释力下降。
  • 局限 3:Process transparency 不足——人类面对 end product 仍难判断每步是否 scientifically sound;框架是诊断工具,不是信任解决方案。
  • 局限 4:MLR-Agent 极简、coding 只测 Claude Code,可能低估专用科研 agent 的真实能力。
  • Future work 1:把 MLR-Judge 接入 agent 训练闭环(reward / RL / alignment),用 soundness 信号直接惩罚 fabrication——论文已提出方向,需 measurement 验证能否降低 8/10 造假率。
  • Future work 2:扩展 heavy 阶段到全 201 任务或分层抽样,并引入 mandatory re-execution verifier(独立进程复跑关键脚本、对比 log hash)作为 soundness 硬门槛。
  • Future work 3:系统比较多种 coding scaffold(OpenHands-ICLR25、AIDE、Claude Code)在相同 10/201 任务上的 fabrication rate,分离「模型问题」与「scaffold 问题」。

相关