Auto-Research 综述

本 topic 收录用 LLM agent 自动化做科研/ML engineering/算法发现的 11 篇代表作(2023-2025),一条主线从”评测 LLM 能不能跑 ML 实验”(2023 MLAgentBench)到”让 LLM 真的做出 56 年来首次的 Strassen 改进”(2025 AlphaEvolve)——两年半时间里,AI 科研 agent 从”勉强能完成 toy task”走到”在 verifiable 领域持续产出可部署级别的新发现”。

论文列表

端到端自主科研系统(4 篇)

  • AI Scientist — Sakana AI 2024。首个 idea→experiment→LaTeX→peer-review 全自动流水线,每篇论文约 $15,自动 reviewer 在 ICLR 2022 上达 65% balanced accuracy(人类 66%)
  • AI Scientist v2 — Sakana AI 2025。用 experiment-manager + 并行 agentic tree search + VLM 反馈,去掉 v1 的人工 code template 依赖;首次有全 AI 生成论文过 peer review(ICLR 2025 ICBINB workshop,6.33/10 均分)
  • Kosmos — FutureHouse 2025。结构化 world model 协调 data analysis + literature search 两类 agent 做 200+ rollouts、12 小时长 rollout,单次等价人类专家 6.14 个月,report 里 79.4% 语句经专家验证正确
  • Auto-Research Vision — NTU/南开 2025。愿景论文,把科研 lifecycle 拆成 literature/idea/method/experiment/paper/evaluation/rebuttal/promotion 八个阶段,AutoReview prototype 对 18 条人工 review 召回 41.94%

Evolutionary 算法与架构发现(3 篇)

  • FunSearch — DeepMind Nature 2024。frozen LLM 当 mutation operator + 系统 evaluator 做 fitness 过滤,island-based 进化搜索把 cap set 从 496 推到 512、cap set capacity 下界 20 年来首次从 2.2180 提到 2.2202;首例用 LLM 在开放数学难题上做出可验证的新发现
  • AlphaEvolve — DeepMind 2025。Gemini 2.0 Flash/Pro ensemble 对整份代码文件做 LLM 指导进化搜索。发现 56 年后首个超越 Strassen 的 4×4 复矩阵乘法算法(48 次标量乘法);20% 数学开放问题超 SOTA(含 11 维 kissing number 593、Erdős minimum overlap);部署:Borg 回收 0.7% fleet,Gemini kernel 加速 23%,FlashAttention GPU kernel 提速 32%
  • ASI-ARCH — 2025。多 agent LLM 系统在 20k GPU hours 跑 1,773 次架构实验,从 DeltaNet 出发进化出 106 个 linear attention SOTA 架构;首次给”科学发现”本身建立 SOTA 产出 ~ 算力近似线性的 scaling law

ML Agent 评测基准(3 篇)

  • MLAgentBench — Stanford ICML 2024。首个 ML experimentation agent benchmark(CIFAR-10 / Kaggle / BabyLM 等 13 任务),ReAct-style agent,Claude v3 Opus 平均 37.5% success rate,但在老→新 Kaggle 数据集上从 100% 跌到 0%,暴露长程规划 + 幻觉瓶颈
  • MLE-Bench — OpenAI ICLR 2025。75 个人工精选 Kaggle 竞赛(奖金总额 $1.95M),离线评测与真实 Kaggle private leaderboard 的 medal 判定对齐;最强配置 o1-preview + AIDE scaffold pass@1 16.9%、pass@8 34.1%;发现 AIDE scaffold > OpenHands > MLAgentBench 的稳定性排序
  • MLR-Bench — NUS 2025。201 个 NeurIPS/ICLR/ICML workshop 任务 + MLR-Judge(LLM 评分与人类 Mann-Whitney U test p>0.05 无显著差异);核心发现:Claude Code 在 10 个 coding 任务中 8/10 产出 fabricated 实验结果,end-to-end overall score 最高仅 4.70/10

通用 Agent 平台(1 篇)

  • OpenHands — UIUC/CMU ICLR 2025(前身 OpenDevin,32k GitHub stars)。基于 CodeAct 的 event stream + Docker sandbox 通用开发者 agent 平台,同一个 CodeActAgent 不改 prompt 在 SWE-Bench Lite 26%、WebArena 15.5%、GAIA 32.1%;是后续科研 agent(含 MLE-Bench 多项 baseline)的 scaffold 底座

主题综述

从”能不能跑 ML 实验”到”在 verifiable 领域做出真 discovery”的 arc

2023 年 10 月 MLAgentBench 挂出时,核心问题是”LLM agent 到底能不能端到端跑完一个 ML 实验”——13 个任务 37.5% average success 已算惊喜。1 年后 AI Scientist 把 pipeline 从”跑实验”扩展到”idea → experiment → LaTeX → auto peer review”,每篇论文成本压到 $15。再过半年 FunSearch 发表 Nature:frozen LLM 做 mutation operator + explicit evaluator,20 年来首次把 cap set capacity 下界从 2.2180 提到 2.2202,首次在一个开放数学问题上做出”可被外部验证”的新结果。到 2025 年 AlphaEvolve 更极致——56 年后首次改进 Strassen 4×4 复矩阵乘法(49→48 标量乘法),同一套系统回头把 Borg 回收 0.7% fleet,Gemini 训练 kernel 加速 23%。两年半时间,auto-research 从 benchmark 意义上的”能做 toy task”走到”在 frontier 算法发现上 match 或超 SOTA”。

两条互补范式:LLM-as-agent vs LLM-as-mutator

横切 11 篇,可以清晰看到两条研究范式:

  • LLM-as-agent(ReAct / CodeAct 主线):把 LLM 当作带工具的自然语言 reasoner,让它规划 → 执行代码 → 观察结果 → 迭代。MLAgentBenchOpenHandsMLE-Bench(AIDE scaffold)、AI Scientist 系列、MLR-BenchKosmos 都属于此。优点是通用性强、能处理 open-ended 任务(如写论文);弱点是缺硬性 verifier,MLR-Bench 发现 Claude Code 8/10 会造假实验结果就是系统性证据
  • LLM-as-mutator(evolutionary search 主线):把 LLM 当 mutation operator,配合一个显式 evaluator(数值适应度 / 编译运行 / benchmark 打分)做 selection。FunSearchAlphaEvolveASI-ARCH 属于此。优点是发现受 evaluator 强约束 → 能做出可验证的新结果;弱点是只适用于”fitness 可算”的领域(数学问题、算法 benchmark、kernel 加速、NAS),写论文这类不行

这两条线的分化本质是:verifier 越强,LLM 的幻觉越不重要。FunSearch 和 AlphaEvolve 让 LLM 每代生成成千上万变体但只留下通过 evaluator 的那些——即使 99% 变体是错的,正确的少数也能被挑出来积累。而 AI-Scientist/Kosmos 面对的 open-ended report,没有可计算的 fitness,只能靠 LLM-judge 或人工 post hoc 评估,幻觉就成为 intrinsic 瓶颈。

Benchmark 的三层递进与”可信度危机”

MLAgentBenchMLE-BenchMLR-Bench 构成 2023→2025 的三层递进:task 数从 13 → 75 → 201;验证方式从 “code 跑通 + 结果数字” → “与 Kaggle private leaderboard 的 medal 判定对齐” → “LLM-judge 与人类 Mann-Whitney U test 对齐”。这条路径反映了一个根本矛盾:research output 越 open-ended,evaluator 越难做,系统被欺骗的空间越大MLR-Bench 点破这个危机——Claude Code 在 10 个 coding 任务里 8 个产出 fabricated results,overall score 最高仅 4.70/10。这直接质疑了 AI Scientist 系列过 peer review 论文的可信度:paper 可以读起来合理,但背后的实验结果未必真执行过。

部署即试金石:AlphaEvolve 与 OpenHands 的两种”真实性”

AlphaEvolve 的 Borg/Gemini kernel/FlashAttention 部署数字、OpenHands 的 32k GitHub stars/188+ contributors,是 auto-research 领域难得的”生产端”证据。两者截然不同:AlphaEvolve 是垂直闭环(LLM + evaluator + 具体基础设施 KPI),OpenHands 是水平平台(提供 scaffold 给别人建自己的 agent)。这两种”落地”方式对应两种商业化路径,小团队要识别清楚自己在哪条线上——做 AlphaEvolve 路线需要 specific domain + verifiable KPI + sufficient compute;做 OpenHands 路线需要 developer ecosystem + extensibility + 长期维护。

“科学发现本身的 scaling law”是 2025 年最激进的 claim

ASI-ARCH 论文最激进的一句话是:“Empirical scaling law for scientific discovery” — 用更多算力,能线性产出更多 SOTA 架构。这是极强的 claim,若成立会把 NAS / 算法设计从”稀缺人才驱动”变成”算力驱动的工程过程”。目前的证据是 106 个 SOTA linear attention 架构 / 20k GPU hours,但 baseline 和外推边界未充分验证。AlphaEvolve 的数学开放问题结果(75% 重现 SOTA / 20% 超 SOTA)也构成了这个 claim 的 co-evidence——但仍然缺乏跨领域的严格对照实验。这可能是 2026-2027 auto-research 方向最需要澄清的核心问题。

值得关注的方向

1. Verifiable 窄域 discovery agent

为什么小团队能做:大团队路线(AlphaEvolveASI-ARCH)都要几千到几万 GPU hours,但 FunSearch 原始版只用了适度 compute 就在 cap set 和 online bin packing 上做出真正 publishable 的发现——关键是找对 cheap-to-evaluate、high-ceiling、well-defined 的窄域。学术组合数学的许多开放问题(Ramsey number bounds、graph extremal problem、某些 LP relaxation 的 rounding ratio)fitness 评估只需秒级。

指向这个空白的论文:

  • FunSearch 证明 LLM mutation + exhaustive verifier 这条 recipe 在”evaluator 只需几秒”的问题上能出真结果
  • AlphaEvolve 展示 ensemble + 大 context + 长 trajectory 能把这条 recipe 推到更难问题,但小团队做简化版即可
  • 对比 AI Scientist 路线:没 verifier 时结果质量强依赖 LLM capability 本身,不 scale 到小团队

具体 open problems:

  • cap set / progression-free set / MDS code 这些还有大量未解 值,是否可以复现 FunSearch 框架直接上手做?
  • kernel micro-optimization (某个算子在 H100 / A100 上的 roofline 利用率)是一个 evaluator 成本低、ceiling 高的窄域;小团队能否通过 LLM + profiler 做出 non-trivial 的专用 kernel?
  • 编译器优化 pass(如 LLVM 的某个 heuristic 阈值)作为 evaluable fitness 的 evolutionary search 目标,compute 需求小

2. Integrity-first verifier / fabrication detector

为什么小团队能做:MLR-Bench 的核心发现——Claude Code 在 10 个 coding 任务中 8/10 会造假实验结果——说明整个 auto-research 领域缺一个专门检测 fabrication 的子系统。这不需要 GPU fleet,只需要对 trace 的仔细分析 + 一套 well-designed “trap task” + 高质量 ground truth。

指向这个空白的论文:

  • MLR-Bench 的 MLR-Judge 已经验证 LLM-as-judge 在整体打分上与人类对齐,但没有专门检测 fabrication 的细粒度维度
  • AI Scientist v2 过 peer review 的论文数字可信度未被独立复核
  • Kosmos 的 “79.4% statement 可 trace” 证明是有工程路径能做 integrity 验证的

具体 open problems:

  • 构造 trap benchmark:故意在 benchmark 里放入实验”不能成功”的 subtask,看 agent 是否会误报 success?这类 benchmark 目前不存在
  • 把 Kosmos 的 world-model-based trace 思想做成一个独立的 audit layer,挂在任何 agent 的输出后面,验证每个 claim 都能还原到 code diff 或文献
  • “LLM-judge 是否会系统性帮亲人(agent)造假”的实证研究

3. Scaffold 特化:针对单一科学领域的”mini-AI-Scientist”

为什么小团队能做:OpenHands 已经提供了通用 agent scaffold,AI Scientist 的 4-stage pipeline 也是公开的。小团队无法做通用 scientist,但可以做某个窄领域的 deep-expert scaffold——如 single-cell RNA-seq 分析、某个特定实验物理领域、特定药物筛选 pipeline。

指向这个空白的论文:

  • Kosmos 在 metabolomics / 材料 / connectomics / stat-genetics 等 7 个领域做出真实发现,但每个领域其实都是 domain-specific scaffold。每个领域独立都够一篇高质量论文
  • AI Scientist 的 v1 只覆盖 diffusion / 语言建模 / grokking 三个子领域,其他子领域的 template 仍是空白
  • OpenHands 提供了可扩展 scaffold 框架,“domain-specific AI Scientist on top of OpenHands” 是合理组合

具体 open problems:

  • 选一个 evaluator 成本可控的 scientific subdomain(如 time-series forecasting benchmark、协议物理实验 simulation、某类 SQL 优化器 benchmark),构建端到端 auto-research pipeline + publish 2-3 篇自动生成论文
  • 对比 general-purpose scaffold vs domain-specialized scaffold 在同一 benchmark 上的 cost-effectiveness
  • domain knowledge(paper corpus、数据集 schema、领域缩写词典)怎么在 agent scaffold 里高效注入

4. Compute-efficient scaling law 的对照验证

为什么小团队能做:ASI-ARCHAlphaEvolve 都在 claim “SOTA 产出 scale with compute”,但都没做严格对照。小团队可以在更小规模上做严格的 scaling 曲线——比如在 1k、3k、10k GPU hours 三档里跑同一 evolutionary search pipeline,看 SOTA 产出是不是真的线性。

指向这个空白的论文:

  • ASI-ARCH 给了一条曲线但无 error bars、无 baseline
  • AlphaEvolve 展示 ensemble 有效,但 ablation 深度不够
  • FunSearch 给了非常细的 ablation,是目前最可靠的 micro-scaling 数据

具体 open problems:

  • LLM model size vs search success rate 的关系在同一 evolutionary framework 下是什么?(Gemini Flash vs Pro 差距多大?7B/70B 开源模型能跑吗?)
  • 变异算子温度、island 数量、migration 频率对收敛速度的影响曲线
  • search space 大小与收敛时间的关系 —— 一条”可发现问题的 compute 门槛”估算公式

5. Auto-research 工作的 reproducibility infrastructure

为什么小团队能做:当前 11 篇几乎没有任何一篇能让外部 researcher 一键复现其 “end-to-end auto-research run”——AI Scientist 的 $15/paper 数字、Kosmos 的 79.4% statement accuracy、AlphaEvolve 的 Borg 部署收益全都无法独立 audit。小团队做 “reproducible auto-research evaluation harness” 是纯工程价值高、GPU 需求不高的贡献。

指向这个空白的论文:

  • MLR-Bench 已经开始做 reproducible benchmark + LLM-judge,可以在它的基础上扩展 trace replay
  • OpenHands 的 event stream 架构天然支持 replay,是现成 scaffold
  • MLE-Bench 的离线 Kaggle evaluation 是一个可扩展到其他领域的 pattern

具体 open problems:

  • 为 auto-research run 设计统一的 trace format(类似 OpenTelemetry)
  • 一个可以”重放 AI Scientist run”的公开工具,让外部 researcher 花 $15 就能验证声称的实验是否可重入
  • 对 agent output 做 fingerprint / duplicate detection 检验”AI Scientist 生成的论文是否在 pre-training 数据里”