Kosmos: An AI Scientist for Autonomous Discovery (arXiv 2025)

一句话总结:Kosmos 用一个结构化 world model 协调数据分析 agent + 文献检索 agent 并行跑 200+ rollouts,单次 12 小时跑完相当于人类专家 6.14 个月的工作量,在代谢组、材料、连接组、统计遗传等 7 个领域产出真实 discovery,report 里 79.4% 语句经独立专家验证为正确且全部可 trace 到 code 或文献。

问题

已有 AI scientist(Sakana AI-Scientist-arXiv24、Robin、Virtual Lab、Google AI co-scientist)都受 context window 和 agent coherence 所限,能跑的动作数少,难以在跨领域的数据驱动科研里积累足够深度。具体瓶颈:

  • 多 agent 之间缺乏共享 context,只能轻量同步。
  • 长程迭代(几十轮)后 agent 会失焦,discovery 深度被动截断。
  • Sakana 只能做 ML 研究;Robin 局限于 therapeutics;AI co-scientist 只提假设不跑数据;Virtual Lab 缺 exploratory analysis。

Kosmos 的目标:给定一个数据集 + 开放式研究目标,自主跑数小时级别的 literature search / data analysis / hypothesis generation 循环,最终产出 citation 完整、可复现的 scientific report。

核心方法

系统结构

  • 每个 cycle 并行最多 10 个任务,分派给两类 Edison Scientific agent——data analysis agent(基于 Finch)和 literature search agent(基于 PaperQA2)。
  • Cycle 结束后由 LLM 把所有 task output summarize 更新到 structured world model——整个系统的共享 memory,压缩历史发现、当前假设、未解问题。
  • 下一 cycle 用 world model 做 query 再产出新任务列表,如此迭代 20 个 cycle 左右(单次运行 ~12 小时)。
  • 最终 LLM 基于 world model 合成 3-4 篇 scientific report,每条 statement 强制 cite 一篇论文或一个 Jupyter notebook,保证 traceability。

Scale 数据(vs baseline)

  • Kosmos 平均 42,500 行代码 + 读 1,500 篇全文论文/run;Robin 4,310 行 + 1,530 篇;Finch 301 行;PaperQA2 只读 33 篇 —— Kosmos 代码生成量比 Robin 高 9.8×
  • 平均 166 个 data analysis rollout + 36 个 literature review rollout,比现有系统多 8×。

评估方法

  • 独立专家随机抽 102 条 statement 做 supported/refuted 判定,不给 code 和引文源。
  • 让真实学术团队用 Kosmos 结果,估算对应的 expert-time,以及 novelty / reasoning depth。
  • 7 个真实 case study:代谢组学(hypothermia 保护机制)、钙钛矿太阳能电池工艺参数、连接组学(log-normal 分布)、SOD2 → myocardial fibrosis、2 型糖尿病 GWAS 顺式调控、Alzheimer 病事件时序、以及内嗅皮层神经元老化的新临床机制。

关键结果

  • Accuracy:全部 statement 79.4% supported;细分为数据分析 85.5%、文献综述 82.1%、synthesis(两者融合解释)57.9%——synthesis 是主要痛点,系统倾向把 statistically significant 混同于 scientifically valuable。
  • Expert-time scaling:Cycle 20 的 Kosmos run 被学术合作者估算等价人类 6.14 个月研究(σ=2.49),且 valuable finding 数量与 cycle 数近似线性。
  • Discovery mix(7 个 case):3 个复现了未访问到的 preprint/未发表结果,2 个给已有发现补充新证据,1 个自创分析方法(Alzheimer 事件时序 breakpoint 模型),1 个全新临床相关发现(内嗅皮层神经元老化易感机制)。
  • Traceability:每条 statement 绑定 Jupyter notebook 或引文,report 可被第三方直接 audit;这是现有 AI scientist 少见的严谨性承诺。
  • 限制:数据集 ≤5GB,不擅长处理 raw image/sequencing;不能访问外部数据做 orthogonal 验证;多 run 结果不一定收敛;研究方向对 prompt 措辞敏感;中间 cycle 不支持人类介入(但作者视 scientist-in-the-loop 为未来方向)。

相关