Matrix: Peer-to-Peer Multi-Agent Synthetic Data Generation Framework (MLSys 2026)

一句话总结：大规模 multi-agent 合成数据若走中心化编排会成为瓶颈；Matrix 将控制/数据流都建模为 P2P 消息，计算下沉分布式服务，在数万并发 agent workflow 下相对中心化实现 2–15× 吞吐且质量保持，计划开源。

问题与动机

LLM agent 合成数据流水线（多角色、多步、分支）并发可达万级。中心化 controller 限制扩展；需要模块化、可配置、高吞吐的 distributed orchestration。

观察 1：agent workflow 的控制依赖与数据依赖都可视为 peer 消息，避免单点调度。
- 依赖假设：P2P 路由不引入难调试的全局状态。
- 可能失效场景：强全局事务/严格顺序 workflow 需额外同步层。
观察 2：相对中心化 baseline 2–15× 吞吐，质量不降。
- 依赖假设：分布式服务池算力线性扩展；质量 metric 在论文任务上稳定。
- 可能失效场景：跨 region 高延迟 P2P 时 tail 变差未详述。
假设 1：用户可通过配置适配多样数据生成任务而无需改核心逻辑。**
- 证据强度：中——多实验场景，细节在全文。

P2P messaging：控制+数据平面皆 peer-to-peer。

Distributed services：agent 计算委托可扩展后端。

Modular config：角色/任务/图拓扑配置化。

中心化瓶颈 → P2P+服务化 → 吞吐大幅提升，系统逻辑直接。质量保持需明确评测维度（多样性/毒性/下游 utility）。

超十万 agent 时消息风暴、循环检测、失败重试成本。与 MorphServe/serving 无直接关系。

倍数区间宽，依赖 workload。缺：fault tolerance、straggler agent 处理公开数据。

论文未讨论数据治理、PII 过滤、成本$/sample。P2P 安全模型未展开。