Mycroft: Tracing Dependencies in Collective Communication Towards Reliable LLM Training (SOSP 2025)
一句话总结:在 NCCL collective 内部做轻量依赖追踪,90% 异常 15s 内检出、60% 20s 内定位根因 GPU,字节生产部署 6 个月 Coll 级问题检出率 100%。
问题与动机
LLM 训练依赖 Data-Parallelism/Tensor-Parallelism/Pipeline-Parallelism 下大量 CollOp(ReduceScatter、AllGather…)。CCL 是黑盒:gray failure(通信 hang)和 fail-slow 只表现为全局 timeout 或均匀降速,难定位 culprit rank。Op-level(Kineto)、kernel-level(Nsight)、RDMA-level(Aegis)粒度不足或开销过大。
关键观察 / 隐含假设
- 观察 1:CollOp 内部 control/data dependency(chunk、channel、algorithm step)携带足够信息做根因定位,且可在低开销下采样追踪。
- 依赖假设:训练框架 Coll 调用模式相对固定;instrumentation 不破坏 NCCL 性能路径。
- 可能失效场景:自定义 MSCCL 算法、频繁 algorithm 切换;极短 CollOp 追踪粒度不足。
- 证据强度:强——生产 6 个月 + fault injection 双验证。
- 观察 2:gray failure 在 Op-level 超时前,内部 state 已停滞,Coll-level trace 可提前 15s 级检测。
- 依赖假设:trigger 机制能识别 stall pattern 而非仅 wall-clock timeout。
- 可能失效场景:缓慢 degrade 而非完全 stall,需与 MFU 监控联合。
- 证据强度:中——90%/60% 统计,case study 补充。
- 假设 1:依赖驱动的 RCA 无需全量 CUDA timeline 即可定位 GPU/NIC。
- 证据强度:强——比 NPKit(带宽降 2/3)等低开销。
核心方法
Mycroft:轻量分布式 tracing + dependency-driven root cause analysis。
- 捕获 Coll 内部 state 与 chunk 级依赖
- Trigger 机制在异常模式时启动细粒度 trace
- 聚合多 rank trace 做 distributed analysis
与 ByteDance 其他 debug 系统(如 ByteRobust 栈)集成。
设计取舍
- 取舍 1:Coll-level 专精,不替代 Op/kernel 全栈 profiler。
- 取舍 2:需 CCL 源码或 hook 点合作(NCCL/RCCL)。
- 边界条件:NCCL 系 Coll;自定义通信库需重新插桩。
实验与结果
- 32×A100 testbed:开销低于 GREYHOUND 等且 observability 更强
- Fault injection:多种 HW/SW 故障可检测+定位
- 生产(2024.10 起):Coll 问题 100% 检出;90% <15s 检测、60% <20s 根因 GPU
- 真实 case: defective GPU 导致全局 hang,原需 6h+ 复现
Critical Analysis
论证链条
「CCL 黑盒 → 缺 Coll-level observability → Mycroft」直接。与 ByteRobust 形成 detection(localization) vs communication-internal RCA 互补。
假设压力测试
- 400Gbps+ 更大 message 时 trace 存储压力?
- 多 tenant 集群是否可部署?论文聚焦单 job。
- 40% case 无法在 20s 定位根因,后续路径未量化。
实验可信度
生产统计可信度高。Testbed 32 GPU 相对生产万卡 scale-down,RCA 算法 scale 外推需谨慎。
系统性缺陷
论文未讨论:trace 数据隐私;长期存储成本;与自动 remediation(驱逐坏机)闭环集成细节。
局限与 Future Work
- 局限 1:依赖 NCCL 生态插桩。
- 局限 2:40% case 根因定位 >20s 或失败。
- Future work 1:与 scheduler 联动自动 isolate culprit rank,缩短人工介入。
相关
- 相关概念:NCCL、ETTR、collective communication、gray failure
- 同类系统:ByteRobust、Kineto、Aegis、GREYHOUND
- 同会议:SOSP-2025