SakuraONE: An Open Ethernet-Based AI HPC System and Its Observed Workload Dynamics in a Single-Tenant LLM Development Environment (MLSys 2026)

一句话总结:SAKURAONE 为 800 GPU(100×8 H100)+ 2PB Lustre + 800GbE RoCEv2 SONiC 开放网络栈的 TOP500 #49 集群;单租户 LLM 续训/微调项目 telemetry 显示作业数上小作业主导、GPU-hours 上大作业主导,且随项目阶段从大规模训练转向中规模迭代——填补中日等 数百卡级 生产负载公开数据空白。

问题与动机

公开运维数据多来自万卡 hyperscale;许多运营商实际主力是数百卡续训/微调平台。SAKURAONE 用开放以太网证明 vendor-neutral AI fabric 可扩展,并报告单项目 workload 演化。

关键观察 / 隐含假设

  • 观察 1:作业数量 small-scale 主导,GPU-time 少数 large job 主导——与经典 HPC 一致,但 LLM 开发期会向 mid-scale 漂移。

    • 依赖假设:单租户单项目减少跨租户调度噪声。
    • 可能失效场景:多租户混部时分布不同;外推需谨慎(论文明确限定)。
  • 观察 2:70B/300B token 四月目标反推需 ~800 H100 Hopper 量级;rail-optimized 800GbE + GPUDirect RDMA 可支撑 hybrid parallel collectives。

    • 依赖假设:2–3× per-GPU LLM 吞吐 vs A100;网络 ECN/PFC 调优足够 lossless。
    • 可能失效场景:极大 MoE EP 时网络模式不同未测。
  • 观察 3:存储网与训练网物理分离,~100GB/s 聚合带宽支撑 hourly multi-TB checkpoint + 并行数据生成。

    • 依赖假设:双 400GbE/节点到 Lustre 无训练 collective 干扰。
    • 可能失效场景:checkpoint 风暴与训练同峰仍可能争用 OPS。

核心方法

架构:100 节点 8×H100 SXM、NVLink;8×400GbE GPU fabric(PIX 亲和 NIC 映射)+ 独立 storage bond;SONiC + RoCEv2;2PB all-flash Lustre。

性能:HPL 33.95 PFLOP/s Rmax;HPCG 396 TFLOP/s;HPL-MxP FP8 339.86 PFLOP/s;TOP500 #49,top100 唯一全开放网络栈。

Telemetry:Slurm/作业日志分析 job size vs GPU-hours 随时间演化。

设计取舍

  • 开放以太网 vs InfiniBand:成本/供应链弹性,需 PFC/ECN 工程。
  • 单租户独占 vs 多租户:可观测性高,利用率可能低于混部云。
  • 空气冷却 8U vs 液冷:部署简单,功率密度受限。
  • 边界条件:日本商业 HPC;LLM 开发非单次极限 pretrain。

实验与结果

  • TOP500/HPCG 官方 benchmark 如上。
  • Workload:small job 数量多、large job 占 GPU-hours;中后期 mid-scale 占比升(项目阶段转换)。
  • 设计动机与 BLOOM/Jean Zay 对比定容量。

Critical Analysis

论证链条

容量规划→开放网络实现→benchmark+telemetry,experience report 逻辑自洽。Workload claim 样本=单项目,泛化有限但诚实。

假设压力测试

SONiC 社区升级风险;800GbE 大规模 collective 尾延迟未深拆;与 ABCI 等共享系统对比缺失。

实验可信度

Benchmark 可验证;telemetry 方法标准。缺 anonymized 多项目对比。

系统性缺陷

论文非优化系统研究;故障/网络拥塞案例浅;开源软件栈细节有限。

局限与 Future Work

  • 局限:单租户单项目 telemetry;开放网络长期可靠性数据短。
  • Future work:多租户混部轨迹;与 disaggregated training 网络流量表征;公开 anonymized job trace。

相关