LithOS: An Operating System for Efficient Machine Learning on GPUs (SOSP 2025)

一句话总结:以 OS 视角重构 GPU 资源管理——在 TPC 粒度做时空调度 + 透明地把 kernel 拆成 atoms + 动态 right-sizing + 细粒度功耗管理;与 MPS 相比 inference stacking 尾延迟降 13×、hybrid inference-training 尾延迟降 4.7×,同时 ~25% GPU 容量或能耗节省。

问题

GPU 在数据中心利用率普遍很低:Microsoft 52%、Alibaba 10%、Meta inference service 常 <30%、Llama 3 训练也只 ~40%。Dedicated 部署浪费大,但现有共享方案都不够:

  • MPS / MIG:粒度粗到整张 GPU 或 GPC,MIG 重配置 >5s
  • 软件 cooperative multitenancy:绑死框架版本、需要 kernel 源码修改,不透明
  • temporal 方案(如 Clockwork、Clipper、TGS):一次只跑一个任务,不能并行
  • 空间方案(REEF、Orion 等)仍在 inference request / kernel 粒度,有严重 HoL blocking

核心方法

LithOS 把 GPU 调度从 proprietary driver/hardware 拉回软件层,用 Rust 实现,对 ML 栈完全透明。四个关键机制:

  • TPC Scheduler:在 Texture Processing Cluster 粒度做时空调度(H100 上 72 TPC),配合 online kernel latency predictor 和 TPC Stealing(idle 的 TPC 临时借给别的任务),比 MPS/MIG 细很多
  • Kernel Atomizer:不改编译器/runtime/PTX,透明地把一个 kernel 拆成若干 atoms(thread block 子集),每个 atom 独立调度;解决无硬件抢占下的 HoL blocking、支持执行中途重配 TPC
  • Hardware Right-sizing:用轻量模型预测每个 kernel/atom 实际需要的最小 TPC 数,空出来的 TPC 还给别人
  • 细粒度 Power Management:根据 in-flight work 的特征动态调 GPU 频率

关键结果

  • Inference stacking:尾延迟比 MPS 降 13×,比 best SotA 降 ,aggregate goodput 提升 1.3×
  • Hybrid inference + training stacking:尾延迟比 MPS 降 4.7×,比 best SotA 降 1.18×,aggregate throughput 提升 1.35×
  • Right-sizing:<4% 性能损失换 ~25% GPU 容量节省
  • Power management:7% 性能损失换 ~25% 能耗节省

相关

  • 相关概念:GPU scheduling、Spatial multiplexing、DVFS
  • 同类系统:REEF、Orion、MuxFlow、TGS、Clockwork
  • 同会议SOSP-2025