LithOS: An Operating System for Efficient Machine Learning on GPUs (SOSP 2025)

一句话总结：以 OS 视角重构 GPU 资源管理——在 TPC 粒度做时空调度 + 透明地把 kernel 拆成 atoms + 动态 right-sizing + 细粒度功耗管理；与 MPS 相比 inference stacking 尾延迟降 13×、hybrid inference-training 尾延迟降 4.7×，同时 ~25% GPU 容量或能耗节省。

问题

GPU 在数据中心利用率普遍很低：Microsoft 52%、Alibaba 10%、Meta inference service 常 <30%、Llama 3 训练也只 ~40%。Dedicated 部署浪费大，但现有共享方案都不够：

MPS / MIG：粒度粗到整张 GPU 或 GPC，MIG 重配置 >5s
软件 cooperative multitenancy：绑死框架版本、需要 kernel 源码修改，不透明
temporal 方案（如 Clockwork、Clipper、TGS）：一次只跑一个任务，不能并行
空间方案（REEF、Orion 等）仍在 inference request / kernel 粒度，有严重 HoL blocking

核心方法

LithOS 把 GPU 调度从 proprietary driver/hardware 拉回软件层，用 Rust 实现，对 ML 栈完全透明。四个关键机制：

TPC Scheduler：在 Texture Processing Cluster 粒度做时空调度（H100 上 72 TPC），配合 online kernel latency predictor 和 TPC Stealing（idle 的 TPC 临时借给别的任务），比 MPS/MIG 细很多
Kernel Atomizer：不改编译器/runtime/PTX，透明地把一个 kernel 拆成若干 atoms（thread block 子集），每个 atom 独立调度；解决无硬件抢占下的 HoL blocking、支持执行中途重配 TPC
Hardware Right-sizing：用轻量模型预测每个 kernel/atom 实际需要的最小 TPC 数，空出来的 TPC 还给别人
细粒度 Power Management：根据 in-flight work 的特征动态调 GPU 频率

关键结果

Inference stacking：尾延迟比 MPS 降 13×，比 best SotA 降 4×，aggregate goodput 提升 1.3×
Hybrid inference + training stacking：尾延迟比 MPS 降 4.7×，比 best SotA 降 1.18×，aggregate throughput 提升 1.35×
Right-sizing：<4% 性能损失换 ~25% GPU 容量节省
Power management：7% 性能损失换 ~25% 能耗节省

Awesome System Papers Wiki

探索

LithOS-SOSP25

LithOS: An Operating System for Efficient Machine Learning on GPUs (SOSP 2025)

问题

核心方法

关键结果

相关

关系图谱

目录

反向链接