LAPS: A LENGTH-AWARE-PREFILL LLM SERVING SYSTEM (MLSys 2026)

一句话总结：PD-Disaggregation 后 prefill 内长短请求仍互相干扰（mix 使 long-prefill P90 飙升）；LAPS 在 prefill 阶段再按长度拆池 + bucket 批处理 + CUDA Graph，多轮真实 trace 上 prefill 延迟 >30%↓，多实例 SLO 违约 28%↓，高并发吞吐 35%↑（Qwen2.5-32B）。

问题与动机

LLM serving 常用 PD-Disaggregation，但 prefill 池内 long compute-bound prefill 与 short memory-bound prefill/re-prefill（多轮聊天占 81% prompt <256）混批产生 compute–memory interference（Fig.1）。需在 prefill 内部再做 length-aware 调度，而非仅 PD 分离。

LAPS 提出第四类部署模式：prefill batch temporal/spatial disaggregation（与 mix、PD temporal、PD spatial 并列）。

关键观察 / 隐含假设

观察 1：re-prefill 因读历史 KV，在更短 L 下即转 memory-bound（统一 latency 模型给出 L_reprefill_m）。
- 依赖假设：LMsys-Chat-1M 分布代表生产 multi-turn。
- 可能失效场景：超长单轮 prompt 主导时 long pool 压力不同。
观察 2：长短混跑显著抬高 long-prefill P90，并发越高越严重。
- 依赖假设：隔离长短池可消除互扰。
- 可能失效场景：两池资源静态划分可能在 skew burst 时一侧饥饿。
观察 3：short-prefill 侧 waiting window + length bucket + CUDA Graph 降 launch 开销、提高 batch 均匀性。
- 依赖假设：SLO-aware scheduler 平衡 window 与吞吐。
- 可能失效场景：极低延迟 SLO 时 window 趋近 0，收益缩小。
假设 1：与现有 PD 架构兼容，可叠加部署。**
- 证据强度：强——基于 SGLang 实测。

核心方法

Dual prefill pools：runtime 分 long/short，batch disaggregation 消除 interference。

Short-prefill scheduler：动态 waiting window；按输入长度 bucket；CUDA Graph cluster 执行。

Multi-instance：spatial 分离 + 负载感知在实例间调 long/short 负载。

设计取舍

四段 disaggregation vs 运维复杂度：多池调度、路由规则增加，换 TTFT/SLO。
Bucket+window vs 即时调度：提高 GPU 效率，可能略增 short 等待。
vs chunked prefill：正交，LAPS 针对池内异构而非 prefill-decode 交错。
边界条件：Qwen2.5-32B、H200；与 vanilla SGLang PD 对比。

实验与结果

Prefill latency：>30%↓ vs vanilla SGLang PD。
Multi-instance SLO violations：28%↓（data-parallel）；vs SGLang router LB 再 12%↓。
High concurrency mixed requests：prefill 吞吐 35%↑。
表征：63% 首轮 prompt <256 tokens；后续轮 81% <256。

Critical Analysis

论证链条

PD 不够 → 表征 compute/memory 边界 → 池化+bucket → 多指标改进，逻辑闭合。两池容量配比是否需自适应是主要未闭环问题。

假设压力测试

RAG 超长单轮、agent 大 tool payload 可能重塑 long/short 比例。与 LAPS 名不同的 layer-wise 优化无涉。

实验可信度

真实 LMsys trace 动机；SGLang 集成可信。缺：与 LayeredPrefill/chunked 系统 head-to-head。

系统性缺陷

论文未讨论跨池迁移、冷启动池、global power cap。CUDA Graph 与 dynamic shape 冲突运维未深谈。

局限与 Future Work

局限 1：双池静态容量可能 skew 敏感。
局限 2：依赖 SGLang 栈特性。
Future work 1：RL/反馈控制动态 long/short 实例比例。
Future work 2：与 TokenWeave/Disaggregation 联合测端到端 TTFT。

Awesome System Papers Wiki

探索

LAPS-MLSys26