LAPS: A LENGTH-AWARE-PREFILL LLM SERVING SYSTEM (MLSys 2026)

一句话总结PD-Disaggregation 后 prefill 内长短请求仍互相干扰(mix 使 long-prefill P90 飙升);LAPS 在 prefill 阶段再按长度拆池 + bucket 批处理 + CUDA Graph,多轮真实 trace 上 prefill 延迟 >30%↓,多实例 SLO 违约 28%↓,高并发吞吐 35%↑(Qwen2.5-32B)。

问题与动机

LLM serving 常用 PD-Disaggregation,但 prefill 池内 long compute-bound prefillshort memory-bound prefill/re-prefill(多轮聊天占 81% prompt <256)混批产生 compute–memory interference(Fig.1)。需在 prefill 内部再做 length-aware 调度,而非仅 PD 分离。

LAPS 提出第四类部署模式:prefill batch temporal/spatial disaggregation(与 mix、PD temporal、PD spatial 并列)。

关键观察 / 隐含假设

  • 观察 1:re-prefill 因读历史 KV,在更短 L 下即转 memory-bound(统一 latency 模型给出 L_reprefill_m)。

    • 依赖假设:LMsys-Chat-1M 分布代表生产 multi-turn。
    • 可能失效场景:超长单轮 prompt 主导时 long pool 压力不同。
  • 观察 2:长短混跑显著抬高 long-prefill P90,并发越高越严重。

    • 依赖假设:隔离长短池可消除互扰。
    • 可能失效场景:两池资源静态划分可能在 skew burst 时一侧饥饿。
  • 观察 3:short-prefill 侧 waiting window + length bucket + CUDA Graph 降 launch 开销、提高 batch 均匀性。

    • 依赖假设:SLO-aware scheduler 平衡 window 与吞吐。
    • 可能失效场景:极低延迟 SLO 时 window 趋近 0,收益缩小。
  • 假设 1:与现有 PD 架构兼容,可叠加部署。**

    • 证据强度——基于 SGLang 实测。

核心方法

Dual prefill pools:runtime 分 long/short,batch disaggregation 消除 interference。

Short-prefill scheduler:动态 waiting window;按输入长度 bucket;CUDA Graph cluster 执行。

Multi-instance:spatial 分离 + 负载感知在实例间调 long/short 负载。

设计取舍

  • 四段 disaggregation vs 运维复杂度:多池调度、路由规则增加,换 TTFT/SLO。
  • Bucket+window vs 即时调度:提高 GPU 效率,可能略增 short 等待。
  • vs chunked prefill:正交,LAPS 针对池内异构而非 prefill-decode 交错。
  • 边界条件:Qwen2.5-32B、H200;与 vanilla SGLang PD 对比。

实验与结果

  • Prefill latency:>30%↓ vs vanilla SGLang PD。
  • Multi-instance SLO violations:28%↓(data-parallel);vs SGLang router LB 再 12%↓
  • High concurrency mixed requests:prefill 吞吐 35%↑
  • 表征:63% 首轮 prompt <256 tokens;后续轮 81% <256。

Critical Analysis

论证链条

PD 不够 → 表征 compute/memory 边界 → 池化+bucket → 多指标改进,逻辑闭合。两池容量配比是否需自适应是主要未闭环问题。

假设压力测试

RAG 超长单轮、agent 大 tool payload 可能重塑 long/short 比例。与 LAPS 名不同的 layer-wise 优化无涉。

实验可信度

真实 LMsys trace 动机;SGLang 集成可信。缺:与 LayeredPrefill/chunked 系统 head-to-head。

系统性缺陷

论文未讨论跨池迁移、冷启动池、global power cap。CUDA Graph 与 dynamic shape 冲突运维未深谈。

局限与 Future Work

  • 局限 1:双池静态容量可能 skew 敏感。
  • 局限 2:依赖 SGLang 栈特性。
  • Future work 1:RL/反馈控制动态 long/short 实例比例。
  • Future work 2:与 TokenWeave/Disaggregation 联合测端到端 TTFT。

相关