Optimizing Deployment Configurations for LLM Inference: Challenges and Insights (MLSys 2026)

一句话总结：Meta Llama 近 10 亿 MAU 推理需在硬件（H100/H200/MI300X）、5D 并行（TP/PP/EP/CP/DP）、runtime（continuous batching vs disaggregation）与优化技法组成的 数百万 配置中满足 TTFT/TTIT SLO；轻量 benchmark 驱动模拟器（±5% 误差、分钟级搜百万组合）提炼生产洞察，在线场景 disagg 吞吐 1.5–2.2× vs continuous batching，整体配置优化带来约 2.5× 吞吐提升，多数在线服务已迁 disagg 省 ~30% 容量。

问题与动机

单条 Llama3-70B 请求成本远高于传统推荐模型（Table 1）。生产 workload 在 input/output 长度、session KV-Cache 累积、多模态、SLO 上极度异构；硬件平台从 weak/strong scale-out 到 scale-up（NVLink Switch、TPU pod）成本性能差可达 2–3×。

手工启发式无法跟上 MoE、MLA 等架构与优化技法迭代。需要 系统化设计空间探索：在 latency SLO 约束下最大化 throughput（QPS_cluster）。

关键观察 / 隐含假设

观察 1：prefill 计算密集、decode 内存带宽密集——最优并行 phase-specific；disaggregated runtime 可为两阶段选不同 P（如 70B online：prefill PP4-TP2，decode TP8）。
- 依赖假设：模拟器 operator 插值（100K+ microbench/硬件）足够预测端到端；通信与 runtime overhead 可叠加在关键路径。
- 可能失效场景：P99 尾延迟受网络抖动，模拟器偏 median/mean；新算子未 benchmark 时需 simulation 估计。
观察 2：严格 TTFT/TTIT 的在线场景，disagg 一致优于 continuous batching（70B 1.5–1.8×，405B 1.8–2.2× QPS_cluster），因 decode batch 可远大于 mixed batch（如 112 vs 28）。
- 依赖假设：KV 传输与 pool 运维成本可接受——Meta 多数在线已切换 disagg。
- 可能失效场景：离线吞吐 sole objective 时差距缩小，70B 上 cont.batch 甚至略胜，disagg 运维不划算。
观察 3：异构硬件映射（算力型 prefill GPU + 带宽型 decode GPU）可达与同质最佳相当的 QPS_cluster，建模估 15–25% 成本效率提升。
- 证据强度：中——依赖真实卡价与可用池；跨地域调度复杂。
观察 4：MoE 在 scale-out 上 EP 可显著提升吞吐，但 expert load imbalance 需经验 token 分布建模；simulator 纳入 empirical routing。
- 可能失效场景：routing 漂移或 cold expert 时 benefit 缩水。
假设 1：组合空间可激进剪枝（违 SLO/内存、非 2 幂并行度等）后仍保留最优附近解。
- 可能失效场景：GB200 NVL72 等非 8 卡拓扑需扩展搜索规则。

核心方法

问题形式化：给定模型 M、workload D、硬件 H、并行 P、runtime R，最大化 QPS_cluster s.t. TTFT/TTIT ≤ SLO。

模拟器（Fig. 7）：

Micro-benchmark 建 (F(op, H, shape)) 分段线性插值。
按 P 实例化算子图，加 collective 与 runtime 开销。
Continuous batching：prefill/decode 耦合计 TTIT；disagg：独立池再算 accelerator ratio 平衡。
扩展：speculative decoding（acceptance rate）、MoE imbalance、power-capped 硬件变体、TCO。

搜索：百万级 (H,P,R) 剪枝后分钟级；输出 Pareto frontier 与 SLO-aware 排名。

验证：多样并行场景模拟 vs 实测 ±5%（Fig. 8）。

设计取舍

Benchmark-driven 模拟 vs cycle-accurate/ML 模拟：快、准于中位数决策，牺牲 tail 与未见 shape 外推精度。
Disagg 默认在线最优 vs 运维现实：KV 传输、池容量、故障域增加——Meta 用 ~30% 容量节省论证 ROI。
Insight 论文 vs 开源工具：分享方法论与结论，模拟器本身未作为产品开源（相对 Agrawal 等公开 sim）。
Llama/MoE 周期绑定：结论方向性可迁移，数值随下一代模型/卡刷新。

实验与结果（Case studies，模拟器）

§4.2 Runtime：在线 strict SLO 下 disagg QPS 显著高于 cont.batch；离线生成两者趋同 deep PP + 超大 batch。

§4.3 并行：prefill 增 TP 降延迟但通信使 QPS sub-linear（TP4PP2 vs TP2PP4：latency 更低但 QPS −20%）；decode 高 TP 利带宽聚合。

§4.4 异构（405B online）：GPU-A prefill + GPU-B/C decode 达同质最佳 QPS=67，估 15–25% cost efficiency。

§4.5 MoE：EP 在 scale-out 提升明显；需 imbalance 建模。

§4.6 平台：错选 weak vs strong scale-out 可 2–3× 成本效率损失或 SLO fail。

生产：整体部署优化 ~2.5× throughput；在线 majority → disaggregated runtime。

Critical Analysis

论证链条

论文从生产痛点出发：Llama 级推理在硬件、5D 并行、runtime 与优化技法交织下形成 数百万 配置组合，手工启发式无法跟上架构迭代。核心论证是 benchmark 驱动轻量模拟器 可在分钟级搜索百万组合、以 ±5% 误差预测端到端吞吐，从而在 TTFT/TTIT SLO 约束下量化 QPS_cluster。由此导出三条可行动结论：（1）prefill 计算密集、decode 带宽密集 → phase-specific 并行 优于一刀切；（2）严格 SLO 的在线场景 Disaggregation 一致优于 continuous batching（70B 1.5–1.8×、405B 1.8–2.2×）；（3）异构硬件映射与平台选型可带来 15–25% 乃至 2–3× 成本效率差异。整体部署优化约 2.5× 吞吐、在线 majority 迁 disagg 省 ~30% 容量，形成「模拟器探索 → 生产验证 → 方法论输出」闭环。与 Vidur/Sarathi-Serve 等互补：后者优化「怎么跑」，本文优化「部署什么配置」。

假设压力测试

模拟器精度假设：operator 插值 + collective/runtime 叠加可预测 median 吞吐；压力点在 P99 尾延迟、网络抖动、未见 shape 外推——模拟器偏 mean/median，tail 决策需谨慎。
Disagg 最优假设：KV 传输与双池运维成本可接受；失效场景为离线 sole-throughput 目标（70B 上 cont.batch 甚至略胜），此时 disagg 运维 ROI 不成立。
剪枝保留最优假设：违 SLO/内存、非 2 幂并行度等激进剪枝仍保留最优附近解；失效场景为 GB200 NVL72 等非 8 卡拓扑，搜索规则需扩展。
异构/MoE 假设：真实卡价与 empirical routing 可用；压力点在 expert load 漂移、cold expert、跨地域调度——结论方向可迁移，数值依赖 Meta 内部 cost model，外推需自备价格表与 routing 分布。
可复现性假设：10 万+ microbench 方法论可迁移；压力点在 Meta Inference Team 一手数据、精确 SLO/卡型抽象，开源生态无法直接跑同款 explorer，对 vLLM/SGLang 指导停留在配置层而非 runtime 代码层。

实验可信度

验证强度：多样并行场景模拟 vs 实测 ±5%（Fig. 8），对 capacity planning 类中位数决策可信度高；近十亿 MAU 生产迁移（在线 majority → disagg、整体 ~2.5×）提供罕见规模的外部效度。
证据边界：论文以 case study + 生产洞察为主，非 microbenchmark 竞赛；disagg 倍数、异构节省等数字来自模拟器在特定 workload/SLO 下的排名，非全空间穷举证明。
可重复性：方法论与剪枝逻辑可复用，但模拟器本体与 benchmark 数据集未开源，独立团队需自建 operator 库与 workload 表才能复现 Meta 数值。
遗漏风险：multi-tenant 干扰、弹性池缩放、KV tiering 等未联合建模；结论绑定 Llama/MoE 周期，随下一代模型/卡刷新需重跑探索。

局限与 Future Work

开源或标准化配置探索工具与 benchmark 数据集。
更强 tail latency / multi-tenant 干扰建模。
Agentic 超长 context、实时语音等新兴 workload 属性表扩展。
与自动弹性池缩放、KV tiering 的联合优化。

Awesome System Papers Wiki

探索

Meta-LLM-Deploy-MLSys26