BOUTE: COST-EFFICIENT LLM SERVING WITH HETEROGENEOUS LLMS AND GPUS VIA MULTI-OBJECTIVE BAYESIAN OPTIMIZATION (MLSys 2026)

一句话总结：heterogeneous model routing 与 heterogeneous GPU deployment 双向依赖，孤立优化次优；BOUTE 用 MOBO 联合优化路由阈值 τ 与每模型 GPU 类型/数量/并行度，在同等成本与质量下 P95 延迟最高降 33%（heterogeneous vs 12×H100 homogeneous），或成本降 15–61%（均 38%）保性能。

问题与动机

LLM serving 需同时决定 路由到哪个模型 与 如何部署到 GPU。RouteLLM/HybridLLM 等做 query-level routing；ThunderServe/Helix 等用异构 GPU 降本。但 routing 改变各模型负载，deployment 决定各模型可达延迟——二者 circular dependency，分开优化在 GSM8K 案例上可差 10%+ P95（Approach 1 vs 3）。

BOUTE 从服务商视角 co-optimize routing + deployment under latency & quality constraints。

关键观察 / 隐含假设

观察 1：仅 routing + 均分 GPU（6+6 on 12 H100）会使大模型瓶颈，P95 28.2s 差于单大模型 25.6s。 按负载调 allocation（4+8）可降至 20.5s。
- 依赖假设：阈值路由可稳定预测「小模型够用」比例。
- 可能失效场景：分布漂移导致路由阈值过时。
**观察 2：同预算下 6×RTX5090 + 10×H100 vs 12×H100，小模型放 5090、大模型多 H100，路由比从 40/60→30/70，P95 17.1s（33%↓），质量 91.2>90。
- 依赖假设：小模型在 5090 上 ~1.5× 更低 P95，大模型在 H100 上 ~2× 优于 5090（同成本 24×5090 vs 8×H100 实验）。
- 可能失效场景：不同云实例价目/可用 SKU 改变 Pareto 前沿。
观察 3：MOBO 在 latency–quality 目标下给 Pareto 最优 (τ, deployment)，服务商可选运营点。
- 依赖假设：离线 profiling 足够代表在线负载；MOBO 样本效率可接受。
- 可能失效场景：新模型上线需重跑 BO；非平稳 traffic 需再优化。
假设 1：threshold router（与 RouteLLM 一致）足以表达 routing policy。**
- 证据强度：中——简单可优化，但不如 learned router 灵活。

核心方法

决策变量：路由阈值向量 τ；每模型 GPU 类型、卡数、TP/PP/DP 配置。

目标：最小化成本或 latency，约束 response quality（GSM8K 等）。

MOBO：多目标 Bayesian optimization 探索 Pareto frontier；结合 workload characterization §3 洞察初始化。

设计取舍

联合优化 vs 复杂度：搜索空间大，靠 MOBO 而非穷举。
Threshold router vs 神经网络 router：可解释、易进 BO，可能损失细粒度 routing。
静态 co-design vs 在线 adapt：部署期优化为主，traffic 变需重跑。
边界条件：Llama3.1-8B/70B 等；价目基于特定云 GPU 小时费。

实验与结果

vs SOTA serving：157% peak / 59% avg 性能提升（同成本质量），或成本 15–61% 降（38% avg）保目标。
Characterization：Approach 1→2→3 阶梯改进 P95 28.2→20.5→17.1s。
MOBO 找 Pareto 部署优于分离启发式。

Critical Analysis

论证链条

双向依赖 characterization 有力 → 形式化 co-optimization → MOBO 求解 → 显著降本/降延迟，闭合。MOBO 是否全局最优依赖 surrogate 质量。

假设压力测试

3 模型、MoE、disaggregated prefill/decode 时 action space 爆炸。质量 metric 单数据集可能不代表生产。RTX5090/H100 相对性能随 batch/并发变。

实验可信度

强基线 ThunderServe/Helix 等；真实价目约束。缺：长周期在线 A/B、router 校准漂移。

系统性缺陷

论文未讨论 BO 失败安全 fallback、多租户 fairness、SLO 违约惩罚。运维重优化频率与自动化未量化。

局限与 Future Work

局限 1：路由策略族有限；动态 learned router 未联合。
局限 2：依赖离线 profile，online shift 敏感。
Future work 1：在线 contextual BO 用 live telemetry 微调 τ 与 allocation。
Future work 2：与 MorphServe 等 morph 模型族扩展 action space。

Awesome System Papers Wiki

探索

BOUTE-MLSys26