HELIOS: Adaptive Model and Early-Exit Selection for Efficient LLM Inference Serving (MLSys 2026)

一句话总结：作者测量发现单模型 EE-LLM 既无法覆盖长尾 token 的 exit 深度、又因 worst-case 全层加载而零显存收益；据此用 多模型互补 early-exit + 低置信 token 仍可 greedy 退出 两条观察，配合在线 profiling 与 greedy partial load，相对 Chen et al. 2024 EE-LLM 框架吞吐 1.48×、batch size 15.14×，perplexity 仅 +0.01。

问题与动机

Early-Exit LLM（EE-LLM）在中间层满足置信阈值时提前输出 token，跳过深层计算以降延迟。但现有 serving 框架（Chen et al., 2024）几乎都用 单个 EE-LLM，在真实 Continuous-Batching 场景下暴露出两条结构性瓶颈。

计算侧：exit 深度只有运行时才知道；批内 token 退出层不一致时，要么等最慢 token（同步开销），要么退化为 batch=1——现有 EE-LLM 默认后者。更糟的是，单模型上「退不出」的 token 必须穿完全部层，平均 token 延迟被长尾主导，latency savings 被稀释。

内存侧：框架为 worst-case exit depth 预加载全部层权重，并为所有层建 KV-Cache——因为未来 token 可能不早退、需要 attend 到完整历史。结果是 EE-LLM 的 HBM footprint 与 vanilla autoregressive decoding 几乎相同（论文 Fig. 1：CodeLlama-34B + Llama2-70B 权重在 B100 上占可用 HBM 的 68%，vanilla 与 EE-LLM 曲线重合）。Llama3.1-405B 在 8×B100 上权重 alone 占 52% HBM。显存不省，batch size 就上不去——吞吐优化的两条路径（降延迟、扩 batch）都被堵死。

HELIOS 的目标是在 不显著牺牲精度 的前提下，同时最大化 early-exit token 比例和可支撑 batch size，把 EE-LLM 从「算力省一点、内存不变」推进到「延迟 + 内存双优化」。

关键观察 / 隐含假设

观察 1：不同 EE-LLM 的 early-exit 分布互补，可联合覆盖长尾 token。 OPT-1.3B（24 层）在标准 benchmark mix 上 74% token 仅需前 6 层；剩余 26% 中 57% 换 OPT-6.7B（32 层）只需 9 层即可。双模型联合可把 early-exit 比例从 74%/77% 提到 92%，仅 8% 需穿全层。
- 依赖假设：服务商会维护 多个已 fine-tune early-exit 的候选模型（不同规模/家族），且请求流在模型间存在可切换的 exit 互补性。
- 可能失效场景：单一模型族、同质 workload、或所有候选模型 exit 分布高度重叠时，切换收益趋零；频繁切换的加载/迁移开销可能吞噬 latency 节省。
观察 2：未达置信阈值的 early-exit token，穿完剩余层后输出往往不变。 OPT-6.7B Layer-9 上，即使置信度低至 0，85% token 与 Layer-32 最终输出相同；CodeLlama-34B Layer-16 在 CNN/DM 上 90% 不变（Appendix D 跨 6 数据集一致）。因此可 greedy 早退 并只加载「最可能用到的层」。
- 依赖假设：下游任务精度在某一中间层深度后已饱和（论文 Fig. 10：CodeLlama-34B 在 layer-28、Llama2-7B 在 layer-24 后 accuracy plateau）；perplexity 可在线代理精度。
- 可能失效场景：高熵生成（数学推理、代码补全）、高置信阈值、或需要深层 refinement 的任务；greedy 退出可能累积误差。
观察 3：请求流存在 temporal locality，使在线 profiling 的 exit 分布在短期内仍准确。 多轮对话、few-shot prefix、system prompt 等使连续请求共享上下文模式（论文引用 PARROT/OSDI’24 与 prompt caching 实践）。
- 依赖假设：RI=150 次请求内 workload 特征相对稳定；Model Repository 已有离线吞吐/精度 telemetry。
- 可能失效场景：高频任务交错、突发 topic shift、或 RI 过大导致 PHT 过时——论文 Fig. 12 显示 RI>250 吞吐下降，且高 RI 有 undetected accuracy drift 风险。
假设 1：固定层数的 greedy partial load 可消除 batch 内 exit 深度同步。 同一 timestep 所有 token 从相同 partial model 的同一 exit 层输出，无需 per-token 层数对齐。
- 证据强度：强。设计直接回应 EE-LLM batch=1 痛点，batch size 实验（最高 15.14×）支撑该机制有效。
假设 2：perplexity 足以在 inference-time 做模型选择与 accuracy guard。 无 ground truth 时，用同 tokenizer 模型族的 perplexity 比较选模与触发 CBC 补救。
- 证据强度：中。Table 1 显示 profiling 后选模优于 MR 静态数据；但下游 ROUGE-2 实验规模有限，perplexity 与 task metric 的 gap 未系统量化。

核心方法

HELIOS 是在 Chen et al. 2024 EE-LLM 框架之上的 自适应 serving orchestrator，四步闭环（Fig. 4）：

Step 1 — 候选选择：从 Model Repository 按用户 SLO 与硬件约束选 TopK（默认 K=3）EE-LLM 候选，控制 profiling 开销。

Step 2 — 在线评估：对每个候选跑 5 个请求 profiling，收集吞吐、perplexity 与 early-exit 分布，写入 Performance History Table（PHT，<1 KB）。评估 token 不丢弃——因候选已预筛，输出直接服务请求。默认串行评估（GPU 不够并行跑多模型）。

Step 3 — Greedy partial load + 服务：选 PHT 最优模型 M′，按 exit profile 只加载高概率层（如 OPT-1.3B 仅 6 层、OPT-6.7B 仅 9 层），释放的权重 + KV-Cache 显存用于扩 batch。Low-Exit Token（LT）直接早退；High-Exit Token（HT）触发二选一：补全当前模型剩余层 vs 切换到另一候选的 partial load——比较 PHT 中的资源开销 telemetry，选更省者。

Step 4 — 周期性重 profiling：每 RI=150 请求重跑 Step 2，适应 workload 漂移。SLO/硬件变化时才重选候选（论文观察到 Llama3-8B/Llama2-13B 跨任务稳定领先，GPT2-124M 稳定落后）。

Accuracy safeguard — Confidence Breach Counter（CBC）：在 100-token 窗口内，未达置信阈值的 token 计数；超过 CBCmax=50 才触发「补层 vs 换模」决策，利用观察 2 容忍零星低置信退出。该 amortization 减少切换频率。

Latency spike 缓解（§5.8）：预分配 HBM pool 避免 runtime cudaMalloc；加载新层与当前层计算 overlap；换模时同样 greedy partial load + pipeline。

与 Speculative-Decoding 对比：HELIOS 在同一模型族内 skip 层、无需 draft-verify 双模型并行验证；论文称 OPT-125M+OPT-6.7B speculative 在 CNN/DM 上能耗比 OPT-6.7B dual-exit 高 1.49×。LayerSkip 的 speculative draft 层静态，HELIOS 按请求流动态切换/补层。

设计取舍

Greedy 早退 vs 严格置信：为扩 batch 与降延迟，允许未达阈值 token 退出；用 CBC + 补层/换模兜底。Table 8 显示「只切换不补层」吞吐最高但 perplexity 最差；「只补层不切换」精度好但吞吐低；默认动态二选一折中。
在线 profiling 开销 vs 分布准确性：每候选 5 请求、RI=150 是 sweet spot；RI=50 吞吐最优但重评估频繁。1087 请求 trace 上切换/补层仅 6 次，单次 profiling 开销 220ms，相对 1.48× 吞吐增益可忽略。
多模型驻留 vs GPU 数量：默认最多 3 候选、串行 profiling，避免多模型并行占满 GPU；生产需权衡候选多样性与硬件分区。
固定 exit 层 per timestep vs per-token 动态深度：消除同步、解锁 batching，但可能对部分 token 过度计算或过早退出——依赖 CBC 与周期性重评估纠错。
Perplexity 代理精度：实现简单、reference-free，但对 summarization/ROUGE 等任务的在线 guard 是否充分，论文只做了有限 downstream 验证（Table 7 ROUGE-2 可比）。

实验与结果

主吞吐（prompt mix，batch=1 隔离 exit 收益）：相对单模型 EE-LLM，HELIOS 平均 1.48×（vs OPT-1.3B）、2.13×（vs OPT-6.7B）；91% token 在最早 exit 层处理（standalone 仅 73%），需全层的仅 7.39%（约 3× 降低）。
Batch size（ShareGPT 等，greedy load 释显存）：相对现有 EE-LLM 框架最高 15.14×；内存 footprint 最多降 67.4%（Table 6）。Llama2-70B 在 4×A100 上权重占 81.6% 可用显存，HELIOS partial load 收益随模型增大而放大。
端到端 serving：CodeLlama-34B + Llama2-70B on ShareGPT，相对 vanilla 吞吐 +45%（单模型 EE-LLM 仅 +16%）。
延迟：TPOT 最高降 46.6%；TTFT 显著低于大模型 standalone（小模型 + 浅层 prefill）。OPT 场景 TTFT 相对 OPT-6.7B 最高 30× 改善（长输入 CNN/DM 段）。
精度：prompt mix perplexity 仅比 OPT-1.3B 高 0.01；三候选（Llama2-7B/13B、Llama3-8B）下游 ROUGE-2 与 full-depth baseline 可比（Table 7）。
Ablation：RI=150 默认；confidence threshold 升高时 standalone EE-LLM 吞吐骤降，HELIOS 仍稳定（Fig. 11）。能耗 SLO 下 0.45 Wh/prompt vs OPT-6.7B 1.01 Wh（10% 节省）。
硬件：4×NVIDIA A100-40GB，NVLink 400 GB/s；Llama2-70B/CodeLlama-34B 分别 TP=4/2。

Critical Analysis

论证链条

论文链条较完整：测量单模型 EE-LLM 零显存收益 + batch=1 同步困境（§2.2, Fig. 1）→ 互补 exit 分布（Fig. 3, 6）与低置信不变性（Fig. 5, 13）支撑两条 insight → greedy partial load 释显存 + 固定 exit 层解锁 batch（§5.3）→ 1.48× 吞吐与 15.14× batch（§5.1, 5.3）。CBC/补层/换模 ablation（Table 8）说明 accuracy guard 不是装饰，而是平衡 greedy 与精度的必要件。

较弱环节是把 batch=1 吞吐实验 与 batch size 实验 分拆报告：前者证明 multi-model exit 最大化，后者证明内存机制——两者乘积才是 production 总收益，但论文未给出「大 batch + multi-model」联合饱和曲线。CodeLlama-34B + Llama2-70B 的 +45% vs vanilla 更接近真实 serving，但仍限于 4×A100 与固定候选集。

假设压力测试

候选模型可得性：方法假设 MR 中已有多个 EE-LLM（LayerSkip 预训练或自 fine-tune OPT）。若运营商只部署单一最强模型，Insight-1 失效，HELIOS 退化为带 greedy load 的单模型 EE-LLM。
Greedy 退出边界：Table 8「without loading」配置 perplexity 最高，说明仅靠切换不够；高 CBCmax 或激进 greedy 在 reasoning/code 任务上可能未被充分压测——主实验 entropy 偏高数据集（Fig. 14）反而对 greedy 友好。
Workload 漂移 vs RI：RI=150 是工程默认，Fig. 12 显示 RI=50 吞吐更高；生产若 RI 过大且 CBC 未触发，可能长时间用过时 exit profile——论文承认风险但未给 detection metric。
多模型切换开销：§5.8 优化后换模/补层开销小，但实验规模（6 次切换/1087 请求）是否代表百万 QPS 生产流量未知；与 Disaggregation、权重 offloading 混部时的交互 论文未讨论。
与量化/KV 压缩正交性：论文声明可与 Quantization、KV compression 叠加，但未实验验证组合后 CBC/perplexity guard 是否仍稳。

实验可信度

Workload：ShareGPT 代表 server-scale 对话；prompt mix 覆盖 summarization/reasoning/code/completion，entropy 分析表明预测难度不低。但到达过程与 tenant 混部细节未展开。
Baseline：公平对比 Chen et al. 2024 同一 EE-LLM 框架的单模型模式；未与 Speculative-Decoding、vLLM + 静态量化、或 FlexiCache-MLSys26 类 KV 优化系统端到端对比——相关工作中能耗对比仅一点。
Scale：限 3 候选、4×A100；Llama3.1-405B 仅作 memory 占比引用，未实测 HELIOS。TP 设定随模型变化，multi-node 扩展 论文未覆盖。
Metric：吞吐/latency/perplexity 较全；缺 P99 尾延迟 SLO 违约率、multi-tenant 隔离、切换失败恢复。下游 accuracy 仅 ROUGE-2 子集。

系统性缺陷

尾延迟：切换/补层即使有 pool 与 overlap，仍可能引入非确定性 spike；论文未报 P99/P999 TPOT 或 SLO 违约。
运维复杂度：PHT、CBC、RI、候选集、partial load 状态使系统比单模型 EE-LLM 难调试；可观测性/故障降级策略论文未讨论。
正确性监控：依赖 perplexity 而非 task-specific metric 或 LLM-judge；对无 ground truth 的开放生成，CBC 阈值是否跨模型族稳健未验证。
资源隔离：多候选 profiling 串行占 GPU 周期，可能影响同节点其他 job 的 fairness。
兼容性：需 EE-LLM 专用框架与 early-exit 权重变体；与标准 vLLM 单模型路径的集成成本 论文未讨论。

局限与 Future Work

局限 1：GPU 有限，仅评 3 候选、串行 profiling；未验证大规模 model zoo 或超 70B 集群上的切换策略。
局限 2：accuracy guard 基于 perplexity + CBC heuristic；高 RI 下 workload 漂移可能 undetected（§5.6 自述）。
局限 3：batch 吞吐与 batch size 实验分拆，缺统一 production-like 饱和点测量；尾延迟与 SLO 未系统评估。
Future work 1：在真实 multi-tenant trace 上测量「切换次数 / 补层次数 / P99 延迟」与吞吐的联合 frontier，自适应 RI 与 CBCmax。
Future work 2：与 Quantization、KV tiering、Speculative-Decoding 组合，量化 greedy partial load 与内存优化技术的叠加边界。
Future work 3：用 task-specific 在线 metric（或轻量 verifier）替代纯 perplexity，在 reasoning/code 等高熵 workload 上压测 greedy 退出的安全域。

Awesome System Papers Wiki

探索

HELIOS-MLSys26