DriftBench: Measuring and Predicting Infrastructure Drift in LLM Serving Systems (MLSys 2026)

一句话总结:基于「workload 决定 drift 敏感度(Math 16.74% vs Code 0.09%,186×)且硬件/精度 drift 可外推、框架/模型不可外推」的观察,DriftBench 用 236,985 对 prompt-response × 105 配置测 flip rate,PRI 在未见硬件 R²=0.909、未见精度 R²=0.763;生产 H100/FP16→B200/FP8 升级拦截 23.85% safety flip,Evidently 零告警。

问题与动机

生产 LLM serving 频繁做基础设施变更:GPU 代际升级(H100→B200)、Quantization 降本(FP16→FP8/FP4)、框架迁移(vLLMSGLang / TensorRT-LLM)。隐含假设是同权重、同输入应功能等价;实践中输出会 flip,而吞吐/延迟/perplexity 等常规验收指标往往仍通过。

作者将 infrastructure drift 定义为:在输入与模型权重不变时,因 serving stack(硬件架构、数值精度、推理框架)变化导致的功能正确性改变,用 flip rate 量化。这与 data drift(输入分布变)、concept drift(数据生成过程变)正交——现有 ML 监控(Evidently、WhyLabs、Arize 等)统计 input-output 分布,无法捕捉 kernel 实现、浮点舍入顺序、量化 rounding 等计算路径差异。

动机案例包括 Anthropic 2025 年跨 Trainium/GPU/TPU 部署 Claude 时数周间歇性质量退化。DriftBench 要填补的是 pre-deployment gating 与 post-deployment monitoring 之间的空白:在上线前系统测量并预测基础设施迁移的功能风险,而非提出 drift 修复算法(论文明确 mitigation 为 open challenge)。

关键观察 / 隐含假设

  • 观察 1:Drift 幅度高度 workload-dependent,单 workload benchmark 会严重低估风险。420 组 configuration×workload 测量显示 Math 平均 flip 16.74%、Safety 7.97%、Code 仅 0.09%(Math vs Code 186×;Safety vs Code 88×)。全局 ANOVA 中 workload 解释方差最大(F=53.60,η²=0.275),precision/framework 主效应在全局层面不显著,但分层后 precision 对 safety、framework 对 math 显著。

    • 依赖假设:五类 workload(Code/Math/Safety/Chat/Long-context)及各自 evaluator(pass@1、exact match、LlamaGuard-3、embedding similarity、F1)能代表生产关心维度;baseline 固定为 H100/FP16/vLLM,所有 target 与之对比。
    • 可能失效场景:agent 多轮 tool-use、结构化 JSON、多模态、RAG 带检索上下文等未覆盖任务;evaluator 本身(LlamaGuard recall 85.21%)会引入 label noise;生产 temperature>0 时 flip 幅度约降为 deterministic 的 ~23%(论文 4.2),但方向性风险仍在。
    • 证据强度:强。236,985 评测 + Wilson 95% CI + 分层 ANOVA 一致。
  • 观察 2:基础设施因子分裂为 systematic(硬件、精度)与 idiosyncratic(框架、模型)两类 drift。PRI 在 held-out dimension 上:未见硬件 R²=0.909、未见精度 R²=0.763(predict-once 可部署);未见 framework R²=0.479、未见 model R²=0.118(必须重新实测)。

    • 依赖假设:GPU 规格与精度格式构成相对连续的参数空间,interaction features(hardware×precision、framework×workload)能捕捉非加性效应;训练集覆盖 4 GPU × 3 precision × 3 framework × 5 model 的 105 可行配置(计划 625 中 84% 可行)。
    • 可能失效场景:仅 4 个 GPU 平台、3 种精度,physics-enhanced 特征在 held-out 测试上 R²>0.99 却被判为过拟合(附录 A.1);新框架(DeepSpeed-Inference、TGI)几乎必然落入 idiosyncratic 区;TPU/Inferentia 等非 GPU 加速器未验证 dichotomy 是否成立。
    • 证据强度:中到强。held-out dimension 协议严谨,但样本多样性有限,framework/model 低 R² 也可能部分来自数据稀疏而非本质不可预测。
  • 观察 3:Safety-critical 部署中,双向 flip 使 net accuracy 极具误导性。生产案例 H100/FP16/SGLang→B200/FP8/SGLang:520 AdvBench prompts 上 23.85% 分类翻转(65 safe→unsafe,59 unsafe→safe),净 unsafe 率仅 +1.15%(314→320)——aggregate metric 看似 benign。

    • 依赖假设:LlamaGuard-3-8B 二分类 + 人工标注校验(85.21% recall)足以刻画 safety boundary 变化;同一框架(SGLang→SGLang)可隔离硬件+量化效应。
    • 可能失效场景:guardrail 模型与 serving 模型不同源时,flip 可能混合 evaluator drift;contradictory refusal(先拒答再给有害步骤)等模式需人工判读,自动化指标难全覆盖。
    • 证据强度:强。有完整 case study 与 concrete prompt-response 对;Evidently 对照(3% functional flip vs 2% embedding shift、0 failure flagged)支撑监控缺口 claim。
  • 假设 1:Deterministic decoding(seed=42,temperature=0,greedy)可把采样噪声与 infrastructure 效应分离,测得的是 drift 上界

    • 证据强度:中。控制实验在 minor/major 软件版本更新上零 functional flip;stochastic 验证(temp=0.7,N=5)显示 drift 仍存在但幅度降 77%,论文建议生产用 ~0.23× scaling factor 估算。

核心方法

测量框架:DriftBench 在 2,257 prompts × 105 configurations 生成 236,985 prompt-response 对。配置空间:5 模型(Llama-3.1-8B/70B、Mistral-7B、Mixtral-8x7B、Qwen-7B)、4 GPU(H100/H200/B200/MI300X)、3 框架(vLLM 0.11.0、SGLang 0.5.2、TensorRT-LLM 1.0.0)、3 精度(FP16/FP8/FP4)。单请求、无 batching 干扰,固定软件环境,确保观测 drift 可归因于基础设施。

Flip rate(Track 1):对有 ground truth 的任务(Code/Math/Safety/Long-context),correct↔incorrect 双向计 flip;比 lexical similarity 更贴近运维语义(代码能否跑通、safety 边界是否维持)。Chat 无 GT,用 embedding cosine shift(SDR,阈值 0.30)测 semantic drift。

PRI(Portability Risk Index):XGBoost 回归 drift rate,56 维特征 = one-hot(hardware/precision/framework/model/workload)+ pairwise interaction + 1 derived feature。训练 80/20 + 5-fold CV;部署相关指标是 held-out dimension R²(整类 hardware/framework/model/precision 从训练集剔除),而非 random split 的 R²=0.987。操作流程:PRI 先 screening——systematic 变更可 predict-once + 100 prompts 确认;idiosyncratic 变更 block 直至全量实测;组合变更高风险需直接 measurement(Scenario C)。

三类 flip taxonomy:(1) Safety flips(guardrail 失效,最高风险);(2) Correctness flips(可验证任务算错);(3) Semantic drift(离题、非语言输出等,perplexity 不可见)。方法映射:观察 1 → 五 workload 分层评测;观察 2 → PRI interaction + held-out dimension;观察 3 → 双向 flip 为主指标。实现与 31 个验证脚本见 4c56ff4ce4aaf9573aa5dff913df997a / 4c56ff4ce4aaf9573aa5dff913df997a.pdf;开源 DriftBench CLI 与 AE artifact。

设计取舍

  • 测量优先于缓解:只做 risk assessment 与 pre-deployment gating,不提出 drift compensation——降低 scope,但运维仍需自行决定 canary/回滚/多配置路由。
  • Deterministic 换因果可归因:消除采样 confounder,代价是高估生产 stochastic serving 下的 flip(论文给出 ~4× 折算经验);保守策略适合 safety gating。
  • Aggregate PRI 换部署效率:可预测 configuration 级 drift rate,不能预测哪些 prompt会 flip——省全矩阵 420 次实测,但高 flip 场景仍需 workload-specific 全量或 canary。
  • 固定 baseline 换可比性:所有配置对比 H100/FP16/vLLM,便于横向比较,但生产迁移路径若非以此为起点,需重定 baseline 或补测。
  • 边界条件:单机 1–4 GPU、decoder-only 7B–70B 最贴合;framework/model 变更、FP4 on B200(12.7% flip)、combined hardware+precision 升级最脆;纯 code workload 上 infrastructure 变更往往可乐观放行。

实验与结果

  • 规模:236,985 对 × 105 配置 × 525 configuration×workload 实验;Chat 用 SDR,其余四 workload 共 420 flip-rate 测量。
  • PRI held-out dimension:Hardware R²=0.909,Precision R²=0.763,Framework R²=0.479,Model R²=0.118;训练 R²=1.000,random-split test R²=0.987(论文强调后者非外推指标)。
  • Workload 敏感度:Math 16.74%、Safety 7.97%、Long-context 1.55%、Code 0.09%;Chat SDR 12.4%
  • 高风险配置:B200+FP4 12.7% flip;Llama-3.1-70B Math FP16→FP8 11.2%;Qwen Safety vLLM→TensorRT-LLM 9.8%;生产 H100/FP16→B200/FP8 Safety 23.85%(拦截部署)。
  • vs 现有监控:H100/FP16→FP8、100 prompts 上 DriftBench 检 3% functional flip,Evidently 2% embedding shift、0 failure flagged。
  • PRI feature importance:workload_safety 33.4% + framework_tensorrt 25.1% = 58.5%;hardware 主效应 <0.3%(但 interaction 支撑 hardware held-out 预测)。
  • Ablation:hardware-only R²=-0.018;linear R²=0.235;无 interaction 的 RF R²=0.756 vs 完整 XGBoost R²=0.998(test 0.987)。
  • Stochastic 补充:temp=0.7 下 aggregate drift 从 8.3%→1.9%(-77%),Math 仍 5.6%、Safety 2.7% residual。
  • 部署指引(论文 4.3):systematic 变更可用 PRI + 100 prompts 验证(H100→H200 预测 2.1%、实测 2.3%);建议 workload-specific drift budget(safety 0.5–1.0%,code 0.1–0.5%)。

Critical Analysis

论证链条

「基础设施变更可改变功能正确性,且现有监控看不见」→「多 workload flip rate 测量揭示 186× 差异与 systematic/idiosyncratic 分裂」→「PRI 在 hardware/precision 上外推、在 framework/model 上失败」→「生产 23.85% safety flip 被拦截」链条在论文声明的 单机开源 LLM serving scope 内基本闭合。作者没有把 PRI 低 R² 的 framework 维粉饰成可用,与 Table 2 / Scenario B/C 叙事一致。

薄弱跳步在于:从 105 配置矩阵外推到任意生产迁移路径。许多真实升级同时变 hardware+precision+framework(论文 production case 仍固定 SGLang),PRI 对组合变更的误差界未系统给出;held-out test R²=0.987 与 held-out dimension R² 差距大,读者若误用前者会高估 PRI。

另一跳步:flip rate 作为唯一 gating 指标是否足够? 7.97% 平均 safety drift 与 23.85% 个案并存,说明 configuration-specific 效应远大于 workload 均值;PRI 捕捉 aggregate trend,对「是否放行本次具体升级」仍需实测兜底。

假设压力测试

  • Workload 变化:未覆盖 agentic 多步、function calling、MoE 路由、speculative decoding(论文 future work 点名)。若 draft model 与 target 在不同基础设施上行为不一致,flip 机制更复杂,DriftBench 五类 workload 可能不够。
  • 硬件/部署变化:仅 4 GPU、单机 NVLink/Infinity Fabric;175B+ 分布式、Disaggregation prefill/decode 分离、dynamic batching、continuous batching 下 kernel 与舍入路径可能不同。论文承认云 TPU/Inferentia 需 empirically validate dichotomy。
  • 精度与量化栈:FP16/FP8/FP4 为主;INT8/INT4、per-layer mixed precision(Hawkeye-MLSys26MixLLM-MLSys26 路线)未测。量化与 PagedAttention / RadixAttention 交互可能引入额外非确定性。
  • Evaluator 依赖:Safety 靠 LlamaGuard-3;guardrail 与 served model 不同步时,flip 可能部分来自 judge drift 而非 served output 功能变化——论文用 85.21% recall 人工校验缓解但未消除。
  • 时间维度:一次性 snapshot 测量;框架小版本、CUDA driver、cuDNN 升级导致的 gradual drift 未建模——与 SpecDecodeBench-MLSys26 强调的「生产 engine 版本敏感」类似风险。

实验可信度

  • Baseline 公平性:对比 Evidently 仅 100 prompts、单一 H100→FP8 过渡,方向正确但样本小;未与 MLPerf accuracy 子集、Robustness Gym、量化评测(如 LLM-FP4)等更强 baseline 对比 functional consistency。
  • Benchmark 代表性:HumanEval/GSM8K/AdvBench/LMSYS/LongBench 是标准集,但不同于企业私有 prompt 分布;Chat 用 embedding threshold 0.30,与 functional flip 不可直接横比。
  • PRI 验证:held-out dimension 协议优于 random split,值得肯定;但 4 GPU × 3 precision 稀疏,physics features 过拟合被拒说明数据量制约 claims 上限——R²=0.909 是「当前数据下诚实的上限」而非「硬件 drift 本质上高度可预测」的定理。
  • Production case:单模型单路径(Llama-3.1-8B-Instruct),说服力强;缺少多租户、多模型混部、在线 A/B 的长期跟踪。

系统性缺陷

  • 无 mitigation / 在线闭环:测量后如何 canary、灰度、自动回滚、双栈 serving,论文仅给 qualitative guidance(drift budget、block deploy),无 CI/CD 集成实现(列为 future work)。
  • 尾延迟与吞吐:刻意不评 performance regression,运维需另跑 SpecDecodeBench-MLSys26 / MLPerf 类 benchmark——功能与性能正交但生产 gate 通常要 jointly 决策。
  • Per-prompt 预测缺失:23.85% flip 下运营商无法知道哪 124 条 prompt 会变;routing 高熵 prompt 到稳定配置需未来「prompt-level sensitivity features」。
  • 可观测性集成:与 Evidently/WhyLogs/Arize 的 embedding/statistical pipeline 如何并存、告警语义如何统一,论文未讨论。
  • 成本模型:全矩阵测量 236,985 次推理的成本与 PRI 节省的 15→3 配置验证(附录 I)仅在 illustrative scenario 出现,缺 enterprise-scale ROI 曲线。
  • 单作者独立研究:实验全在 cloud GPU(RunPod);无工业 co-author,production validation 为单案例 self-reported,外部复现依赖开源 artifact。

局限与 Future Work

  • 局限 1:贡献边界是 measurement + risk prediction,不含 drift-aware serving、自动补偿或权重校准。
  • 局限 2:Scope 限于单机 1–4 GPU、decoder-only 7B–70B、vLLM/SGLang/TensorRT-LLM;84% 配置可行率,部分组合因框架限制未测。
  • 局限 3:PRI 预测 aggregate flip rate,不预测 per-prompt flip;framework/model held-out R²<0.48 时不能替代全量评测。
  • 局限 4:Deterministic 测量为 conservative upper bound;生产 stochastic sampling 需额外验证(论文给 ~0.23× 经验缩放,非严格理论保证)。
  • Future work 1:Drift-aware serving、automated drift compensation、CI/CD pre-deployment gating 与 prompt-level drift prediction(entropy、decision boundary proximity 等特征)。
  • Future work 2:扩展 coverage——更多框架(DeepSpeed-Inference、ExLlamaV2、TGI)、分布式 175B+、TPU/Inferentia/Gaudi、speculative decoding 与 Quantization stacking。
  • Future work 3:在 8–10+ GPU 平台与 INT8/INT4/FP6 精度上扩充训练数据,检验 systematic drift 能否从 R²≈0.9 推到 >0.95(附录 A.1 指出当前数据多样性是根本瓶颈)。

相关