EFFICIENT, VRAM-CONSTRAINED XLM INFERENCE ON CLIENTS (MLSys 2026)

一句话总结:客户端 VRAM 预算远小于磁盘权重时,llama.cpp 手动 offload 难调;Pipelined Sharding 用 token-tier 调度(context vs decode)在 GPU/CPU/PCIe 间流水线 shard,VLMOpt 优化视觉编码,使 qwen235b 在 2GB VRAM7.7 TPS(1K ctx),TTFT/TPS 平均 2×/3.7×,Cosmos-Reason1 VRAM 10× 降至 2GB

问题与动机

游戏/边缘 LLM/VLM(NVIDIA IGI SDK、Cosmos-Reason1)需在用户指定 VRAM 上限内交互式推理。权重远大于 VRAM,需 CPU RAM + PCIe 流式。llama.cpp 手动 CPU offload 在 MoE/KV 竞争时 TTFT 差;高分辨率 VLM 常 OOM。

关键观察 / 隐含假设

  • 观察 1:context phase(高 token 数)与 decode phase(KV 膨胀)最优执行计划不同——token tier 应用 Static GPU-only vs Dynamic oversubscribe。

    • 依赖假设:benchmark profile 驱动 schedule cost model 准确。
    • 可能失效场景:极短 prompt+长 decode 边界需在线重选 plan。
  • 观察 2:在 2G VRAM,qwen235b(77GB disk)仍可达 ≥5 TPS interactive 至 16K ctx;64K ctx TPS speedup 最高 30×

    • 依赖假设:PCIe gen5 权重流式可隐藏;UKV/nUKV 路径可选。
    • 可能失效场景:PCIe gen3 TTFT speedup 仅 1.2×→2.4× 仍有益但缩小。
  • 观察 3:VLMOpt + pipelined sharding 使 CR1 从 vLLM 20GB 需求降到 2GB 可跑高分辨率任务。

    • 依赖假设:llama.cpp 多模态路径;vLLM baseline 多模态效率异常需知。
    • 可能失效场景:视频输入 llama.cpp 未支持(论文仅 image)。
  • 假设 1:batch>1 时 token-tier 仍可扩展,batch-wide TPS 平均 2.3×(最高 8.2×)。**

    • 证据强度——多 VRAM budget/ctx/batch 矩阵。

核心方法

Pipelined sharding:按层/子层 shard 在 GPU 驻留与 CPU 流式间流水线;scheduler 依 token tier、ctx len、VRAM budget 选 plan。

VLMOpt:图像 encode/decode 与 LLM 流水线协同,降峰值 VRAM。

实现:llama.cpp b6097 之上;面向 IGI SDK/CR1 产品路径。

设计取舍

  • 自动 scheduler vs 手动 knob:赢得鲁棒性,profile 前期成本。
  • CPU offload 全量 KV vs 选择性:动态 oversubscribe 换 PCIe 压力。
  • llama.cpp vs vLLM:客户端可部署性优先,非 datacenter 吞吐记录。
  • 边界条件:RTX 5090/4090 等 client GPU;MoE 大模型为主。

实验与结果

  • Interactive:TTFT avg (max 6.7×),TPS avg 3.7×(max 30×),E2EL avg
  • Batched:batch-wide TPS avg 2.3×,max 8.2×(qwen30b 4K bs16)。
  • CR1:VRAM 10× 降;多分辨率 baseline OOM 配置可运行。
  • qwen235b @2G:7.7 TPS @1K,5.2 TPS @16K。

Critical Analysis

论证链条

VRAM≪模型 → token-phase heterogeneity → profiled pipelined sharding + VLMOpt → 极端预算可交互,工程链条扎实。

假设压力测试

Apple Silicon/统一内存路径不同。多应用并发争用 host RAM 未测。

实验可信度

artifact 可复现 Table4/Fig2 等;vLLM 对比受多模态实现影响。绝对 TPS 随硬件变,相对 trend 为主。

系统性缺陷

论文未讨论安全模型权重流式、功耗热节流、Windows 驱动差异。

局限与 Future Work

  • 局限 1:视频 多模态未覆盖。
  • 局限 2:强依赖 llama.cpp 生态。
  • Future work 1:与 Windows GPU 内存 budget API 深度集成。
  • Future work 2:disaggregated 云辅助 client offload 混合模式。

相关