vLLM

UC Berkeley 提出的高吞吐 LLM serving 框架,PagedAttention 的起源,是当前 open-source LLM inference 事实标准之一。

是什么

vLLM 由 UC Berkeley Sky Lab(Kwon, Stoica 等)于 2023 年 SOSP 提出。核心 contribution 是 PagedAttention——把 KV cache 当 OS 虚存分页管理,消除内外部碎片,让单 GPU 吞吐相比 FasterTransformer 提升 2-4×。

vLLM 之后快速演化为社区生态:支持 continuous batching、tensor parallelism、speculative decoding、prefix caching、FP8、LoRA、guided decoding 等几乎所有主流 LLM serving feature。它也是大量后续 system 工作的 baseline 或集成目标。

演进时间线

  • 2023 SOSP:原始论文(Kwon et al.),引入 PagedAttentionContinuous-Batching 联合调度
  • 2024:FP8 / MQA / GQA 支持;PagedAttention V2;prefix sharing
  • 2025:disaggregated inference 集成;speculative decoding;多种推理优化
  • 2026:作为 baseline 出现在大量论文里:pplx-garden TransferEngine 提到 vLLM 是 P2P 通信集成对象之一

相关概念

对比

相关论文

  • vLLM 原始论文(SOSP 2023, Kwon et al.)— 待生成 paper wiki 页:[[vLLM-SOSP23]]
  • TransferEngine (Perplexity, MLSys 2026) — 把 P2P RDMA 集成进 vLLM 等推理框架
  • FluxMoE — 基于 vLLM v0.10.2,用 PagedTensor 把 MoE expert 转为 streaming resource(仅 20 LoC 侵入),Qwen3-Next-80B 上 3.0× 吞吐

开放问题

  • vLLM 在 disaggregated inference 场景下的 KV transfer 仍是显式协调,缺乏 cross-vendor RDMA 抽象(pplx-garden 是一个补充)
  • MoE-aware 的 vLLM 调度仍在演进(LibraSGLang 上做了,vLLM 路径尚未跟进)