vLLM

UC Berkeley 提出的高吞吐 LLM serving 框架，PagedAttention 的起源，是当前 open-source LLM inference 事实标准之一。

是什么

vLLM 由 UC Berkeley Sky Lab（Kwon, Stoica 等）于 2023 年 SOSP 提出。核心 contribution 是 PagedAttention——把 KV cache 当 OS 虚存分页管理，消除内外部碎片，让单 GPU 吞吐相比 FasterTransformer 提升 2-4×。

vLLM 之后快速演化为社区生态：支持 continuous batching、tensor parallelism、speculative decoding、prefix caching、FP8、LoRA、guided decoding 等几乎所有主流 LLM serving feature。它也是大量后续 system 工作的 baseline 或集成目标。

演进时间线

2023 SOSP：原始论文（Kwon et al.），引入 PagedAttention 和 Continuous-Batching 联合调度
2024：FP8 / MQA / GQA 支持；PagedAttention V2；prefix sharing
2025：disaggregated inference 集成；speculative decoding；多种推理优化
2026：作为 baseline 出现在大量论文里：pplx-garden TransferEngine 提到 vLLM 是 P2P 通信集成对象之一

对比

vLLM-vs-SGLang（按需创建）

开放问题

vLLM 在 disaggregated inference 场景下的 KV transfer 仍是显式协调，缺乏 cross-vendor RDMA 抽象（pplx-garden 是一个补充）
MoE-aware 的 vLLM 调度仍在演进（Libra 在 SGLang 上做了，vLLM 路径尚未跟进）

Awesome System Papers Wiki

探索

vLLM

vLLM

是什么

演进时间线

相关概念

对比

相关论文

开放问题

关系图谱

目录