OSDI 2025

53 篇论文覆盖 LLM 推理/训练、GPU kernel 与 profiling、存储/文件系统、分布式系统与数据库、网络、内存/虚拟化、安全沙箱、形式验证与 silent-failure 可靠性八条主线，验证与可靠性占比最高（15+ 篇），LLM 系统明显向「推理极值 + 训练可靠性」两端分化，形式化方法、CXL 新硬件、量子系统与 XPU 抽象形成新增长点。

概览

形式验证与 silent-failure 可靠性构成本届最密集的议题。从 Paralegal（静态隐私分析）到 Basilisk（自动推导 Multi-Paxos invariant），再到 PoWER（crash consistency 工具无关验证）、DeCl（确定性机器码）、KRR（kernel record-replay），形式方法正从「专家工具」向「生产线标配」迁移。另一条平行线是运行时 silent failure 检测：TrainCheck 给 DL 训练做不变量检查、T2C 把单测泛化为生产 checker、SMon 用 what-if 分析大模型训练 straggler——共同信号是「跑通 ≠ 跑对」已成为系统研究的一等问题。

LLM 系统从「吞吐与延迟优化」扩展到「极值硬件 + 生产可靠性」。推理端 WaferLLM 首次把 LLM 推到 wafer-scale，NanoFlow 把 LLaMA-2-70B 吞吐推到 TensorRT-LLM 的 1.91×、理论上限 68.5%，BlitzScale 用 O(1) host caching 做 live autoscaling。训练端出现 SMon（3079 个生产 job 的 straggler 诊断）、WLB-LLM（4D 并行负载均衡）、ZEN（稀疏 AllReduce）。量化侧 DecDEC 用 CPU 残差补偿让 3-bit Llama-3 perplexity 降 1 分。LLM 工作整体结构更「成熟」：不再堆单点加速，而是面对极值硬件（wafer）、生产规模故障（straggler）、底层数值（量化残差）。

CXL / 异构内存 / XPU 抽象开始改写 OS 与数据库层。Tigon 首个利用 CXL 原子操作消灭 2PC 的内存 DB，比 RDMA 方案快 18.5×；SoarAlto 用 AOL = Latency/MLP 代替 hotness 做 tiered memory；FineMem 用 RDMA MW + bitmap tree 把 disaggregated memory 分配粒度降到 4KB；EMT 给 Linux 加架构中立 MMU 框架支持 ECPT/FPT；XSched 定义跨 10 种 XPU 的抢占式调度抽象。硬件多样性（CXL 池、RDMA、DPU、加速器）倒逼 OS/DB 重新设计抽象层。

GPU kernel 工具链进入「compiler-centric + 可编程 probe」新阶段。KPerfIR 把 profiling 改造成 MLIR/Triton compiler pass，Neutrino 给 GPU 带来 eBPF 级的 PTX/GCNAsm 可编程探针，PipeThreader 软件定义 GPU 异构单元流水，Mirage 用 µGraph 统一 kernel/block/thread 三层 superoptimize。和 MLSys 2026 的 AccelOpt/PIKE 式 LLM-agent 生成 kernel 形成互补：OSDI 侧更重「compiler 基础设施」，MLSys 侧更重「agent 生成体验」。

与往届对比：相比 OSDI 2024，本届 PagedAttention 或 vLLM 内部优化类论文几乎消失，取而代之的是面向新硬件（wafer / CXL / XPU / DPU）的极值工作和面向生产可靠性的 silent-failure 检测。LLM 与验证占半壁江山、存储/网络保留 10 篇左右的稳健阵地、量子系统（QOS/HyperQ）首次进入主会两篇、AI 编译器与 GPU 工具链呈集群化——这届 OSDI 的气质是「研究对象更硬核，研究方法更严肃」。

论文分类

LLM 推理与服务（4 篇）

WaferLLM — 首个 wafer-scale LLM 推理，PLMR 模型 + MeshGEMM/GEMV + shift-KV，比 SGLang 多卡 A100 快 10-20×
NanoFlow — nano-batch + MILP 自动 intra-device pipeline，LLaMA-2-70B 吞吐 1.91× TensorRT-LLM，达理论上限 68.5%
BlitzScale — RDMA 多播 + 层粒度 live 扩容 + ZigZag，尾延迟降 94%、节省 49% GPU
DecDEC — CPU 存 LLM 权重残差，按 activation 动态取 salient 通道补偿，3-bit Llama-3 ppl 10.15→9.12，显存增量 <0.0003%

分布式训练（3 篇）

SMon — ByteDance 5 月 3079 job what-if 分析，42.5% LLM 训练被 stragglers 拖慢 ≥10%，主因 PP/seq/GC
WLB-LLM — variable-length packing + outlier delay + per-document sharding 解决 4D 并行训练不平衡，平均提速 1.23×
ZEN — 四维搜索 + GPU 并行分层哈希做稀疏 AllReduce，通信 5.09×、吞吐 2.48×

GPU Kernel / Compiler / Profiling（8 篇）

PipeThreader — 软件定义 GPU 异构单元流水，自动重现 FlashAttention-3、Mamba2 ChunkScan 快 1.7-2×
KPerfIR — 把 GPU profiling 做成 MLIR/Triton 编译 pass，区域级 timing 工具 8.2% overhead 指导 FA3 重叠优化
QiMeng-Xpiler — LLM + SMT 跨 CUDA/HIP/BANG/VNNI 翻译张量程序，正确率 95%，productivity 最高 96×
BayesianCodeDiffusion — 相似 subgraph 共享 prior 参数 + 扩散 posterior，Ansor auto-tuning 最快 3.31×
Mirage — µGraph 统一 kernel/block/thread 三层搜索 + 有限域 PIT 等价验证，GQA 等加速最多 3.3×
Tintin — 把 HPC 多路复用误差量化为 uncertainty 并反馈，插值精度 3.09× 于 perf_event，overhead ≤2.4%
Neutrino — GPU 版 eBPF，PTX/GCNAsm 级可编程 probe，跨 NVIDIA/AMD，1.04× 开销 + 4 regs
SysGPT — 把串行优化归纳为 3 原则 + 8 方法论，用 477 篇 OSDI/SOSP 论文验证覆盖性，fine-tune SysGPT 做建议

存储与 I/O（6 篇）

Okapi — 解耦 stripe 宽度与 EC group 宽度，读吞吐提升 80%、EC 转换 IO 降 70%
F2FSJ — out-of-place F2FS 的 per-inode 分散日志 + epoch 解耦，checkpoint 时延降 4.9×
Nostor — 用组合设计 SBIBD 抛弃 stripe 概念，RDMA 内存 EC KV-store 吞吐提升 1.61-2.60×
Scalio — DPU JBOF KV store，用 NVMe-oF Target Offload 把 SSD I/O 全卸载到 HCA，比 LEED 吞吐 2.5-17×
WOLVES — PM 文件系统把每次操作 metadata 打包 checksum 一次写，吃满 97-99% PM 写带宽，RocksDB 1.20-6.73×
PipeANN — 打破 best-first 搜索的 compute-I/O 顺序，SSD 图 ANN 延迟仅 DiskANN 的 35%，billion-scale 吞吐 1.71×

分布式系统与数据库（5 篇）

Belfast — fix-ante ordering 精确预测 shared log 全局位置，delivery 早 3×、端到端延迟降 1.6×
Picsou — QUACK 把 TCP cumulative-ACK 搬到 RSM 间，支持 CFT/BFT 混跑，比 all-to-all 快最高 24×
Skybridge — 带外 gap-detection 复制流给 Meta TAO 缓存 2 秒有界陈旧度，一致率 99.993%→99.99998%，仅用 0.54% 服务器
Mako — 解耦 2PC 与 geo-replication，vector clock + epoch 限制级联回滚，TPC-C 吞吐 3.66M/s 比 SOTA 高 8.6×
Tigon — 首个用 CXL 原子操作同步跨主机事务的内存 DB，CAT + 软件缓存一致消灭 2PC，比 RDMA DB 快 18.5×

网络（4 篇）

rxBisect — NIC Rx ring 拆成 Ax/Bx 双环解耦分配与接收，吞吐比 shRing +20%、比 per-core ring +37%
FuseLink — NVLink 做 relay 聚合多 NIC 带宽，两 GPU 间达 212 GB/s，LLM TTFT 快 2.73×
Soze — 只用 queueing delay 一个 INT 信号去中心化收敛到 weighted max-min fair，TPC-H JCT 降至 0.79×
DEDE — 用 ADMM 解耦 resource/demand 约束并行求子问题，调度/TE/LB 加速 2.2-7.6×

内存管理与虚拟化（5 篇）

SoarAlto — AOL = Latency/MLP 替代 hotness，Soar+Alto 在 CXL tiering 上最高 12.4×，胜过 TPP/Nomad/NBT/Colloid
FineMem — RDMA MW + 两层 bitmap tree 实现 4KB 粒度单边 RDMA 分配，延迟降 95%、利用率升 2.25-2.8×
EMT — Linux 架构中立 MMU 框架，支持 ECPT/FPT 等新翻译架构，overhead < 0.5%
VIO — VirtIO 数据面 IOPA-snoop + IOPS-aware 弹性 passthrough，300K VM 上每天回收等价 30K VM 内存
Kamino — 按端到端延迟（queue + cache-aware proc）派发 VM 请求，Azure 部署后延迟降 42%

安全 / 沙箱 / 隐私（5 篇）

MettEagle — L4Re 微内核上实现容器引擎，TCB 比 Linux 小 31×，33 个 CVE 缓解 30 个，冷启动 1ms vs runC 70ms
Omniglot — 弱化类型 + 延迟 validation 让 Rust 安全调 C，无 copy，接近 unchecked FFI 性能
Weave — 用噪声注入把 oblivious MR 开销压到常数（~3×），比 Opaque/Shuffle&Balance 快 4-10×
bpftime — EIM capability + eBPF 验证 + MPK 隔离 + 二进制重写替代 uprobe，Nginx 扩展仅 2% 开销，uprobe 快 13×
Compass — HNSW 图遍历与 Ring ORAM 白盒协同设计，加密语义搜索精度比肩明文，延迟 0.57-1.28s

形式验证与可靠性（7 篇）

Paralegal — 带 marker 的 PDG 对 Rust 应用做静态隐私分析，8 个应用找到 5 已知 + 2 未知 bug
PoWER — 把 crash consistency 编成写操作 precondition，用标准 Hoare logic 验证 PM KV 存储，<1min 通过
TrainCheck — 自动推断 DL 训练不变量，20 个真实 silent error 检出 18 个，额外挖出 6 个未知 bug
T2C — 把单测泛化为带 precondition 的 runtime checker，20 个生产 silent failure 检出 15 个，中位 0.188s
KRR — 把 record-replay 边界收窄到 guest kernel 切片，split recorder 协作，减速 1.52-2.79× vs VM-RR 9-30×
Basilisk — Provenance Invariants + 原子分片自动推导 Multi-Paxos 等 16 个分布式协议的 inductive invariant，手写为 0
DeCl — 把 SFI 思路扩到确定性验证，LLVM 原生机器码跑智能合约，比 Wasmtime 快 2×、比解释器快 30×

异构加速 / Serverless / 其他（6 篇）

XSched — XQueue 抽象 + 三级硬件模型在 10 种 XPU 上实现软件抢占，高优任务尾延迟降 2.10×
QOS — 量子 OS，Qernel 抽象组合 error-mit/estimator/multi-prog/scheduler，fidelity 升 456×、wait 降 5×
HyperQ — 量子云 VM 抽象，时空 binpacking 多路复用 IBM Eagle，吞吐利用率提升一个数量级
AFaaS — 蚂蚁 AFaaS 用 FRI + 资源池 + 树状 seed 把冷启动降到 ms 级，比 Catalyzer 快 1.8-8.14×
Quake — 成本模型驱动 split/merge + 自适应 nprobe + NUMA 并行，动态倾斜负载下比 HNSW/DiskANN 快 1.5-13×
Spars — 把 OoO + 顺序提交搬进 OS 渲染服务，折叠/多屏手机帧率提升 1.76-1.91×

研究趋势

1. 形式验证从「专家工具」转为「研究者默认选项」。Basilisk 把 Multi-Paxos / PCC 16 个分布式协议的 inductive invariant 完全自动化（用户手写 0 条）；PoWER 用标准 Hoare logic 给 PM KV 存储做 crash consistency 验证；DeCl 把 SFI 扩到确定性机器码执行；Paralegal 对 Rust 实际应用做静态隐私审查。共同信号是「verification 的入门门槛在下降」——可以在研究项目里把验证当作工具链的一部分而非独立研究方向。

2. Silent failure 成为与 performance 并列的 first-class 问题。TrainCheck 在 18 个真实 DL silent error 上验证了自动不变量推断的可行性；T2C 把单元测试泛化为生产 checker；SMon 证明 42.5% LLM 训练 job 被 stragglers 拖慢 ≥10%——三篇都说明「跑完没崩」不够了，系统社区开始系统化处理「看似成功其实错了」。这类工作对研究生态的改造比 perf 工作更深：意味着实验 baseline 的「成功」本身需要被重新审视。

3. LLM 系统研究的极化：要么极值、要么生产。极值端有 WaferLLM（wafer-scale）、NanoFlow（吞吐逼近理论上限）、DecDEC（3-bit 量化）；生产端有 SMon（straggler 诊断）、BlitzScale（live autoscaling）、WLB-LLM（4D 并行负载均衡）、ZEN（稀疏同步）。中间地带的「serving 单点加速」（vLLM/SGLang 内部改法）在 OSDI 本届几乎消失——与 MLSys 2026 仍有大量此类论文形成鲜明对比。推测原因：OSDI 审稿口味更重「系统贡献的不可替代性」，而 serving 单点优化经过 2023-2024 的密集产出后已经饱和。

4. CXL / RDMA / DPU 等异构硬件开始重写抽象层。Tigon 利用 CXL 原子操作消灭分布式事务的 2PC（比 RDMA 方案快 18.5×）；SoarAlto 引入 AOL = Latency/MLP 指标取代 hotness 做 CXL tiering；FineMem 把 RDMA disaggregated memory 分配粒度降到 4KB；Scalio 用 DPU NVMe-oF offload 重写 JBOF 架构；EMT 给 Linux 做架构中立 MMU 框架。这批工作共同信号：当数据中心硬件从「CPU + 本地内存 + TCP」的 20 年范式迁移到「池化内存 + 智能网卡 + 加速器」时，OS/DB 的抽象层第一次大范围重写，而不是打补丁。

5. GPU Kernel 工具链进入 compiler-centric 时代。KPerfIR 把 profiling 做成 MLIR/Triton 编译 pass，Neutrino 提供 PTX/GCNAsm 级可编程 probe，PipeThreader 把 GPU 流水抽象成软件调度，Mirage 用 µGraph 三层统一 superoptimize，QiMeng-Xpiler 跨 ISA 翻译张量程序。和 MLSys 2026 上的 LLM-agent 式 kernel 生成（AccelOpt/PIKE）互补——OSDI 聚焦「可编程的 kernel 基础设施」，给下游 agent 和自动调优提供了工具链底座。

6. 量子系统 / XPU 首次进入主会建制。QOS、HyperQ 两篇量子系统论文（分别做量子 OS 抽象与量子云 VM）在 OSDI 史上相当罕见；XSched 把抢占式调度从 GPU 推广到 10 种 XPU；bpftime 则给用户态扩展提供了新 sandbox 框架。这些「新硬件抽象」型工作的集中出现，意味着 OSDI 社区开始系统性接收 CPU 之外的计算设备。

值得关注的方向

1. Silent failure 检测的通用化与跨层移植

为什么小团队能做：TrainCheck 全部用开源框架（PyTorch + 公开 bug repo）和单机实验，核心工作是「不变量推断算法 + bug repro」；T2C 只需已有单测和目标系统源码；SMon 用生产 trace 离线分析，不需要现场运行训练。

指向空白的论文：TrainCheck 只覆盖训练框架内部；T2C 只用现成单测而非派生新 oracle；SMon 仅做 what-if diagnosis 而未闭环修复。

Open problems：能否把 TrainCheck 的不变量推断扩到 inference（检测 serving 的 numerical silent corruption）？能否把 T2C 与 property-based testing 结合，自动生成 precondition？能否在 LLM 推理链路里做 per-token silent error 检测（如 KV cache corruption、attention NaN）而不是只在训练 loss 级别？

2. Provenance-style invariant 推断扩展到新协议

为什么小团队能做：Basilisk 把 16 个协议的 invariant 完全自动推导，说明工具本身已经足够成熟，1-2 人应用到新协议上主要是建模工作。作者开源了工具。

指向空白的论文：Basilisk 的 atom sharding 局限于「单机可枚举的小节点数」；部分 liveness invariant 不在 provenance 模型内；复杂协议（CRDT、distributed SQL 事务）未验证。

Open problems：能否把 Basilisk 扩到 2PC / 3PC + geo-replication 混合（如 Mako 的 vector clock 组合）？能否给 Tigon 的 CXL 原子操作序列做 invariant 验证？Provenance invariant 能否用于 LLM serving 的 request-level 正确性（如 Skybridge 的 bounded staleness 保证）？

3. CXL tiering / disaggregated memory 的新成本模型

为什么小团队能做：SoarAlto 的 AOL 指标只需 perf counter 和 Linux 改动；AMD EPYC + 商用 CXL PCIe 卡在云平台可租；实验基线（TPP/Nomad）都开源。

指向空白的论文：SoarAlto 只覆盖 on-demand page promotion；FineMem 只解决分配粒度不触及调度；Tigon 只用 CXL 做跨主机事务同步。

Open problems：能否用 AOL 指标指导 LLM serving 的 KV cache 分层（local HBM / CXL DRAM / host DRAM / SSD）？CXL 原子操作能否替代 RDMA atomics 做分布式锁、优化序列化 LLM training 的梯度同步？CXL pod 内的 fault domain（一个 CXL switch 宕了就地炸整张池）能否用 Basilisk 风格自动验证？

4. GPU kernel profiling 工具链的「MLIR 化」

为什么小团队能做：KPerfIR、Neutrino、Tintin 都基于开源 MLIR/Triton/eBPF 生态，单机 GPU 足够，重点在工具设计而非大规模 workload。

指向空白的论文：KPerfIR 聚焦单 kernel 区域；Neutrino 聚焦指令级 probe；Tintin 聚焦多路复用误差；三者没有统一 IR。

Open problems：MLIR 里能否定义一个「profile-annotated tensor IR」让 Mirage/TVM 生成的 kernel 在编译期就自带 probe？Neutrino 的 probe 能否做 GPU/CPU 跨设备一致抽象以支持 RDMA 通信 profile？KPerfIR + LLM agent 能否把 profile 结果闭环反馈给 AccelOpt 式自动优化？

5. 形式化 + serverless / container 冷启动

为什么小团队能做：MettEagle 证明微内核上的容器 TCB 能小 31×；AFaaS 的树状 seed 完全软件侧改造；二者都不需要大规模集群。

指向空白的论文：MettEagle 只覆盖容器引擎；AFaaS 只优化冷启动延迟不做安全；bpftime 的 sandbox 没有用于 serverless 场景。

Open problems：能否在微内核 serverless 上用 bpftime 式 eBPF sandbox 替代完整容器？能否对 AFaaS 的冷启动路径做形式验证（seed tree 的 isolation 正确性）？WASM / Rust + Omniglot 式安全 FFI 能否成为比容器更轻的 serverless runtime？

6. XPU 抽象 / 量子系统的接口层扩展

为什么小团队能做：XSched 的 XQueue 抽象建立在现有硬件抢占能力之上，适合 1-2 人做特定 XPU 的 port；QOS 的 Qernel 抽象开源在 IBM Eagle 上可验证。

指向空白的论文：XSched 只处理 preemption，未处理 DMA/memory；QOS 只到 scheduler 层未到应用层抽象；HyperQ 只覆盖 IBM 架构。

Open problems：能否把 XSched 扩到 TPU / MTIA / Trainium 这些无 preempt 原生支持的 XPU？Qernel 能否跨多厂商 QPU（Google Willow / Quantinuum / Rigetti）提供统一抽象？能否把 Basilisk 式 invariant 推断用于量子纠错码的 fault-tolerance 验证？

Awesome System Papers Wiki

探索

OSDI-2025