OSDI 2025

53 篇论文覆盖 LLM 推理/训练、GPU kernel 与 profiling、存储/文件系统、分布式系统与数据库、网络、内存/虚拟化、安全沙箱、形式验证与 silent-failure 可靠性八条主线,验证与可靠性占比最高(15+ 篇),LLM 系统明显向「推理极值 + 训练可靠性」两端分化,形式化方法、CXL 新硬件、量子系统与 XPU 抽象形成新增长点。

概览

形式验证与 silent-failure 可靠性构成本届最密集的议题。从 Paralegal(静态隐私分析)到 Basilisk(自动推导 Multi-Paxos invariant),再到 PoWER(crash consistency 工具无关验证)、DeCl(确定性机器码)、KRR(kernel record-replay),形式方法正从「专家工具」向「生产线标配」迁移。另一条平行线是运行时 silent failure 检测:TrainCheck 给 DL 训练做不变量检查、T2C 把单测泛化为生产 checker、SMon 用 what-if 分析大模型训练 straggler——共同信号是「跑通 ≠ 跑对」已成为系统研究的一等问题。

LLM 系统从「吞吐与延迟优化」扩展到「极值硬件 + 生产可靠性」。推理端 WaferLLM 首次把 LLM 推到 wafer-scale,NanoFlow 把 LLaMA-2-70B 吞吐推到 TensorRT-LLM 的 1.91×、理论上限 68.5%,BlitzScale 用 O(1) host caching 做 live autoscaling。训练端出现 SMon(3079 个生产 job 的 straggler 诊断)、WLB-LLM(4D 并行负载均衡)、ZEN(稀疏 AllReduce)。量化侧 DecDEC 用 CPU 残差补偿让 3-bit Llama-3 perplexity 降 1 分。LLM 工作整体结构更「成熟」:不再堆单点加速,而是面对极值硬件(wafer)、生产规模故障(straggler)、底层数值(量化残差)。

CXL / 异构内存 / XPU 抽象开始改写 OS 与数据库层Tigon 首个利用 CXL 原子操作消灭 2PC 的内存 DB,比 RDMA 方案快 18.5×;SoarAlto 用 AOL = Latency/MLP 代替 hotness 做 tiered memory;FineMem 用 RDMA MW + bitmap tree 把 disaggregated memory 分配粒度降到 4KB;EMT 给 Linux 加架构中立 MMU 框架支持 ECPT/FPT;XSched 定义跨 10 种 XPU 的抢占式调度抽象。硬件多样性(CXL 池、RDMA、DPU、加速器)倒逼 OS/DB 重新设计抽象层。

GPU kernel 工具链进入「compiler-centric + 可编程 probe」新阶段KPerfIR 把 profiling 改造成 MLIR/Triton compiler pass,Neutrino 给 GPU 带来 eBPF 级的 PTX/GCNAsm 可编程探针,PipeThreader 软件定义 GPU 异构单元流水,Mirage 用 µGraph 统一 kernel/block/thread 三层 superoptimize。和 MLSys 2026 的 AccelOpt/PIKE 式 LLM-agent 生成 kernel 形成互补:OSDI 侧更重「compiler 基础设施」,MLSys 侧更重「agent 生成体验」。

与往届对比:相比 OSDI 2024,本届 PagedAttention 或 vLLM 内部优化类论文几乎消失,取而代之的是面向新硬件(wafer / CXL / XPU / DPU)的极值工作和面向生产可靠性的 silent-failure 检测。LLM 与验证占半壁江山、存储/网络保留 10 篇左右的稳健阵地、量子系统(QOS/HyperQ)首次进入主会两篇、AI 编译器与 GPU 工具链呈集群化——这届 OSDI 的气质是「研究对象更硬核,研究方法更严肃」。

论文分类

LLM 推理与服务(4 篇)

  • WaferLLM — 首个 wafer-scale LLM 推理,PLMR 模型 + MeshGEMM/GEMV + shift-KV,比 SGLang 多卡 A100 快 10-20×
  • NanoFlow — nano-batch + MILP 自动 intra-device pipeline,LLaMA-2-70B 吞吐 1.91× TensorRT-LLM,达理论上限 68.5%
  • BlitzScale — RDMA 多播 + 层粒度 live 扩容 + ZigZag,尾延迟降 94%、节省 49% GPU
  • DecDEC — CPU 存 LLM 权重残差,按 activation 动态取 salient 通道补偿,3-bit Llama-3 ppl 10.15→9.12,显存增量 <0.0003%

分布式训练(3 篇)

  • SMon — ByteDance 5 月 3079 job what-if 分析,42.5% LLM 训练被 stragglers 拖慢 ≥10%,主因 PP/seq/GC
  • WLB-LLM — variable-length packing + outlier delay + per-document sharding 解决 4D 并行训练不平衡,平均提速 1.23×
  • ZEN — 四维搜索 + GPU 并行分层哈希做稀疏 AllReduce,通信 5.09×、吞吐 2.48×

GPU Kernel / Compiler / Profiling(8 篇)

  • PipeThreader — 软件定义 GPU 异构单元流水,自动重现 FlashAttention-3、Mamba2 ChunkScan 快 1.7-2×
  • KPerfIR — 把 GPU profiling 做成 MLIR/Triton 编译 pass,区域级 timing 工具 8.2% overhead 指导 FA3 重叠优化
  • QiMeng-Xpiler — LLM + SMT 跨 CUDA/HIP/BANG/VNNI 翻译张量程序,正确率 95%,productivity 最高 96×
  • BayesianCodeDiffusion — 相似 subgraph 共享 prior 参数 + 扩散 posterior,Ansor auto-tuning 最快 3.31×
  • Mirage — µGraph 统一 kernel/block/thread 三层搜索 + 有限域 PIT 等价验证,GQA 等加速最多 3.3×
  • Tintin — 把 HPC 多路复用误差量化为 uncertainty 并反馈,插值精度 3.09× 于 perf_event,overhead ≤2.4%
  • Neutrino — GPU 版 eBPF,PTX/GCNAsm 级可编程 probe,跨 NVIDIA/AMD,1.04× 开销 + 4 regs
  • SysGPT — 把串行优化归纳为 3 原则 + 8 方法论,用 477 篇 OSDI/SOSP 论文验证覆盖性,fine-tune SysGPT 做建议

存储与 I/O(6 篇)

  • Okapi — 解耦 stripe 宽度与 EC group 宽度,读吞吐提升 80%、EC 转换 IO 降 70%
  • F2FSJ — out-of-place F2FS 的 per-inode 分散日志 + epoch 解耦,checkpoint 时延降 4.9×
  • Nostor — 用组合设计 SBIBD 抛弃 stripe 概念,RDMA 内存 EC KV-store 吞吐提升 1.61-2.60×
  • Scalio — DPU JBOF KV store,用 NVMe-oF Target Offload 把 SSD I/O 全卸载到 HCA,比 LEED 吞吐 2.5-17×
  • WOLVES — PM 文件系统把每次操作 metadata 打包 checksum 一次写,吃满 97-99% PM 写带宽,RocksDB 1.20-6.73×
  • PipeANN — 打破 best-first 搜索的 compute-I/O 顺序,SSD 图 ANN 延迟仅 DiskANN 的 35%,billion-scale 吞吐 1.71×

分布式系统与数据库(5 篇)

  • Belfast — fix-ante ordering 精确预测 shared log 全局位置,delivery 早 3×、端到端延迟降 1.6×
  • Picsou — QUACK 把 TCP cumulative-ACK 搬到 RSM 间,支持 CFT/BFT 混跑,比 all-to-all 快最高 24×
  • Skybridge — 带外 gap-detection 复制流给 Meta TAO 缓存 2 秒有界陈旧度,一致率 99.993%→99.99998%,仅用 0.54% 服务器
  • Mako — 解耦 2PC 与 geo-replication,vector clock + epoch 限制级联回滚,TPC-C 吞吐 3.66M/s 比 SOTA 高 8.6×
  • Tigon — 首个用 CXL 原子操作同步跨主机事务的内存 DB,CAT + 软件缓存一致消灭 2PC,比 RDMA DB 快 18.5×

网络(4 篇)

  • rxBisect — NIC Rx ring 拆成 Ax/Bx 双环解耦分配与接收,吞吐比 shRing +20%、比 per-core ring +37%
  • FuseLink — NVLink 做 relay 聚合多 NIC 带宽,两 GPU 间达 212 GB/s,LLM TTFT 快 2.73×
  • Soze — 只用 queueing delay 一个 INT 信号去中心化收敛到 weighted max-min fair,TPC-H JCT 降至 0.79×
  • DEDE — 用 ADMM 解耦 resource/demand 约束并行求子问题,调度/TE/LB 加速 2.2-7.6×

内存管理与虚拟化(5 篇)

  • SoarAlto — AOL = Latency/MLP 替代 hotness,Soar+Alto 在 CXL tiering 上最高 12.4×,胜过 TPP/Nomad/NBT/Colloid
  • FineMem — RDMA MW + 两层 bitmap tree 实现 4KB 粒度单边 RDMA 分配,延迟降 95%、利用率升 2.25-2.8×
  • EMT — Linux 架构中立 MMU 框架,支持 ECPT/FPT 等新翻译架构,overhead < 0.5%
  • VIO — VirtIO 数据面 IOPA-snoop + IOPS-aware 弹性 passthrough,300K VM 上每天回收等价 30K VM 内存
  • Kamino — 按端到端延迟(queue + cache-aware proc)派发 VM 请求,Azure 部署后延迟降 42%

安全 / 沙箱 / 隐私(5 篇)

  • MettEagle — L4Re 微内核上实现容器引擎,TCB 比 Linux 小 31×,33 个 CVE 缓解 30 个,冷启动 1ms vs runC 70ms
  • Omniglot — 弱化类型 + 延迟 validation 让 Rust 安全调 C,无 copy,接近 unchecked FFI 性能
  • Weave — 用噪声注入把 oblivious MR 开销压到常数(~3×),比 Opaque/Shuffle&Balance 快 4-10×
  • bpftime — EIM capability + eBPF 验证 + MPK 隔离 + 二进制重写替代 uprobe,Nginx 扩展仅 2% 开销,uprobe 快 13×
  • Compass — HNSW 图遍历与 Ring ORAM 白盒协同设计,加密语义搜索精度比肩明文,延迟 0.57-1.28s

形式验证与可靠性(7 篇)

  • Paralegal — 带 marker 的 PDG 对 Rust 应用做静态隐私分析,8 个应用找到 5 已知 + 2 未知 bug
  • PoWER — 把 crash consistency 编成写操作 precondition,用标准 Hoare logic 验证 PM KV 存储,<1min 通过
  • TrainCheck — 自动推断 DL 训练不变量,20 个真实 silent error 检出 18 个,额外挖出 6 个未知 bug
  • T2C — 把单测泛化为带 precondition 的 runtime checker,20 个生产 silent failure 检出 15 个,中位 0.188s
  • KRR — 把 record-replay 边界收窄到 guest kernel 切片,split recorder 协作,减速 1.52-2.79× vs VM-RR 9-30×
  • Basilisk — Provenance Invariants + 原子分片自动推导 Multi-Paxos 等 16 个分布式协议的 inductive invariant,手写为 0
  • DeCl — 把 SFI 思路扩到确定性验证,LLVM 原生机器码跑智能合约,比 Wasmtime 快 2×、比解释器快 30×

异构加速 / Serverless / 其他(6 篇)

  • XSched — XQueue 抽象 + 三级硬件模型在 10 种 XPU 上实现软件抢占,高优任务尾延迟降 2.10×
  • QOS — 量子 OS,Qernel 抽象组合 error-mit/estimator/multi-prog/scheduler,fidelity 升 456×、wait 降 5×
  • HyperQ — 量子云 VM 抽象,时空 binpacking 多路复用 IBM Eagle,吞吐利用率提升一个数量级
  • AFaaS — 蚂蚁 AFaaS 用 FRI + 资源池 + 树状 seed 把冷启动降到 ms 级,比 Catalyzer 快 1.8-8.14×
  • Quake — 成本模型驱动 split/merge + 自适应 nprobe + NUMA 并行,动态倾斜负载下比 HNSW/DiskANN 快 1.5-13×
  • Spars — 把 OoO + 顺序提交搬进 OS 渲染服务,折叠/多屏手机帧率提升 1.76-1.91×

研究趋势

1. 形式验证从「专家工具」转为「研究者默认选项」Basilisk 把 Multi-Paxos / PCC 16 个分布式协议的 inductive invariant 完全自动化(用户手写 0 条);PoWER 用标准 Hoare logic 给 PM KV 存储做 crash consistency 验证;DeCl 把 SFI 扩到确定性机器码执行;Paralegal 对 Rust 实际应用做静态隐私审查。共同信号是「verification 的入门门槛在下降」——可以在研究项目里把验证当作工具链的一部分而非独立研究方向。

2. Silent failure 成为与 performance 并列的 first-class 问题TrainCheck 在 18 个真实 DL silent error 上验证了自动不变量推断的可行性;T2C 把单元测试泛化为生产 checker;SMon 证明 42.5% LLM 训练 job 被 stragglers 拖慢 ≥10%——三篇都说明「跑完没崩」不够了,系统社区开始系统化处理「看似成功其实错了」。这类工作对研究生态的改造比 perf 工作更深:意味着实验 baseline 的「成功」本身需要被重新审视。

3. LLM 系统研究的极化:要么极值、要么生产。极值端有 WaferLLM(wafer-scale)、NanoFlow(吞吐逼近理论上限)、DecDEC(3-bit 量化);生产端有 SMon(straggler 诊断)、BlitzScale(live autoscaling)、WLB-LLM(4D 并行负载均衡)、ZEN(稀疏同步)。中间地带的「serving 单点加速」(vLLM/SGLang 内部改法)在 OSDI 本届几乎消失——与 MLSys 2026 仍有大量此类论文形成鲜明对比。推测原因:OSDI 审稿口味更重「系统贡献的不可替代性」,而 serving 单点优化经过 2023-2024 的密集产出后已经饱和。

4. CXL / RDMA / DPU 等异构硬件开始重写抽象层Tigon 利用 CXL 原子操作消灭分布式事务的 2PC(比 RDMA 方案快 18.5×);SoarAlto 引入 AOL = Latency/MLP 指标取代 hotness 做 CXL tiering;FineMem 把 RDMA disaggregated memory 分配粒度降到 4KB;Scalio 用 DPU NVMe-oF offload 重写 JBOF 架构;EMT 给 Linux 做架构中立 MMU 框架。这批工作共同信号:当数据中心硬件从「CPU + 本地内存 + TCP」的 20 年范式迁移到「池化内存 + 智能网卡 + 加速器」时,OS/DB 的抽象层第一次大范围重写,而不是打补丁。

5. GPU Kernel 工具链进入 compiler-centric 时代KPerfIR 把 profiling 做成 MLIR/Triton 编译 pass,Neutrino 提供 PTX/GCNAsm 级可编程 probe,PipeThreader 把 GPU 流水抽象成软件调度,Mirage 用 µGraph 三层统一 superoptimize,QiMeng-Xpiler 跨 ISA 翻译张量程序。和 MLSys 2026 上的 LLM-agent 式 kernel 生成(AccelOpt/PIKE)互补——OSDI 聚焦「可编程的 kernel 基础设施」,给下游 agent 和自动调优提供了工具链底座。

6. 量子系统 / XPU 首次进入主会建制QOSHyperQ 两篇量子系统论文(分别做量子 OS 抽象与量子云 VM)在 OSDI 史上相当罕见;XSched 把抢占式调度从 GPU 推广到 10 种 XPU;bpftime 则给用户态扩展提供了新 sandbox 框架。这些「新硬件抽象」型工作的集中出现,意味着 OSDI 社区开始系统性接收 CPU 之外的计算设备。

值得关注的方向

1. Silent failure 检测的通用化与跨层移植

为什么小团队能做TrainCheck 全部用开源框架(PyTorch + 公开 bug repo)和单机实验,核心工作是「不变量推断算法 + bug repro」;T2C 只需已有单测和目标系统源码;SMon 用生产 trace 离线分析,不需要现场运行训练。

指向空白的论文TrainCheck 只覆盖训练框架内部;T2C 只用现成单测而非派生新 oracle;SMon 仅做 what-if diagnosis 而未闭环修复。

Open problems:能否把 TrainCheck 的不变量推断扩到 inference(检测 serving 的 numerical silent corruption)?能否把 T2C 与 property-based testing 结合,自动生成 precondition?能否在 LLM 推理链路里做 per-token silent error 检测(如 KV cache corruption、attention NaN)而不是只在训练 loss 级别?

2. Provenance-style invariant 推断扩展到新协议

为什么小团队能做Basilisk 把 16 个协议的 invariant 完全自动推导,说明工具本身已经足够成熟,1-2 人应用到新协议上主要是建模工作。作者开源了工具。

指向空白的论文Basilisk 的 atom sharding 局限于「单机可枚举的小节点数」;部分 liveness invariant 不在 provenance 模型内;复杂协议(CRDT、distributed SQL 事务)未验证。

Open problems:能否把 Basilisk 扩到 2PC / 3PC + geo-replication 混合(如 Mako 的 vector clock 组合)?能否给 Tigon 的 CXL 原子操作序列做 invariant 验证?Provenance invariant 能否用于 LLM serving 的 request-level 正确性(如 Skybridge 的 bounded staleness 保证)?

3. CXL tiering / disaggregated memory 的新成本模型

为什么小团队能做SoarAlto 的 AOL 指标只需 perf counter 和 Linux 改动;AMD EPYC + 商用 CXL PCIe 卡在云平台可租;实验基线(TPP/Nomad)都开源。

指向空白的论文SoarAlto 只覆盖 on-demand page promotion;FineMem 只解决分配粒度不触及调度;Tigon 只用 CXL 做跨主机事务同步。

Open problems:能否用 AOL 指标指导 LLM serving 的 KV cache 分层(local HBM / CXL DRAM / host DRAM / SSD)?CXL 原子操作能否替代 RDMA atomics 做分布式锁、优化序列化 LLM training 的梯度同步?CXL pod 内的 fault domain(一个 CXL switch 宕了就地炸整张池)能否用 Basilisk 风格自动验证?

4. GPU kernel profiling 工具链的「MLIR 化」

为什么小团队能做KPerfIRNeutrinoTintin 都基于开源 MLIR/Triton/eBPF 生态,单机 GPU 足够,重点在工具设计而非大规模 workload。

指向空白的论文KPerfIR 聚焦单 kernel 区域;Neutrino 聚焦指令级 probe;Tintin 聚焦多路复用误差;三者没有统一 IR。

Open problems:MLIR 里能否定义一个「profile-annotated tensor IR」让 Mirage/TVM 生成的 kernel 在编译期就自带 probe?Neutrino 的 probe 能否做 GPU/CPU 跨设备一致抽象以支持 RDMA 通信 profile?KPerfIR + LLM agent 能否把 profile 结果闭环反馈给 AccelOpt 式自动优化?

5. 形式化 + serverless / container 冷启动

为什么小团队能做MettEagle 证明微内核上的容器 TCB 能小 31×;AFaaS 的树状 seed 完全软件侧改造;二者都不需要大规模集群。

指向空白的论文MettEagle 只覆盖容器引擎;AFaaS 只优化冷启动延迟不做安全;bpftime 的 sandbox 没有用于 serverless 场景。

Open problems:能否在微内核 serverless 上用 bpftime 式 eBPF sandbox 替代完整容器?能否对 AFaaS 的冷启动路径做形式验证(seed tree 的 isolation 正确性)?WASM / Rust + Omniglot 式安全 FFI 能否成为比容器更轻的 serverless runtime?

6. XPU 抽象 / 量子系统的接口层扩展

为什么小团队能做XSched 的 XQueue 抽象建立在现有硬件抢占能力之上,适合 1-2 人做特定 XPU 的 port;QOS 的 Qernel 抽象开源在 IBM Eagle 上可验证。

指向空白的论文XSched 只处理 preemption,未处理 DMA/memory;QOS 只到 scheduler 层未到应用层抽象;HyperQ 只覆盖 IBM 架构。

Open problems:能否把 XSched 扩到 TPU / MTIA / Trainium 这些无 preempt 原生支持的 XPU?Qernel 能否跨多厂商 QPU(Google Willow / Quantinuum / Rigetti)提供统一抽象?能否把 Basilisk 式 invariant 推断用于量子纠错码的 fault-tolerance 验证?