FAST 2026

44 篇论文，LLM 训练/推理存储栈占 ~20%、生产规模云存储经验占 ~14%（Apple/Alibaba/Huawei/Tencent/ByteDance），CXL 仿真器与 disaggregated I/O 形成新工具链；纠删码/GC、SSD I/O 路径与 zoned 存储仍是 FAST 主线。

概览

LLM 已进入 FAST 议程。 8 篇围绕 LLM 训练/推理存储栈：Bidaw 与 CacheSlide、SolidAttention 一起把 KV-Cache 从 GPU 显存延伸到 SSD/host memory 两级；AITurbo 把 KV cache 与 checkpoint I/O 一并塞进 disaggregated 云存储；MAIO 用可编程 page cache 解 model loading；GCR 与 AdaCheck 解决 LLM checkpoint 速度与频率；Seneca 把这套思路推向 ML 数据 preprocess。这些工作都从 storage perspective 切入，与 OSDI/SOSP/MLSys 的 GPU-centric serving 视角形成互补。

生产经验论文密度罕见。 McQueen（Apple，EB 级、10 年部署）、RASK / RISTRETTO / ThinkAhead / PolarStore（Alibaba-Cloud，EBS / 本地盘 / PolarDB / 镜像 preload，每篇都谈数千-数万服务器和 PB 级数据）、TapeOBS / AITurbo（华为云，磁带 + AI 存储）、FailureMiner（腾讯，35 万 SSD 部署一年）、DisCoGC（字节 ByteStore + ByteDrive）。这一届 FAST 不只是 industrial 比例高，而是云厂商直接公开内部架构 + 长期部署数据 + 工程取舍。

CXL 仿真器/工具论文成为新支柱。 Xerxes 是首个 CXL 3.1 PBR/DMC + PCIe 6.0 全双工仿真框架，Cylon 是首个 full-system CXL-SSD 仿真器（基于 FEMU + KVM EPT），DMTree 把 disaggregated memory 当 commodity 用 RDMA + compute-side coordination 管 tree index，CetoFS 在 NVMe-oF 解聚 SSD 上做 host-target 协同 FS。FAST 26 把 CXL 从「能不能 work」推到「怎么仿真、怎么写软件」。

AI 反向赋能存储研究。 SysSpec 用 LLM + Hoare 逻辑 spec 生成完整 FUSE 文件系统；FailureMiner 用 SHAP 抽可解释故障预测规则；DOGI 用紧凑 MLP 做 data placement；ThinkAhead 用 zero-shot 元数据 embedding 预测 image 访问。LLM/ML 已从工作负载进化成 FAST 论文的一线建模工具。

与 FAST 24/25 的对比。 相比 FAST 25 的 ZNS / persistent memory / 云对象存储议题，本届 ZNS 类论文降到只剩 ZUFS（手机端落地）和 DOGI（数据放置），persistent memory 几乎消失，取而代之的是 LLM 存储 + CXL 工具论文 + production-scale 经验。Linux 内核栈并未离场——ScaleSwap、DPAS、UnICom、WSBuffer、FS-PI、Lockify 仍贡献了 6+ 篇 Linux 路径优化。

论文分类

LLM 推理与训练存储（8 篇）

AdaCheck — LLM 训练 checkpoint：tensor redundancy 抽象 + hash/ring detector，相比 Gemini checkpoint size 缩 6-896×、频率提 1.46-111×
AITurbo — 华为云 AI 任务存储：grouped read/write API + host DRAM + 高带宽 fabric，checkpoint 写比 SFSTurbo 快 3.9-58.8×、KV cache 读比 Mooncake 快 1.28×
Bidaw — host memory + SSD 两层 KV-Cache 双向感知（引擎按 I/O 排队、存储按回答长度预测复用距离），交互式延迟降最多 3.58×
CacheSlide — agent 场景的 RPDC（相对位置漂移）KV 复用范式，扩展 vLLM，3.11-4.3× 延迟降低、3.5-5.8× 吞吐
MAIO — 可编程 page cache + interruptible prefetch + XPU affinity + burn-after-reading 驱逐，model loading 降 79%
SolidAttention — AIPC（8-16GB DRAM）跑 128k 上下文 LLM，KV interleave + speculative prefetch + microtask scheduler，提速 3.1×、KV 内存占用降至 2%
GCR — GPU C/R：control/data 分离 hybrid + CPU shadow execution + 符号执行 dirty templates，比 cuda-ckpt 降 72.1%
Seneca — ML 训练 data preprocess cache：DSI 性能模型在 encoded/decoded/augmented 三态最优分区 + 机会性优先吃 cache，makespan 降 45.23%

生产规模云存储经验（6 篇）

McQueen — Apple geo-distributed 对象存储，EB 级，部署 10+ 年，2.0 用 (20,2,2) LRC + 跨区 5-way XOR 把 RF 从 2.40 压到 1.50
PolarStore — 阿里云 PolarDB 软硬协同压缩：SW 层 16KB→4KB 对齐 + HW 层 PolarCSD 字节级压缩，1000+ 服务器，压缩比 3.55、存储成本降 60%
RASK — 阿里云 EBS 用 ART + log-structured leaf 把 range 当 key，内存最多省 98.9%、吞吐最多 31.0×
RISTRETTO — 阿里云本地盘三代演进经验论文：SPDK ESPRESSO → ASIC DPU DOPPIO → ASIC+SoC RISTRETTO（单 VD 900K IOPS）+ 未来 LATTE 弹性混合架构
ThinkAhead — 阿里云 EBS image lazy loading 换数据驱动 preloading，score-based GA + zero-shot 元数据相似度，hit rate 7.27×、tail latency 降 98.7%
TapeOBS — 华为云磁带归档：4% HDD pool 异步缓冲 + batched (12+2) erasure coding + tape-tailored engine，TCO 降 4.95×（vs HDD），存数百 PB
FailureMiner — 腾讯 SSD 故障预测：boundary-preserving 下采样 + SHAP 联合关键决策，35 万 SSD 部署一年，precision +38.6%、recall +80.5%
DisCoGC — 字节 ByteStore + ByteDrive：compaction-only 换成 discard + compaction 混合 GC，WA 降 25%、TCO 降 ~20%

CXL、解聚存储与跨虚拟化 I/O（6 篇）

Xerxes — 首个 CXL 3.1 仿真器（PBR + DMC + PCIe 6.0 全双工），真实硬件验证误差 0.1-10%
Cylon — 首个 full-system CXL-SSD 仿真器，FEMU + KVM EPT remapping/shared，cache hit ~150ns 不 VM-exit
DMTree — disaggregated memory 上 compute-side collaborative 存 fingerprint + 锁，5.7× 吞吐 vs SOTA range index
CetoFS — NVMe-over-RDMA 解聚 SSD 上 host-target 协同：数据面用户态 + 权限/并发/redo 卸到 target，单线程延迟降 52%、并发吞吐 19×
RosenBridge — virtio-ndp + uBPF 在 QEMU userspace 跨虚拟化执行 NDP，让 XRP、GPU-Direct-Storage 等 bare-metal 路径在 VM 中复用
RISTRETTO（重复列于经验类，此处为方法学贡献）— ASIC + SoC 协同 DPU 卸载本地盘 I/O

SSD I/O 路径、缓冲与内核栈（7 篇）

ScaleSwap — Linux swap 从 all-to-all 改 one(core)-to-one(resource)，128 核 + 8 SSD 上吞吐 3.4×
DPAS — 用最近两次 I/O under/over-sleep 实时调 hybrid polling 睡眠 + polling/interrupt/PAS 三态切换，CPU 占用降 21pp
UnICom — TagSched + TagPoll + SKIP 三件套统一 I/O completion，4KB 读 IOPS 比 ext4 高 43.5%
WSBuffer — 高带宽 SSD 时代 page cache 反成瓶颈，scrap buffer 让小写缓冲、大对齐写直送 SSD，吞吐最多 3.91×、尾延迟 82.80×
WARP — 首个商用 NVMe FDP SSD 跨设备评测 + 开源 emulator，揭示 Noisy RUH / Save Sequential 现象与 PI vs II OP 阈值取舍
uCache — OSv unikernel 上 mmap 风格可定制 IO cache（VMA + 策略 hookpoint + uVFS），随机访问吞吐 55× vs mmap、对 SPDK 仅 3.5% 开销
FS-PI — Linux 端到端数据保护：flexible PI placement + io_uring PI 接口 + FS 直接生成校验，BTRFS 性能提 26%、寿命延 23%、XFS 首次原生 checksum

纠删码、GC 与数据放置（4 篇）

LESS — 多层 extended sub-stripe 叠加在 RS 编码上，可配置 sub-packetization MDS 编码，single-block repair 比 Clay-Codes 降 83.3%
DRBoost — partial-chunk reconstruction + 双 reuse + reconstruction-friendly layout，MSR codes degraded read 降 1-2 数量级
DOGI — 离线 NoDaP oracle baseline + 启发式 + MLP + 动态分组配置，ZNS 上 WAF 降 23.2%、吞吐 +13.3%
DisCoGC — 见生产经验类

缓存分层与多资源调度（3 篇）

MOST — 经典 tiering + 20% 热数据 mirror + offloadRatio 反馈控制器，吞吐比 Colloid/HeMem/Orthus 高 2.34×、P99 降 75%
HARE — 首个把 cache 整合进 multi-resource 分配的 cache-centric 算法（harvest/redistribute），HopperKV 1.9×、BunnyFS 1.4×、cache 不敏感时退化 DRF
HATS — LSM-Tree 任务调度：跨节点 read 分配 + replica 选择 + read-hotness 调控 compaction，Cassandra v5.0 P99 降 58.6-59.9%、吞吐 2.41-2.90×

文件系统创新（4 篇）

CoFS — 容器启动 FS：build 时构造 MPHF + sparse file 镜像缓存，FUSE lookup 降 73-86%
SysSpec — 生成式文件系统：Hoare 逻辑 + rely-guarantee + 显式并发协议 spec 让 LLM 生成 SpecFS，spec patch 增量演化整合 Ext4 10 个 feature
RubikFS — 只读压缩 FS：相似图分簇排序 + hotness 分组，相比 EROFS/Squashfs 压缩比提 42.60%、无效读减 70.70%
ZUFS — Zoned UFS：ZABM 设备端写缓冲 + 端到端写序保证 + 主动 GC，Pixel 10 Pro 上写吞吐 2×、Genshin 加载降 14%（首篇手机 zoned 落地）

索引、同步、时序与可信存储（6 篇）

OdinANN — billion-scale Vector-Search：direct insert 取代 DiskANN buffered+merge，中位延迟波动从 2.44× 压到 1.07×
Lockify — Linux DLM 即使低争用也因远程 directory node 通信退化，self-owner notification + async ownership，吞吐 ~6.4×、逼近 RDMA 87-88%
CloudTS — 监控时序系统 metadata 压缩：Patricia-trie 全局 tag 字典 + 二维 bitmap，比 Cortex 提速 1.37×（生产 1.43×）
ParaSync — CDC-based 文件同步并行化：checksum 组合 + streaming matching + absolute-offset patch 流水化，chunking 7.6×、端到端 sync 3.7×
SkySync — 复用 BTRFS/ZFS/dm-verity/Ceph BlueStore 等已有 CRC32C 元数据当 weak checksum，相比 rsync/dsync 计算降 89.3%
MlsDisk — TEE 安全块存储：四层抽象 log-structured 替代 SGX-PFS in-place Merkle，FIO 7.3-21.1×

研究趋势

LLM 存储栈分化为「serving 时延敏感」与「training/checkpoint 吞吐敏感」两支。 Serving 一支由 Bidaw / CacheSlide / SolidAttention / MAIO 组成，关注点是 KV-Cache 在 host memory + SSD 上的 layout、复用与 prefetch；Training 一支由 AdaCheck / GCR / AITurbo / Seneca 组成，目标是 checkpoint/restore 吞吐与频率。两支共同推动「LLM 存储」从 OSDI/SOSP 的 GPU 内部优化扩散到 FAST 的存储栈视角，但都未触及 NVMe-CS / CXL.cache / GPU-Direct-Storage 等更激进的硬件路径，这是下届可能的突破口。

Production paper 的密度与「自我披露」程度都达到新高。 McQueen、RISTRETTO、PolarStore、TapeOBS、FailureMiner、DisCoGC 都给出了部署规模、长期 telemetry、TCO 数字与失败案例。FAST 历来产业向，但这一届云厂商不再只发「我们有个新算法 + benchmark」，而是「我们部署 10 年，这是踩过的坑、这是数字」。

CXL 论文从「证明可行」转向「写仿真器 + 写软件」。 Xerxes 与 Cylon 表明社区已经接受 CXL 是不可避的硬件方向，于是进入工具阶段；DMTree / CetoFS 则把 disaggregated memory/SSD 当 commodity 用，关注 compute-side coordination 与 host-target 协同。CXL 路径上的 OS 抽象（virtual memory 还是 device memory？是否需要新的文件接口？）仍然是开放问题。

AI 反哺存储研究在 FAST 形成多点开花。 SysSpec（LLM 写文件系统）、FailureMiner（SHAP 抽预测规则）、DOGI（MLP 数据放置）、ThinkAhead（embedding 预 preload）、Seneca（DSI MDP）。AI4Sys 在 FAST 26 已经从「demo 论文」演变为多个独立方向。

Data integrity / zoned 思想下沉到栈底。 FS-PI 把 E2EDP 推到 Linux 全栈、SkySync 复用 BTRFS/ZFS 现有 checksum 元数据、ZUFS 把 ZNS 思想搬到手机 UFS。FAST 26 的隐性共识是「checksum 与 zone 不应作为局部优化，而是应跨层共享与复用的基础设施」。

值得关注的方向

KV cache 存储层的边角问题。 Bidaw / CacheSlide / SolidAttention 都在 host memory + SSD 上做 KV cache 管理，但 NUMA 多卡场景的 KV 局部性、跨节点 KV migration 与重加载、batch-aware prefetch policy 都还没人系统做。小团队只需一台 8x A100/H100 + 几块 NVMe 就能起步；现有论文已开放出 vLLM/SGLang 的 plug-in 实现路径。

哪些论文指向：Bidaw、CacheSlide、SolidAttention、MAIO
Open problems：跨节点 KV migration 时 PagedAttention 块如何对齐？SSD prefetch policy 怎么从单 query 扩到 batch？

Spec→Code 的生成式系统。 SysSpec 用 Hoare 逻辑 + rely-guarantee 让 LLM 生成 FUSE 文件系统，思路完全可以推广到 KV store / scheduler / replication policy。小团队优势在于：spec 工程量小、benchmark 可重用、不需要 GPU 集群。

哪些论文指向：SysSpec
Open problems：哪些子系统是 spec→code 的「sweet spot」（需求清晰但实现繁琐）？怎么把生成代码的正确性做到生产级（Hoare 逻辑覆盖率 + 模糊测试）？

复用现有 checksum/metadata 做新功能。 SkySync 用 BTRFS/ZFS 已有的块级 checksum 替代 rsync 的 weak checksum；同样思路可推广到备份去重、版本控制、迁移、跨云同步。FAST 投稿易接受、工程量适中。

哪些论文指向：SkySync、FS-PI
Open problems：除 CRC32C 外的现有 hash 是否能像 SkySync 一样代数组合？哪些应用最迫切需要 storage-level 已有 checksum 的重用？

Mobile / edge 存储的 zoned/log-structured 移植。 ZUFS 是首篇手机 zoned 落地，IoT 设备、车载存储、嵌入式 F2FS 改造空间还大，且公开 telemetry 比云端易获取。

哪些论文指向：ZUFS、RubikFS、CoFS
Open problems：低端 IoT 设备能否用 zoned 而不付 GC 成本？车载/无人机场景的 read-only 镜像如何做 region-locality 压缩？

CXL 多租户的软件抽象。 Xerxes 与 Cylon 仿真器就位后，CXL.mem 多租户的 fairness、CXL.cache 一致性引发的 OS 抽象选择、CXL-SSD 上的 fs/db 全栈协议都开放。小团队可以基于这些仿真器先做 micro-benchmark，再设计软件层。

哪些论文指向：Xerxes、Cylon、DMTree、CetoFS
Open problems：CXL.mem 上的 swap/page cache 是否需要新的 OS 抽象？disaggregated FS 与 disaggregated memory 的 cache 一致性怎么共享？

Awesome System Papers Wiki

探索

FAST-2026