FAST 2026
44 篇论文,LLM 训练/推理存储栈占 ~20%、生产规模云存储经验占 ~14%(Apple/Alibaba/Huawei/Tencent/ByteDance),CXL 仿真器与 disaggregated I/O 形成新工具链;纠删码/GC、SSD I/O 路径与 zoned 存储仍是 FAST 主线。
概览
LLM 已进入 FAST 议程。 8 篇围绕 LLM 训练/推理存储栈:Bidaw 与 CacheSlide、SolidAttention 一起把 KV-Cache 从 GPU 显存延伸到 SSD/host memory 两级;AITurbo 把 KV cache 与 checkpoint I/O 一并塞进 disaggregated 云存储;MAIO 用可编程 page cache 解 model loading;GCR 与 AdaCheck 解决 LLM checkpoint 速度与频率;Seneca 把这套思路推向 ML 数据 preprocess。这些工作都从 storage perspective 切入,与 OSDI/SOSP/MLSys 的 GPU-centric serving 视角形成互补。
生产经验论文密度罕见。 McQueen(Apple,EB 级、10 年部署)、RASK / RISTRETTO / ThinkAhead / PolarStore(Alibaba-Cloud,EBS / 本地盘 / PolarDB / 镜像 preload,每篇都谈数千-数万服务器和 PB 级数据)、TapeOBS / AITurbo(华为云,磁带 + AI 存储)、FailureMiner(腾讯,35 万 SSD 部署一年)、DisCoGC(字节 ByteStore + ByteDrive)。这一届 FAST 不只是 industrial 比例高,而是云厂商直接公开内部架构 + 长期部署数据 + 工程取舍。
CXL 仿真器/工具论文成为新支柱。 Xerxes 是首个 CXL 3.1 PBR/DMC + PCIe 6.0 全双工仿真框架,Cylon 是首个 full-system CXL-SSD 仿真器(基于 FEMU + KVM EPT),DMTree 把 disaggregated memory 当 commodity 用 RDMA + compute-side coordination 管 tree index,CetoFS 在 NVMe-oF 解聚 SSD 上做 host-target 协同 FS。FAST 26 把 CXL 从「能不能 work」推到「怎么仿真、怎么写软件」。
AI 反向赋能存储研究。 SysSpec 用 LLM + Hoare 逻辑 spec 生成完整 FUSE 文件系统;FailureMiner 用 SHAP 抽可解释故障预测规则;DOGI 用紧凑 MLP 做 data placement;ThinkAhead 用 zero-shot 元数据 embedding 预测 image 访问。LLM/ML 已从工作负载进化成 FAST 论文的一线建模工具。
与 FAST 24/25 的对比。 相比 FAST 25 的 ZNS / persistent memory / 云对象存储议题,本届 ZNS 类论文降到只剩 ZUFS(手机端落地)和 DOGI(数据放置),persistent memory 几乎消失,取而代之的是 LLM 存储 + CXL 工具论文 + production-scale 经验。Linux 内核栈并未离场——ScaleSwap、DPAS、UnICom、WSBuffer、FS-PI、Lockify 仍贡献了 6+ 篇 Linux 路径优化。
论文分类
LLM 推理与训练存储(8 篇)
- AdaCheck — LLM 训练 checkpoint:tensor redundancy 抽象 + hash/ring detector,相比 Gemini checkpoint size 缩 6-896×、频率提 1.46-111×
- AITurbo — 华为云 AI 任务存储:grouped read/write API + host DRAM + 高带宽 fabric,checkpoint 写比 SFSTurbo 快 3.9-58.8×、KV cache 读比 Mooncake 快 1.28×
- Bidaw — host memory + SSD 两层 KV-Cache 双向感知(引擎按 I/O 排队、存储按回答长度预测复用距离),交互式延迟降最多 3.58×
- CacheSlide — agent 场景的 RPDC(相对位置漂移)KV 复用范式,扩展 vLLM,3.11-4.3× 延迟降低、3.5-5.8× 吞吐
- MAIO — 可编程 page cache + interruptible prefetch + XPU affinity + burn-after-reading 驱逐,model loading 降 79%
- SolidAttention — AIPC(8-16GB DRAM)跑 128k 上下文 LLM,KV interleave + speculative prefetch + microtask scheduler,提速 3.1×、KV 内存占用降至 2%
- GCR — GPU C/R:control/data 分离 hybrid + CPU shadow execution + 符号执行 dirty templates,比 cuda-ckpt 降 72.1%
- Seneca — ML 训练 data preprocess cache:DSI 性能模型在 encoded/decoded/augmented 三态最优分区 + 机会性优先吃 cache,makespan 降 45.23%
生产规模云存储经验(6 篇)
- McQueen — Apple geo-distributed 对象存储,EB 级,部署 10+ 年,2.0 用 (20,2,2) LRC + 跨区 5-way XOR 把 RF 从 2.40 压到 1.50
- PolarStore — 阿里云 PolarDB 软硬协同压缩:SW 层 16KB→4KB 对齐 + HW 层 PolarCSD 字节级压缩,1000+ 服务器,压缩比 3.55、存储成本降 60%
- RASK — 阿里云 EBS 用 ART + log-structured leaf 把 range 当 key,内存最多省 98.9%、吞吐最多 31.0×
- RISTRETTO — 阿里云本地盘三代演进经验论文:SPDK ESPRESSO → ASIC DPU DOPPIO → ASIC+SoC RISTRETTO(单 VD 900K IOPS)+ 未来 LATTE 弹性混合架构
- ThinkAhead — 阿里云 EBS image lazy loading 换数据驱动 preloading,score-based GA + zero-shot 元数据相似度,hit rate 7.27×、tail latency 降 98.7%
- TapeOBS — 华为云磁带归档:4% HDD pool 异步缓冲 + batched (12+2) erasure coding + tape-tailored engine,TCO 降 4.95×(vs HDD),存数百 PB
- FailureMiner — 腾讯 SSD 故障预测:boundary-preserving 下采样 + SHAP 联合关键决策,35 万 SSD 部署一年,precision +38.6%、recall +80.5%
- DisCoGC — 字节 ByteStore + ByteDrive:compaction-only 换成 discard + compaction 混合 GC,WA 降 25%、TCO 降 ~20%
CXL、解聚存储与跨虚拟化 I/O(6 篇)
- Xerxes — 首个 CXL 3.1 仿真器(PBR + DMC + PCIe 6.0 全双工),真实硬件验证误差 0.1-10%
- Cylon — 首个 full-system CXL-SSD 仿真器,FEMU + KVM EPT remapping/shared,cache hit ~150ns 不 VM-exit
- DMTree — disaggregated memory 上 compute-side collaborative 存 fingerprint + 锁,5.7× 吞吐 vs SOTA range index
- CetoFS — NVMe-over-RDMA 解聚 SSD 上 host-target 协同:数据面用户态 + 权限/并发/redo 卸到 target,单线程延迟降 52%、并发吞吐 19×
- RosenBridge — virtio-ndp + uBPF 在 QEMU userspace 跨虚拟化执行 NDP,让 XRP、GPU-Direct-Storage 等 bare-metal 路径在 VM 中复用
- RISTRETTO(重复列于经验类,此处为方法学贡献)— ASIC + SoC 协同 DPU 卸载本地盘 I/O
SSD I/O 路径、缓冲与内核栈(7 篇)
- ScaleSwap — Linux swap 从 all-to-all 改 one(core)-to-one(resource),128 核 + 8 SSD 上吞吐 3.4×
- DPAS — 用最近两次 I/O under/over-sleep 实时调 hybrid polling 睡眠 + polling/interrupt/PAS 三态切换,CPU 占用降 21pp
- UnICom — TagSched + TagPoll + SKIP 三件套统一 I/O completion,4KB 读 IOPS 比 ext4 高 43.5%
- WSBuffer — 高带宽 SSD 时代 page cache 反成瓶颈,scrap buffer 让小写缓冲、大对齐写直送 SSD,吞吐最多 3.91×、尾延迟 82.80×
- WARP — 首个商用 NVMe FDP SSD 跨设备评测 + 开源 emulator,揭示 Noisy RUH / Save Sequential 现象与 PI vs II OP 阈值取舍
- uCache — OSv unikernel 上 mmap 风格可定制 IO cache(VMA + 策略 hookpoint + uVFS),随机访问吞吐 55× vs mmap、对 SPDK 仅 3.5% 开销
- FS-PI — Linux 端到端数据保护:flexible PI placement + io_uring PI 接口 + FS 直接生成校验,BTRFS 性能提 26%、寿命延 23%、XFS 首次原生 checksum
纠删码、GC 与数据放置(4 篇)
- LESS — 多层 extended sub-stripe 叠加在 RS 编码上,可配置 sub-packetization MDS 编码,single-block repair 比 Clay-Codes 降 83.3%
- DRBoost — partial-chunk reconstruction + 双 reuse + reconstruction-friendly layout,MSR codes degraded read 降 1-2 数量级
- DOGI — 离线 NoDaP oracle baseline + 启发式 + MLP + 动态分组配置,ZNS 上 WAF 降 23.2%、吞吐 +13.3%
- DisCoGC — 见生产经验类
缓存分层与多资源调度(3 篇)
- MOST — 经典 tiering + 20% 热数据 mirror + offloadRatio 反馈控制器,吞吐比 Colloid/HeMem/Orthus 高 2.34×、P99 降 75%
- HARE — 首个把 cache 整合进 multi-resource 分配的 cache-centric 算法(harvest/redistribute),HopperKV 1.9×、BunnyFS 1.4×、cache 不敏感时退化 DRF
- HATS — LSM-Tree 任务调度:跨节点 read 分配 + replica 选择 + read-hotness 调控 compaction,Cassandra v5.0 P99 降 58.6-59.9%、吞吐 2.41-2.90×
文件系统创新(4 篇)
- CoFS — 容器启动 FS:build 时构造 MPHF + sparse file 镜像缓存,FUSE lookup 降 73-86%
- SysSpec — 生成式文件系统:Hoare 逻辑 + rely-guarantee + 显式并发协议 spec 让 LLM 生成 SpecFS,spec patch 增量演化整合 Ext4 10 个 feature
- RubikFS — 只读压缩 FS:相似图分簇排序 + hotness 分组,相比 EROFS/Squashfs 压缩比提 42.60%、无效读减 70.70%
- ZUFS — Zoned UFS:ZABM 设备端写缓冲 + 端到端写序保证 + 主动 GC,Pixel 10 Pro 上写吞吐 2×、Genshin 加载降 14%(首篇手机 zoned 落地)
索引、同步、时序与可信存储(6 篇)
- OdinANN — billion-scale Vector-Search:direct insert 取代 DiskANN buffered+merge,中位延迟波动从 2.44× 压到 1.07×
- Lockify — Linux DLM 即使低争用也因远程 directory node 通信退化,self-owner notification + async ownership,吞吐 ~6.4×、逼近 RDMA 87-88%
- CloudTS — 监控时序系统 metadata 压缩:Patricia-trie 全局 tag 字典 + 二维 bitmap,比 Cortex 提速 1.37×(生产 1.43×)
- ParaSync — CDC-based 文件同步并行化:checksum 组合 + streaming matching + absolute-offset patch 流水化,chunking 7.6×、端到端 sync 3.7×
- SkySync — 复用 BTRFS/ZFS/dm-verity/Ceph BlueStore 等已有 CRC32C 元数据当 weak checksum,相比 rsync/dsync 计算降 89.3%
- MlsDisk — TEE 安全块存储:四层抽象 log-structured 替代 SGX-PFS in-place Merkle,FIO 7.3-21.1×
研究趋势
LLM 存储栈分化为「serving 时延敏感」与「training/checkpoint 吞吐敏感」两支。 Serving 一支由 Bidaw / CacheSlide / SolidAttention / MAIO 组成,关注点是 KV-Cache 在 host memory + SSD 上的 layout、复用与 prefetch;Training 一支由 AdaCheck / GCR / AITurbo / Seneca 组成,目标是 checkpoint/restore 吞吐与频率。两支共同推动「LLM 存储」从 OSDI/SOSP 的 GPU 内部优化扩散到 FAST 的存储栈视角,但都未触及 NVMe-CS / CXL.cache / GPU-Direct-Storage 等更激进的硬件路径,这是下届可能的突破口。
Production paper 的密度与「自我披露」程度都达到新高。 McQueen、RISTRETTO、PolarStore、TapeOBS、FailureMiner、DisCoGC 都给出了部署规模、长期 telemetry、TCO 数字与失败案例。FAST 历来产业向,但这一届云厂商不再只发「我们有个新算法 + benchmark」,而是「我们部署 10 年,这是踩过的坑、这是数字」。
CXL 论文从「证明可行」转向「写仿真器 + 写软件」。 Xerxes 与 Cylon 表明社区已经接受 CXL 是不可避的硬件方向,于是进入工具阶段;DMTree / CetoFS 则把 disaggregated memory/SSD 当 commodity 用,关注 compute-side coordination 与 host-target 协同。CXL 路径上的 OS 抽象(virtual memory 还是 device memory?是否需要新的文件接口?)仍然是开放问题。
AI 反哺存储研究在 FAST 形成多点开花。 SysSpec(LLM 写文件系统)、FailureMiner(SHAP 抽预测规则)、DOGI(MLP 数据放置)、ThinkAhead(embedding 预 preload)、Seneca(DSI MDP)。AI4Sys 在 FAST 26 已经从「demo 论文」演变为多个独立方向。
Data integrity / zoned 思想下沉到栈底。 FS-PI 把 E2EDP 推到 Linux 全栈、SkySync 复用 BTRFS/ZFS 现有 checksum 元数据、ZUFS 把 ZNS 思想搬到手机 UFS。FAST 26 的隐性共识是「checksum 与 zone 不应作为局部优化,而是应跨层共享与复用的基础设施」。
值得关注的方向
KV cache 存储层的边角问题。 Bidaw / CacheSlide / SolidAttention 都在 host memory + SSD 上做 KV cache 管理,但 NUMA 多卡场景的 KV 局部性、跨节点 KV migration 与重加载、batch-aware prefetch policy 都还没人系统做。小团队只需一台 8x A100/H100 + 几块 NVMe 就能起步;现有论文已开放出 vLLM/SGLang 的 plug-in 实现路径。
- 哪些论文指向:Bidaw、CacheSlide、SolidAttention、MAIO
- Open problems:跨节点 KV migration 时 PagedAttention 块如何对齐?SSD prefetch policy 怎么从单 query 扩到 batch?
Spec→Code 的生成式系统。 SysSpec 用 Hoare 逻辑 + rely-guarantee 让 LLM 生成 FUSE 文件系统,思路完全可以推广到 KV store / scheduler / replication policy。小团队优势在于:spec 工程量小、benchmark 可重用、不需要 GPU 集群。
- 哪些论文指向:SysSpec
- Open problems:哪些子系统是 spec→code 的「sweet spot」(需求清晰但实现繁琐)?怎么把生成代码的正确性做到生产级(Hoare 逻辑覆盖率 + 模糊测试)?
复用现有 checksum/metadata 做新功能。 SkySync 用 BTRFS/ZFS 已有的块级 checksum 替代 rsync 的 weak checksum;同样思路可推广到备份去重、版本控制、迁移、跨云同步。FAST 投稿易接受、工程量适中。
- 哪些论文指向:SkySync、FS-PI
- Open problems:除 CRC32C 外的现有 hash 是否能像 SkySync 一样代数组合?哪些应用最迫切需要 storage-level 已有 checksum 的重用?
Mobile / edge 存储的 zoned/log-structured 移植。 ZUFS 是首篇手机 zoned 落地,IoT 设备、车载存储、嵌入式 F2FS 改造空间还大,且公开 telemetry 比云端易获取。
- 哪些论文指向:ZUFS、RubikFS、CoFS
- Open problems:低端 IoT 设备能否用 zoned 而不付 GC 成本?车载/无人机场景的 read-only 镜像如何做 region-locality 压缩?
CXL 多租户的软件抽象。 Xerxes 与 Cylon 仿真器就位后,CXL.mem 多租户的 fairness、CXL.cache 一致性引发的 OS 抽象选择、CXL-SSD 上的 fs/db 全栈协议都开放。小团队可以基于这些仿真器先做 micro-benchmark,再设计软件层。
- 哪些论文指向:Xerxes、Cylon、DMTree、CetoFS
- Open problems:CXL.mem 上的 swap/page cache 是否需要新的 OS 抽象?disaggregated FS 与 disaggregated memory 的 cache 一致性怎么共享?