SOSP 2025
66 篇论文把 LLM 系统(推理/训练/编译)、形式化验证、eBPF 可靠性、CXL/SmartNIC 硬件抽象、GPU OS、分布式事务、存储/文件系统并列推向前沿;LLM 相关占约 1/3,形式方法与 eBPF 各出 7 篇形成新主线,硬件异构(CXL/FPGA/SmartNIC/移动 SoC/CHERI)首次在 OS 抽象层集中重写。
概览
LLM 系统研究的重心从 OSDI 的「单点推理加速」扩散到 SOSP 的「全栈生产化」。推理侧仍有 Aegaeon(阿里多模型 GPU 池化省 82% 卡)、KTransformers(单 A100 跑 DeepSeek-V3 671B)、Jenga(异构 attention 的 KV 管理跑通 Llama 4 10M context)、HeteroInfer(手机 GPU+NPU 并行),但应用层系统涌现成独立主题:Pie 把 serving 拆成 42 个 WebAssembly handler 支持 agent workflow,HedraRAG/METIS 给 RAG 做 workflow 图级协同优化,PrefillOnly/IC-Cache 瞄准推荐和 P/D 分离等新负载。训练侧 ByteRobust(字节 9600 GPU 三月 97% ETTR)、Sailor(异构/跨 zone 自动规划)、Mycroft(NCCL 依赖追踪)、TrainVerify(Llama3 405B 并行计划等价性验证)共同构成「LLM 训练可靠性」栈。
形式化验证走出「专家玩具」成为 OS 研究通用工具。Atmosphere 用 Rust + Verus 在 1.5 人年内验证完整 mixed-criticality 微内核、验证 <20 秒,TickTock 用 refinement-type verifier Flux 给生产嵌入式 OS Tock 验证进程隔离(30 秒验证),AutoMan 用 Dafny refinement-based 工作流把 Multi-Paxos/PBFT 手写工作量降 70-97%,KNighter 反而让 LLM 去合成 Clang 静态分析器从 Linux 挖 92 个 4.3 年潜伏漏洞,Miralis 用 Kani 符号执行验证 RISC-V 虚拟固件监控器。趋势是「verifier 成熟到能写产品代码」,与 OSDI-2025 的 Basilisk/PoWER 路线并行。
eBPF 扩展从「加速打补丁」变成「可靠性一等公民」。BCF 用 proof-guided abstraction refinement 让 verifier 接受 78.7% 过去被误拒的真实程序,Veritas 用 specification-based oracle 做差分 fuzzing 挖 verifier 15 个 bug(含提权),cache_ext 让 eBPF 改写 Linux page cache 淘汰策略,FlexGuard 用 sched_switch hook 做精确 lock preemption 检测,Loom/NEX-DSim 用 eBPF 做高频遥测和加速器模拟时钟同步。共出 6-7 篇直接使用或针对 eBPF 的论文,和 OSDI 2024 的 bpftime 一起,标志 eBPF 成为继 KVM 之后最密集的内核扩展研究阵地。
硬件异构性首次在 OS 抽象层集中重写。CXL 侧有 Oasis(CXL 内存池做 PCIe 设备池化)、Demeter(CXL tiered memory guest 代理);SmartNIC 有 TaiChi(阿里 DP/CP 资源融合、生产 3 年);RDMA 有 RDMA-LiveMigration(NVIDIA CX-7 首个亚秒级 live migration)、Mage(解决 far memory 多核扩展性崩塌)、Spirit(拍卖机制做 remote memory 公平分配);FPGA 有 Coyote-v2(三层 shell、10 行 Python 部署 NN);移动 SoC 有 HeteroInfer;CHERI/capability 硬件有 CHERIoT-RTOS/μFork。硬件多样性倒逼「一级 OS 服务」重构——而不是在老 OS 上加补丁。
与往届对比:SOSP 2025 LLM 篇数显著超 OSDI-2025(~25 vs ~15),且向「生产可靠性(ByteRobust、Mycroft、TrainVerify)+ 应用层抽象(Pie、HedraRAG、METIS)」倾斜;形式化论文体量相当,但「研究型 verifier」转向「工程化 verifier」;eBPF 密度继续上升;不再有专门的 serverless 大类(仅 Dandelion/Quilt 两篇),取而代之的是 edge(Radical)、恢复(PHOENIX)、overload control(Atropos)等「弹性系统」细分方向。这届 SOSP 的气质:LLM 支撑骨架、形式方法当钢筋、eBPF 做内饰、异构硬件拉起新楼。
论文分类
LLM 推理与服务(10 篇)
- Aegaeon — 阿里 token 级 auto-scaling,单 GPU 同时服 7 模型,生产省 82% GPU
- KTransformers — AMX kernel + Expert Deferral,DeepSeek-V3 671B 单 A100 可用,prefill 4.62-19.74×
- Jenga — 异构 attention(full/sliding/Mamba/VLM)KV 管理,LCM 两层 slab + 属性感知 cache,单节点跑 Llama 4 10M
- DiffKV — 键/值/token/head 四维差异化 KV 压缩 + GPU 并行 compaction,2.7-5.7× 压缩
- HeteroInfer — 手机 GPU+NPU 真正并行推理,Snapdragon 8 Gen 3 prefill 1000+ tok/s
- IC-Cache — 历史 request-response 当 in-context example,bandit router 路由到小模型,吞吐 1.4-5.9×
- Pie — LLM 服务拆成 42 个 handler + WebAssembly inferlet 编排,agentic workflow 吞吐 1.3-3.4×
- PrefillOnly — prefill-only 负载(推荐 / P/D 分离)只保留一层 KV + shortest-prefill-first,QPS 4×
- HedraRAG — RAGraph 图抽象 + node splitting/reordering/speculative,吞吐 >1.5×、最高 5×
- METIS — 按 query 自适应 RAG 配置(chunks/summary)联合调度,延迟降 1.64-2.54×
LLM 训练与多 GPU 系统(7 篇)
- ByteRobust — 字节 LLM 训练容错,9600 GPU 三月任务 97% ETTR,failover 快 10.87-11.04×
- Sailor — 异构 / 跨 zone 自动规划,128 GPU 规划 <1s,跨 zone 场景省 9.8× 成本
- DCP — 长上下文 context parallelism,hypergraph partitioning 动态分配 QKV block,稀疏 mask attention 2.15-3.77×
- TrainVerify — 分布式训练计划 vs 逻辑 DFG 等价性验证,Llama3 405B / DeepSeek-V3 671B 几分钟-半天完成
- Mycroft — NCCL flow-level+chunk-level 追踪,字节生产 6 月,90% 15s 检测异常、60% 20s 定位 root GPU
- Mercury — 多 GPU 算子编译器,CommIR 把远程 HBM 做一等调度层,手工 USP/Ulysses 之上 1.56×
- Tempo — recurrent tensor + 符号依赖图 + polyhedral,Llama-3.2-3B 解码快 JAX 7×,RL 算法 54×
GPU OS 与加速器抽象(4 篇)
- LithOS — “GPU OS”,TPC 粒度调度 + kernel atomizer + right-sizing,inference stacking 尾延迟降 13×
- GoFS — 整套 FS offload 到 GPU,POSIX API + inode/NVMe queue 全在 GPU mem,平均 1.61× 优于 SOTA
- PhoenixOS — 首个 GPU 并发 C/R OS 服务,validated speculation 追踪 GPU 读写集,Llama2-13B 迁移停机 9.8s→2.3s
- NEX-DSim — 加速器 di-simulation,软件原生 + eBPF 时钟同步,比 gem5 类工具快 6-879× 误差 7%
SmartNIC / RDMA / CXL / FPGA(4 篇)
- TaiChi — 阿里 SmartNIC 调度,hybrid 虚拟化让 CP 蹭 DP CPU,VM 启动降到 1/3×,生产 3 年
- RDMA-LiveMigration — NVIDIA ConnectX-7 首个亚秒级 RDMA passthrough live migration,已 GA
- Oasis — 首次用 CXL 内存池跨主机池化 PCIe 设备(NIC/SSD),利用率 2×、38ms 故障切换
- Coyote-v2 — 开源 FPGA 三层 shell,service/app 独立动态重配,10 行 Python 部署 NN 推理
存储与文件系统(7 篇)
- Aeolia — Sapphire Rapids user interrupt 替代 polling,AeoFS 比 ext4 快 19.1×
- Mantle — 百度 COSS 分层元数据,per-namespace IndexNode + 共享 TafDB,100 亿对象 180 万 lookups/s,生产 2 年
- Loom — 高频遥测 log-based + 稀疏索引,9M records/s 无丢数,查询快 InfluxDB 7-160×
- Sandman — SPDK 上浅睡眠 + cache-coherence 唤醒,能耗降 33.36%,性能差距 ≤5%
- SAND — 视频 DL 的 view 抽象(POSIX 文件),预物化 + 跨 epoch 复用,preprocess 2200→8 行,GPU 利用率 12.3×
- Fawkes — DBMS 持久化 bug 测试,context-aware fault injection + data graph verify,8 个 DBMS 48 新 bug / 8 CVE
- ArckFS — KAIST 复核 SOSP’23 ArckFS,发现 6 bug + 规则歧义,合作修出 ArckFS+
分布式系统 / 事务 / 规划(6 篇)
- Pesto — 首个完整 SQL 的 BFT 数据库,放弃 SMR + predicate-level 同步,TPC-C 比 SMR+DB 快 2.3×
- Tiga — consensus + CC 单层 + 同步时钟 future timestamp,多数事务 1 WRTT 达成严格可串行化,比 Tapir/Janus 1.3-7.2×
- Radical — LVI 协议 + 静态分析 + Wasm 决定性重放,强一致应用跑 edge 仍 Linearizable,获 84-89% 理论延迟收益
- Moirai — Uber 4 月 6670 万 query 13.3EB trace 上,MIP 做混合云数据+计算联合摆放,比 Yugong 再省 97%
- COpter — 资源分配建模为慢演化 LP 序列,增量 + proximal-point + 整数启发式,比商业 solver 快 57-83×
- Orq — outsourced MPC 关系引擎,join-aggregation 融合把 k-way join 从 O(n^{k+1}) 降到 O(n log n),首次跑完整 TPC-H SF=10
内存管理 & 远程内存(6 篇)
- Demeter — 虚拟化分层内存 guest 代理,EPT-friendly PEBS + gVA range,次优 guest 方案之上再提 28%
- CortenMM — Asterinas OS clean-slate MM,去掉 VMA + 事务接口 + 两种锁 + 形式化验证,384 核比 Linux 快 1.2-26×
- IntervalSkiplist — 并发 interval skiplist 替换 mmap_lock+maple tree,真并行 mmap/munmap,48 核 13.1×
- Mage — far memory always-async decoupling + cross-batch pipelining,batch 应用 1.2-4.2×,memcached P99 降 94.5%
- Spirit — 微观经济学拍卖做 remote memory cache+带宽 interdependent 公平分配,收敛 140ms,性能 +21.6%
- Copier — memcpy 做一级 OS 服务,queue-async + AVX/DMA piggyback,Redis 1.8×,跨特权级 copy absorption
OS 基础 & 嵌入式 & 教学(5 篇)
- μTPS — 非抢占线程架构下按 cache residency 两层线程池 + auto-tuner,YCSB 1.03-5.46×
- μFork — CHERI capability 在单地址空间 OS 实现 POSIX fork,54 μs 比 FreeBSD 快 3.7×、比 Nephele VM 快 198×
- CHERIoT-RTOS — CHERI capability 嵌入式 RTOS,低成本 MCU 上跑 JS 引擎 + BearSSL,细粒度 compartment
- Proto — <10K SLoC 教学 OS,Pi 3B 跑 DOOM 60FPS,5 个增量原型,重振 OS 课程
- Tock — Rust 嵌入式 OS 10 年回顾,从 64KB 研究原型到千万级 root-of-trust/FIDO 密钥生产部署
形式化验证 & 应用安全(7 篇)
- Atmosphere — Rust+Verus 验证完整微内核,1.5 人年、6K 代码/20.1K 证明,<20s 验证
- TickTock — Flux refinement-type 验证生产嵌入式 OS Tock 进程隔离,重构 MPU,7 个隔离 bug
- AutoMan — Dafny refinement-based 工作流,Multi-Paxos/PBFT 手写降 70-97%,性能达 IronFleet 90%+
- KNighter — LLM 从 patch 合成 Clang 静态分析器,Linux 挖 92 个平均 4.3 年潜伏漏洞,30 CVE
- pKVM-GhostShell — C 写可执行 test-oracle spec + ghost state,runtime 对比 Google pKVM 发现 critical bug
- Miralis — RISC-V 虚拟固件监控器,trap-and-emulate 把厂商固件降到 user-space,Kani 验证挖 21 bug,零性能退化
- TRIP — Votegral 投票注册 kiosk,纸质真假凭证 + IZKP,延迟 19.7s,用户研究 83% 成功
eBPF & 可靠性 & Fuzzing(7 篇)
- BCF — eBPF verifier proof-guided abstraction refinement,用户态 SMT + 内核线性 proof check,接受 78.7% 原被误拒程序
- Veritas — specification-based oracle 做 verifier 差分 fuzzing,发现 15 新 bug(含提权/KASLR 泄漏)
- cache_ext — eBPF 让应用定义 Linux page cache 淘汰策略,8 种策略实现,吞吐 1.70×、P99 降 58%
- FlexGuard — eBPF sched_switch 精确检测 lock 持有者被抢占,非 oversub 1-6×、oversub 最多 5×
- WASIT — WASI specification-driven 差分测试,6 个 Wasm runtime 48 新 bug、3 CVE
- Orthrus — data path 异步跨核重执行 + versioned memory,仅 2-6% 开销检测 87-96% silent data corruption
- Atropos — overload 时选择性 cancel 元凶请求(而非受害者),复用 76% 应用已有 cancel,96% 吞吐、P99 1.16×
Serverless & 恢复 & 弹性(3 篇)
- Dandelion — 放弃 POSIX sandbox,纯计算+通信函数 DAG,100μs 冷启动,承诺内存降 96%
- Quilt — LLVM IR 层跨语言 serverless workflow 函数合并 + 资源约束感知图聚类,中位完成时间降 46-71%
- PHOENIX — 选择性保留长期状态 + 重置执行,Redis 等服务恢复+warmup 半小时→亚秒,85.6% 故障走 fast path
研究趋势
1. LLM 系统的「应用层抽象」开始浮出水面。SOSP 2025 LLM 论文不再只盯着 serving 吞吐,而是针对新 workload 重新定义接口和抽象层:Pie 用 WebAssembly inferlet 让用户程序编排 42 个 handler,天然支持 agentic workflow 吞吐 1.3-3.4×;HedraRAG 用 RAGraph 统一刻画多样 RAG 流程并做子图级调度;METIS 按 query 自适应调 RAG 配置;PrefillOnly 针对推荐/P-D 分离 prefill 节点这一新负载设计专门引擎。和 OSDI 2025 NanoFlow/BlitzScale 那种「把 vLLM 再压一截」的路数对照——SOSP 这届的气味更像「LLM 开始长出生态」,推理 runtime 的上一层(编排、RAG、agent)成为研究对象。
2. 生产化 LLM 训练可靠性形成完整栈。ByteRobust 在字节 9600 GPU 三月训练上把 ETTR 做到 97%;Mycroft 用 NCCL 侧追踪在 20 秒内定位 root cause GPU;TrainVerify 把 Llama3 405B、DeepSeek-V3 671B 的并行化计划在训练前形式化验证,消灭「跑几周才发现 loss scale 错」这类 silent bug;Sailor 把异构+跨 zone 自动规划做到 <1 秒;DCP 在长上下文训练里按 hypergraph partitioning 动态分配 attention block。四篇合起来正好组成「规划 → 运行 → 故障定位 → 等价验证」的训练可靠性闭环——这是上届 OSDI 只零散出现(SMon 等)、此届 SOSP 第一次集中成型的工作流。
3. 形式化验证从「研究项目」变成「工程交付」。三年前 IronFleet 需要数人年才能验证 Multi-Paxos;今年 Atmosphere 1.5 人年验证完整微内核、证明 <20 秒,TickTock 30 秒内验证生产嵌入式 OS Tock 的进程隔离,AutoMan 让 Multi-Paxos/PBFT 手写量降 70-97%,TrainVerify 把分布式训练的并行等价性验证做成「训练前跑一下」的 CI 步骤。关键变化是 SMT-based verifier(Verus/Kani/Flux/Dafny)对「真实低层代码 + 并发」具备实用性,配合 LLM 合成(如 KNighter 让 LLM 写 Clang Checker、从 Linux 挖 92 个漏洞),形式方法开始进入工程团队的工具箱,而不只是定理证明实验室。
4. eBPF 成为「最密集的内核扩展研究阵地」。一届 SOSP 里 7 篇直接用或针对 eBPF 的论文:BCF 把 verifier 证明 offload 到用户态 SMT,Veritas 用 specification-based oracle fuzzing 挖 verifier 漏洞,cache_ext 让应用用 eBPF 定义 page cache 淘汰策略(类 sched_ext),FlexGuard 用 sched_switch hook 做 lock preemption 检测,Loom/NEX-DSim 分别在遥测和加速器模拟时钟同步里用到 eBPF。和 OSDI-2025 的 bpftime 一起,eBPF 研究已经从「加速路径」扩展到「Verifier 理论→安全 fuzzing→资源策略→调度→遥测」的多条主线——接过了十年前 KVM 在 OS 社区的位置。
5. 硬件异构性正在「OS 抽象层」集中重写。CXL 侧 Oasis 用内存池做跨主机 PCIe 设备共享、Demeter 做 guest-delegated tiered memory;RDMA 侧 RDMA-LiveMigration 首个亚秒级 device live migration、Mage 解决多核下 far memory 扩展性崩塌、Spirit 用拍卖做公平分配;SmartNIC 侧 TaiChi 让 CP/DP 共享 CPU 且生产 3 年;FPGA 侧 Coyote-v2 三层 shell 做到 10 行 Python 部署 NN;CHERI 侧 CHERIoT-RTOS 和 μFork 开始在低端 MCU 和单地址空间 OS 上落地硬件能力。和 OSDI 2025 的 Tigon、SoarAlto、EMT 平行——两届共同信号:数据中心硬件范式已经从「CPU+DRAM+TCP」20 年惯性迁到「池化内存 + SmartNIC + capability 硬件 + CXL switch」,OS 首次大范围重写抽象层。
6. 「弹性 / 恢复 / overload」取代「serverless」成为新显学。过去几届 SOSP 都有 5-8 篇 serverless,这届仅 Dandelion/Quilt 两篇,但出现了 PHOENIX(optimistic recovery,85.6% 故障走亚秒 fast path)、Atropos(选择性 cancel 元凶请求而非受害者)、Orthrus(data path 异步跨核重执行检测 silent data corruption 2-6% 开销)、Radical(强一致应用跑 edge 仍 Linearizable)、Sandman(SPDK 能耗降 33% 性能差 ≤5%)这批「运行时弹性」工作。共同信号是:研究重心从「冷启动快」迁到「生产级 SLO + 故障时的优雅降级」,和前面讲的「LLM 训练可靠性栈」一起,都在说 silent failure 和部分故障已经是系统研究的一等问题。
值得关注的方向
1. LLM 应用层抽象的标准化
为什么小团队能做:Pie 的 inferlet(WebAssembly)、HedraRAG 的 RAGraph、METIS 的 config adaptation 都是软件层工作,单机或小规模集群即可跑通;开源 vLLM/SGLang 够做 baseline。
指向空白的论文:Pie 只支持单主机 handler 编排未做跨主机;HedraRAG 专注 RAG 未覆盖 agent workflow;METIS 只做 RAG 配置未扩展到 agent/prompt chaining;agentic workflow 仍缺统一 IR。
Open problems:能否把 Pie 的 inferlet 模型与 HedraRAG 的 RAGraph 统一为跨主机 LLM workflow IR?能否给 agent 的 tool-call/planning/memory 三段式流水建立类似 Mercury 那样的「通信 first-class」IR?如果 LLM 服务逻辑可编程,能否给这些 user handler 做形式化验证(类 TrainVerify)?
2. 生产级 LLM 训练故障诊断扩展到新硬件
为什么小团队能做:Mycroft 只用 NCCL 侧的轻量 instrumentation,核心工作是 trace 分析与 heuristic 设计;TrainVerify 只需训练计划 DFG 的 symbolic 版本;二者都不需要真开大规模训练。
指向空白的论文:Mycroft 专注 NCCL 未覆盖 RCCL/HCCL/oneCCL;TrainVerify 只做 dense transformer 未覆盖 MoE 路由正确性;ByteRobust 的 ETTR 指标未区分不同硬件故障模式。
Open problems:能否把 Mycroft 的 CCL 追踪移植到 AMD MI300/Huawei Ascend 集群?MoE 模型的 expert routing 正确性能否用 TrainVerify 风格等价性验证?能否把 SMon 的 what-if straggler 分析与 Mycroft 的 chunk-level 依赖结合做端到端根因定位?
3. eBPF-style「可编程策略」扩展到 OS 其它子系统
为什么小团队能做:cache_ext 和 FlexGuard 都是单机 Linux 内核工作,参考 sched_ext 模板;不需要新硬件;用户态 SMT/fuzzer 开源(Z3、libfuzzer)。
指向空白的论文:cache_ext 只覆盖 page cache;FlexGuard 只用 sched_switch 未扩展到其它 hook;BCF/Veritas 都只针对 verifier 自身。
Open problems:能否把「ext」模式做到 block layer IO scheduler、TCP congestion control、swap policy?能否给 CXL tiered memory(结合 Demeter)做 mem_ext——让 guest VM 用 eBPF 定义 promotion 策略?能否用 Veritas 的 spec-based oracle 给应用自定义 eBPF 程序做差分验证?
4. 形式化验证的「CI 化」路径
为什么小团队能做:Atmosphere/TickTock 开源,Verus/Flux/Kani 工具链可用;KNighter 用 GPT-4 + 历史 patch 合成 checker,无需自建模型;单个研究者 1-2 月能复现小规模案例。
指向空白的论文:Atmosphere 只验证微内核 core 未做驱动;TickTock 仅针对 MPU 隔离;KNighter 从 patch 学习但未做增量(每次新 patch 就重训);形式化工具之间缺少统一 CI 接口。
Open problems:能否把 Atmosphere 的验证模式扩到 Rust-for-Linux(Android Binder?);能否把 KNighter 的 patch→checker 合成工具化成 GitHub Action,每次 merge 就自动生成新规则?能否用 pKVM-GhostShell 的可执行 spec 模式写「runtime check」替代部分 unit test,在生产长期对照?
5. CXL / 远程内存「工作负载特定的公平与调度」
为什么小团队能做:Spirit 的拍卖算法只需 perf 和 swap trace,AMD EPYC + 商用 CXL 卡云上可租;Demeter 的 guest 代理完全软件;Mage/Oasis 开源工具基础上扩新 workload 即可。
指向空白的论文:Spirit 只做 cache+bandwidth,未纳入 TLB shootdown;Demeter 只解决 guest 代理未做跨租户 QoS;Mage 的三原则未形式化、扩到其它 LibOS 未验证。
Open problems:能否给 LLM serving 专门做 CXL tiering——按 KV-Cache attention head 的 reuse 频率分配到 HBM/CXL/DRAM?能否把 Spirit 拍卖扩展到多 tenant KV cache 分配(如 Aegaeon 的多模型)?CXL pod 内 fault domain 能否用 AutoMan/Basilisk 风格自动验证?
6. SmartNIC / FPGA / RDMA「服务抽象」的开源普及
为什么小团队能做:Coyote-v2 是开源 shell,10 行 Python 即能跑 NN 推理;RDMA-LiveMigration 虽是 NVIDIA 硬件但基础模式(device-assisted + guest-transparent)可软件模拟;TaiChi 的 hybrid 虚拟化可在 DPU 模拟器上复现。
指向空白的论文:Coyote-v2 只覆盖 FPGA + AFU 模式未做 ASIC/ACAP;RDMA-LiveMigration 只针对 ConnectX-7 未跨厂商;TaiChi 只做调度未做安全隔离。
Open problems:能否把 Coyote 三层 shell 思路搬到 DPU(BlueField/Pensando)做统一 service 抽象?能否让 FPGA / SmartNIC 的动态 service 加载过程做 [[PhoenixOS-SOSP25|PhoenixOS]] 风格 C/R?SmartNIC 上的 hybrid virtualization 能否用 Miralis 式 VFM 做形式化 firmware 管理?
7. Silent failure 与运行时正确性检测跨场景复用
为什么小团队能做:Orthrus 只需 LLVM pass + 多核重执行;PHOENIX 只改运行时 state 划分;Atropos 只需改 76% 应用已有的 cancel 路径——三者单机即可实验。
指向空白的论文:Orthrus 只覆盖 data path(未覆盖 control path);PHOENIX 针对 crash 恢复未做 silent 故障;Atropos 需手动识别 cancel initiator,尚无自动化工具;Fawkes 只针对 DBMS 持久化未扩展到 KV。
Open problems:能否把 Orthrus 的 versioned-memory 思路用到 LLM 推理的 KV cache 上做 per-token silent corruption 检测(连接 TrainCheck 训练端与 Orthrus 推理端)?能否把 PHOENIX 的「state 可恢复分类」自动化——用 LLM 或静态分析区分 long-lived vs transient?能否把 Atropos 的 cancel initiator 自动发现器做成通用工具应用到数据库/分布式 KV?