ATC 2025

100 篇论文横跨 LLM 推理/训练、GPU 调度与 Kernel、网络（数据中心 + 流媒体 + 卫星）、OS 虚拟化、存储、安全可靠性、编译器与工具八条主线；网络相关共 21 篇占比最高，LLM 系统紧随其后 22 篇，国内云厂商生产系统论文密度爆发（阿里 / 腾讯 / 字节 / 华为云 / TikTok / 淘宝多家），异构硬件（CXL / SmartNIC-DPU / 可编程交换机 / PIM / NPU / Intel DSA）横贯各条主线。

概览

LLM 系统占 22 篇，「从单 GPU benchmark 转向多租户生产托管」是本届最强信号。推理侧 KVCacheInTheWild（阿里首份 to-C/to-B 生产 KVCache trace 刻画，QTTFT 降 28-41%）、DeepServe（华为 Ascend NPU serverless 平台，秒级扩 64 实例）、Torpor（阿里 GPU pool late binding，4-GPU 节点服务 480 函数）、Toppings（CPU+LoRA prefill 掩盖 adapter 冷启动 1.7×）、Katz（T2I diffusion + ControlNet 服务 7.8×）共同显示业内一线已经把推理框架从「vLLM/SGLang 单 GPU 调优」推向「多模型多租户多硬件托管」。训练侧 Optimus（3072 GPU MLLM bubble exploitation）、Greyhound（10K GPU fail-slow 检测）、CrossPipe（跨 DC PP+DP overlap）、UCP（Universal Checkpointing 让 1T 模型重配 < 3min）、Hermes（Ascend 训练 profiling 落地）、Primus（字节跳动 DLRM 三层统一训练系统）一齐把「大集群 + 大模型 + 工业落地」做到了主轴位置。

国内 hyperscaler production paper 密度爆发。除前述外，TGW（腾讯云软件网关，单节点 2.9× 吞吐 + 多 Tbps 流量）、AnchorNet（TikTok 直播架构，rebuffer -60%、参与度 +3.83%）、SolFS（移动云备份 sync 时间 -88.8%）、MARC（淘宝云渲染 freeze rate -71%）、FastACS（消息分发 1.8 Tbps p99 亚秒）、FlexPipe（变长 PP 训练）等多个论文都是带真实 A/B 测和大规模生产部署数字的工作。这种密度在前几届 ATC 罕见，反映出国内 hyperscaler 工程经验首次大规模进入顶会主流叙事。

异构硬件横贯多条主线，「软件可编程硬件」从 GPU 扩散到 SmartNIC/DPU/PIM/DSA/可编程交换机。CXL：DRack 用 CXL 3.0 把 NIC 与内存做 rack-level 解聚共享、DSA-2LM 用 Intel DSA bypass DMA 做 tiered memory；SmartNIC/DPU：Snary（FPGA 检索）、Poby（BlueField-2 镜像 provisioning）、DShuffle（DPU Spark Shuffle）、SwCC（BlueField + RISC-V 软件 CC，3.1µs RTT）、Barre（BlueField-3 PCC 上 AI 集群 CC，10K GPU 训练吞吐 +9.6%）；可编程交换机：Trochilus（Tofino BRNN 蒸馏部署）、Minos（流量分析防御）、SwitchGNN（P4 在网 GNN 聚合，Reddit epoch -74%）、Pallas（ToR µs 调度）；PIM：PIMANN 在 UPMEM 上做 ANNS；NPU：DeepServe、Hermes、CLONE（28nm 边缘 LLM 加速器）；Intel DSA：Para-ksm（DSA 加速 ksm 内存去重）、DSA-2LM。

Rust 在 OS 与 kernel-extension 阵营继续工程化。Asterinas 推出 Rust framekernel OS（driver 全 safe Rust，TCB 仅 14% 代码、性能与 Linux 持平）、Rex 用 safe Rust 替代 eBPF verifier、Converos 用 PlusCal 多层规约对 Asterinas 做 model checking 找出 20 个真实 bug（4 人月）。这条线延续了 OSDI-2025 的「verification 工具化」与 SOSP 2025 的 Rust + 形式方法基调，且 Asterinas/Converos 是同一作者群体的配套交付。

网络工作显著倒向 AI workload，传统 CC/LB 大幅 AI 化。Barre（AI 集群 RoCEv2 PCC）、SwCC（软件可编程 RDMA CC）、FLB（无损 DC LB，PFC PAUSE -96%）、Pallas（µs rack 调度）、SwitchGNN（在网 GNN）、Snary（SmartNIC ANN）几乎都打着 AI 标签；与此同时 KernelBypassTCP（6-stack 横评，Linux 在 bulk 上 1.7× IX，IX 在 small msg 上 5.2× Linux）和 SplitConn（重审 PEP 与 BBR 相关性）给社区拉了一次基础认知 reset。

与 ATC 2024 对比：LLM 论文占比从 ~10% 升到 ~22%；网络从纯 RDMA 优化扩展到「AI 集群 CC + DPU CC offload」；OS/虚拟化议题增多（13 篇，含 Rust framekernel、microkernel UEFI、eBPF 用户态 paging、嵌套虚拟化 hyperupcall）；卫星网络与空间计算自成一支（3 篇：LEOCraft、Rhone、SpaceExit）；可编程交换机从「玩具 demo」变成产线工具（多个 Tofino Tbps line-rate 论文）。整体气质：工业落地浓度 + LLM 渗透深度是 ATC 2025 的两条明线。

论文分类

LLM 推理与服务（10 篇）

Weaver — 多 LLM 服务把热模型 attention 算子卸载到运行冷模型的 GPU，热模型吞吐 +77%
LLMStation — LLM 微调与推理资源复用，迭代级调度 + suspendable Autograd + fusion engine，PEFT 吞吐 1.38-14.77×
DeepServe — 华为云 Ascend NPU serverless LLM 平台，request-job-task 抽象 + FlowServe + NPU-fork，秒级扩 64 实例
KVCacheInTheWild — 阿里 to-C/to-B 生产 KVCache trace 首次系统刻画 + workload-aware 淘汰，QTTFT 降 28-41%
CLONE — 边缘 LLM 算法-硬件协同（generative pruning + LoRA-MoE + 28nm 加速器），加速 11.92×、能耗 -7.36×
Katz — T2I diffusion + ControlNet-as-a-Service + bounded async LoRA + CFG latent parallelism，SDXL 服务 7.8×
Toppings — CPU 同时跑 LoRA prefill 掩盖 adapter loading 冷启动，rank-aware 调度，Llama2 1.7×
Torpor — GPU 推理 serverless 的 late binding（host memory + 按需 swap），4-GPU 服务 480 函数省 GPU 70%
QFactory — Qtile-Graph 编译框架延迟 dequantization，单 kernel 比 BitBLAS 快 1.66×、vLLM 解码 1.23×
PPipe — 异构 GPU 视频分析 pool-based pipeline + MILP，吞吐 +32-75%、低端 GPU 利用率 +41-65%

LLM/MoE 训练与 Checkpoint（12 篇）

CrossPipe — 跨 DC 训练 PP+DP overlap 调度建成 CO 问题，相同显存下比 1F1B 减 33.6% 训练时间
Optimus — encoder/LLM 分离并行 + kernel 级填充 LLM bubble，3072 GPU ViT-22B+GPT-175B +20.5-21.3%
mTuner — elastic tensor 抽象动态调节存储比例，PEFT 平均 +28.3%/14.5%、最高 +51.2%
Obscura — pipeline 变换把 forward bubble 转成 backward bubble 掩盖 recomputation，13B-28B 提速 1.33×
UCP — Universal Checkpointing 解耦并行策略，1T 模型重配 < 3 min
AssyLLM — 联邦微调通过组装 pre-trained block + CKA/KL 兼容性挑选，端侧内存 -92%、加速 30×、准确率 +18.26%
Greyhound — 大规模训练 fail-slow 检测，LD_PRELOAD hook NCCL + BOCD + ski-rental 多级缓解，10K GPU 集群表征
PopFetcher — MoE 专家预取（相邻层选择相关性 + sliding window），训练时间 -15% 至 -94.5%
FlexPipe — 首个支持 PP 阶段数与 GPU 分组在迭代间无停顿动态调整，变长 transformer 训练吞吐 +25%
Jenga — Token 级 contextual sparsity 剔除冗余 token，长上下文 LLM 微调显存 -1.93×、加速 1.36×
Hermes — 华为 Ascend NPU 训练 profiling/analysis/optimization 工业系统，PanGu-α 3.05× / MoE 1.19×
Primus — 字节跳动 DLRM 三层统一（资源/数据/范式）+ 跨 YARN+K8s 弹性，DTGG 加速 23×、广告收入 +0.4-2.4%

GPU/加速器调度与 Kernel 优化（12 篇）

GraphPy — 揭示 20+ GNN 系统的 accuracy / framework overhead 陷阱，参考实现省显存 6.92×、加速 1.69×
Krypton — 内核空间拦截 GPU command buffer + MIG + 反馈 CPU token 调度，跨 CUDA/Vulkan，所需 GPU -32.1%
GMI-DRL — GMI 把 GPU 切成可调子 GPU 适配 DRL 异构 task，DGX-A100 训练吞吐 2.34×、利用率 +40.8%
WIC — UVM page-fault 触发 warp-level 中断替代 GPU 通信 polling，10 个跨设备应用平均加速 1.13×
GeneralSparse — memory access + reduction 两空间自动生成 SpMM kernel，比 cuSPARSE 快 20.82×、推理 2.33×
PluS — loop-centric +Graph 抽象 + 专家可维护 pattern warehouse，A100 上比 TorchInductor 快 4.04×
Voltrix — bit-wise BMat 压缩 + warp-specialized 多级流水 + I/O co-balanced 持久化 kernel，H100 比 TC-GNN 36.5×
PathWeaver — 多 GPU 图 ANNS 的流水线 path extension + ghost staging + direction-guided selection，95% recall 3.24×
GPreempt — 利用 GPU 驱动隐藏 timeslice + hint-based pre-preemption，<40 µs context-switch 兼容非幂等 kernel
Sirius — 推理-训练 GPU 显存 5ms 毫秒级交接（gradient compute/model update 两阶段），inference SLO +57%、训练吞吐 2.2×
XRT — 加速器感知 runtime（notification-aware scheduler + software fallback），XMP 上吞吐 3.2× unoptimized、最高 32× CPU
SAVE — vulnerable bit 计算放 reliable memory + CPU 异步验证，4K bit flip 精度不掉、<9% 开销

网络协议、CC 与在网计算（11 篇）

KernelBypassTCP — 6 个 TCP stack 横评：Linux 在 bulk 上 1.7× IX，IX 在 small msg 上 5.2× Linux
SwCC — NIC 引擎集成 RISC-V 核做 per-packet 软件 CC，3.1µs RTT 与 ASIC 持平，~150 行 C 实现 DCQCN/TIMELY/HPCC
Barre — BlueField-3 PCC 上 rate-based AIMD + Fast Increase/Dual-lock，10K GPU 训练吞吐 +9.6%
FLB — threshold-free reroute + 拥塞流隔离的无损 DC LB，PFC PAUSE -96%、AFCT -18-40%
Pallas — ToR 交换机做 workload shaping + cFCFS，尾延迟比 RackSched 降 8.5-100×
DRack — CXL 3.0 把 rack 内 NIC 与内存池化共享，跨 rack 通信 -37.3%、p99 -62.2%
SplitConn — 重审 PEP 与 BBR/QUIC：BBRv2/v3 比 v1 更受益于 split，PEP 远未过时
FastACS — RPC + RMA 多层 cache 跨集群推消息，单 leaf cluster 1.8 Tbps、p99 亚秒级
SwitchGNN — P4 交换机做 graph-aware multicast + aggregation，Reddit 128-worker epoch -74%
Snary — FPGA HBM data-parallel similarity + parallel-swap Top-K + LSH，Faiss 14-23× 吞吐
Trochilus — DFA→BRNN→SMF 蒸馏部署到 Tofino，多 Tbps 模式匹配 + 自动更新规则替代专家手写

流媒体、RTC、云网关（6 篇）

AnchorNet — TikTok 直播 RTC SFU 统一 CDN publisher + sample-level 音频拼接，rebuffer -60%、参与度 +3.83%
STORM — 信号水位 + 可靠性感知 MPQUIC 调度，移动网下尾包延迟 -98.2%、帧率 +1.95×
MP2 — 多用户 free-roaming VR 流媒体中心化多路径协调，tail latency -35×、QoE +1.86×
MARC — 淘宝移动云渲染帧级 motion-aware 码率控制，freeze rate -71%、interaction +20%
TGW — 腾讯云软件网关 DPDK + 双模型转发 + live state migration，单节点 2.9× 吞吐、多 Tbps 100% 可用
NetKeeper — 自治网络配置更新（NL+异常日志→DSL→API）+ 多智能体 RL，策略一致性 99.6%
Minos — Tofino1 上 line-rate PRINCE 加密 + 动态流交错抗指纹攻击，准确率压到 <20%

卫星与空间计算（3 篇）

LEOCraft — Starlink/Kuiper 类星座的 flow-level 设计框架，process 并行 + VNS 剪枝优化时间 -5×
Rhone — 太空计算网络 emulator（power/thermal/computation/orbit/network 模型），单节点 700 卫星，误差 <5%
SpaceExit — 卫星 multi-exit 检测器 + 复杂度调度 + DVFS，OEC 性能比 SOTA 升 24.3%

OS / 虚拟化 / Container / 内存（13 篇）

BurstComputing — FaaS 隔离从 function 抬到 job 级，group invocation flare + worker packing，PageRank 13×、TeraSort 2×
2DFS — OCI 加 2dfs.field 二维 allotment 矩阵支持模型 split 独立缓存与按需 partition，构建快 56×
Poby — 把容器 image provisioning 拆解 offload 到 BlueField-2 SmartNIC，比 containerd 快 13.2×
Para-ksm — Intel DSA 加速 ksm 内存去重（候选页 batch 提交），每 cycle 去重量 +31-50%
Rex — safe Rust + 轻量 runtime 提供 eBPF 同等安全性，闭合 language-verifier gap
ATLAS — 测试程序中插入 C/C++ attribute 触发 option 单独无法到达的编译路径，GCC/LLVM 报 73 个 unique bug
DSA-2LM — Intel DSA bypass DMA + 4K/2M 自适应批迁移，比 MEMTIS/TPP/NOMAD 快 20%/30%/16%
Asterinas — Rust framekernel OS，driver 全 safe Rust，TCB 仅 14% 代码、性能与 Linux 持平
PageFlex — eBPF 把 Linux paging 策略外置到用户态，17 行 Hyperbolic + Leap 比 Linux prefetch 快 75%
HyperTurtle — eBPF hyperupcall 把 L1 hypervisor 关键路径注入 L0，EPT fault 5.1×、Kata 启动 +27%
Converos — PlusCal 多层多粒度规约对 Rust OS 内核做 model checking，验证 Asterinas 12 模块发现 20 bug，4 人月
PMR — 解耦 page shrinking 与 writeback + 批量 unmap 的并行内存回收，Android 应用响应时间 -43.6%
RTSFaaS — affinity-aware lease + 单边 RDMA 动态租约转移的事务 serverless，吞吐 5×/20× Boki/Beldi

存储与文件系统（9 篇）

OpenCAS-Crash — Open CAS 块级缓存的 crash consistency 研究，发现 write hit/WA crash 返回坏数据
Z-LFS — append-only 元数据 + 推测式日志流 + 冲突感知分配，小 zone ZNS SSD 上 LFS 比 F2FS 快 33.4×
HyCache — ILP 决定缓存哪些预处理 step 到内存/SSD，DNN pipeline 提速 1.11-10.1×、端到端 1.67×
HotRAP — FD 上小型 LSM (RALT) 跟踪 record-level 热度 + 双通道 promotion，YCSB read-write 1.6× 次优
SolFS — 文件系统记录 (offset,length) 操作日志替代整文件 hash，移动云备份 sync 时间 -88.8%、CPU -90%
LogCrisp — Sketch+Spec 两阶段 pattern 抽取 + AVX SIMD 把前缀查询转 range，分析比 LogGrep 快 4.65×
ShieldReduce — bi-directional delta compression 维持物理局部性的 SGX 内细粒度数据精简，上传 +3.5×
DecouKV — 把 LSM-tree sorting 解耦为 CPU-bound IndexTable merge + I/O-bound AOF append，写吞吐 2.3-4.9× RocksDB
RCuckoo — 纯单向 RDMA + locality-enhanced cuckoo 哈希全分离 KV，YCSB-A 写密集 7.1×

数据库与大数据（5 篇）

Swift — BO 每轮用 GAN 生成 150 配置混入随机池，Spark/Flink 调参时间从 12.5h 降到 5.8h
HDTX — redo log + RDMA Wait/Enable 把解耦内存事务压成 2 RTT，TPC-C 延迟 -72.1%
DDLumos — Atomic DDL bug 207 个特征研究 + metadata-conflict-guided 合成 + 图一致性分析，6 DBMS 找 73 新 bug
PIMANN — UPMEM PIM 上 per-PU 总线仲裁 + persistent kernel + 动态副本调度，ANNS 吞吐 10.4× Faiss-CPU
DShuffle — DPA 256 线程并行 serialize + DPU 直写盘/RDMA，sort shuffle 时间 -62.7%、整体 -16%

安全、可靠性与故障（11 篇）

uEFI — UEFI 模块按微内核 deprivilege + 沙箱隔离，trampoline 注入做透明跨模块调用，开销 1.91%
CAFault — FDModel 学习 fault-config 隐式依赖 + fault-handling 引导 fuzzing，48h 找 16 未知 bug、覆盖率 +31-82%
Sieve — 静态识别 sync/timeout I/O 作为 fault point + context-sensitive delay 注入，ZK/Kafka/HDFS 找 6 未知 bug
SyzMini — 内核 fuzzing 输入最小化 influence-guided 删 call + type-informed 简化参数，最小化执行 -60.7%、bug 1.7-2×
BLECST — 用 Combinatorial Security Testing 替代概率 fuzzing，10 款 BLE 设备测出 19 独特漏洞
TLS-RA — TLS 1.3 extension + DHE shared secret 的 linking hash 双重独立绑定 RA，无额外 round trip
LiteShield — guest kernel 拆成 userspace µkernel 服务 + 共享内存 IPC，user-to-host 接口仅 22 syscalls
MemoryTrap — 编译期插不可读 NOP 陷阱 + Intel MPK 防 JIT-ROP，最多泄 657B 即触发，开销 0.74-1.85%
Bin2Wrong — source/compiler/opt/format 四维统一反编译器 fuzz，binary diversity 提升 10-17×、确认 30 个 bug
CountingAtomicity — symbolic range analysis + SMT 自动推断 PM 数组与 size 的 counting 原子性，4 系统找 14 bug
FiDe — OS 隔离 + XDP + SDN 双冗余 multicast tree，crash 检测 < 30µs（uKharon-FD 7.2×），Zookeeper 吞吐 2.23×

编译器、Shell、其他工具（8 篇）

IRHash — 在 LLVM IR 后做 hash 的编译缓存，比 Ccache/cHash 准 1-2 数量级，C 项目 build -19%
HEC — 静态 datapath + 动态 control-flow 重写规则混合的 e-graph MLIR 等价性验证，40 分钟跑 100k+ 行
Koala — 126 个真实 shell 程序 + 3 档输入（最大 146GB）+ 自动化基础设施，统一评估 PASH/Shark
FPRev — masked all-one array 黑盒重建 summation tree（O(n²) vs O(4ⁿ) brute），首支持 Tensor Core fused
HypeReca — 异构 embedding DB 去中心索引 pipeline + 2-fold parallel 复制，DLRM 32 GPU 上 2.16-16.8×
Cosmic — cell-grouping + speculation 让 SmartScan 在 Lambda 上满足 50ms 时序，3D 打印控制省 2.8-3.5×
Chitu — Fair-Fallback 框架的异步 DAG-BFT，最佳 4 message delays，相比 Tusk 端到端延迟 -82.5%

研究趋势

1. LLM 系统从「单 GPU benchmark」全面进入「多模型多租户多硬件托管」。同一时段 ATC 出现 Weaver（多 LLM 共 GPU attention 卸载）、LLMStation（fine-tuning + inference 共享）、Toppings（CPU/GPU 共担 LoRA）、Torpor（GPU pool late binding 服务 480 函数）、Katz（diffusion + multi-adapter）—共同信号是「serving 系统已经是异构资源 + 异构模型 + 异构 adapter 三重多路复用」，单 GPU 单模型论文几乎不再出现。这与 OSDI-2025 LLM 服务议题向「极值/生产」分化、MLSys 2026 仍有大量「单 GPU 单模型」工作形成清晰互补。

2. 国内云厂商生产系统首次集中进入主流叙事。阿里 KVCache trace、阿里 Torpor、字节 Primus、华为 DeepServe、华为 Hermes、腾讯 TGW、TikTok AnchorNet、移动云 SolFS、淘宝 MARC 几乎覆盖国内 hyperscaler 主流玩家。这些工作普遍带 A/B 测和大规模生产数字（10K-1M+ 用户级），而不是 lab 级 benchmark。这种密度在前几届 ATC 罕见，反映出系统社区在 2025 年开始把「中国生产规模」当作一等公民。

3. 异构硬件「软件可编程性」从 GPU 扩散到 SmartNIC/DPU/PIM/DSA/Tofino。SwCC 把 RDMA CC 从 ASIC 搬到 RISC-V 软件、Barre 在 BlueField-3 上跑 AI CC、Snary/Poby/DShuffle 一系列把不同 workload 卸载到 SmartNIC、Trochilus/Minos/SwitchGNN/Pallas 把 P4/Tofino 当成可编程加速器、PIMANN 在 UPMEM 上做 ANN、Para-ksm/DSA-2LM 利用 Intel DSA、DRack 用 CXL 3.0 解聚 NIC+内存。共同信号是：硬件加速器的「可被研究者编程」拐点已过，论文不再争论「能不能做」，而是争论「做哪些 workload 性价比最高」。

4. CC、CXL 与生产网关把网络主线倒向 AI。Barre 与 SwCC 共同把 RDMA CC 重新当成研究问题（前者 AI 集群专用，后者通用软件可编程）；FLB 把无损 LB 做到 PFC PAUSE -96%；Pallas 把 ToR 调度做到 µs；DRack 用 CXL 把 NIC 解聚。同时 KernelBypassTCP 与 SplitConn 给社区拉了基础认知 reset：经过十年的 CC 演进，许多 received wisdom 需要重新评估（IX 不再永远赢、PEP 不再过时、BBRv2/v3 行为反转）。这两条路线（前沿 AI 网络 + 基础 CC 重审）在同届 ATC 共存，反映出社区对「网络是否已经过度复杂」的内部反思。

5. Rust + 形式方法在 OS 阵营产线化交付。Asterinas 的 Rust framekernel + Converos 的 PlusCal model checking 是同一作者群体的配套交付：先建立一个完整 OS（Asterinas，driver 全 safe Rust），再用 model checking 工具（Converos）验证它（4 人月找出 20 bug）。Rex 提出用 safe Rust 替代 eBPF verifier。延续 OSDI-2025 的 Basilisk/PoWER/Paralegal 路线，这条「Rust + verification」的 OS 工程交付路线已经成型，不再是单点研究。

6. 编译器/工具基础设施的工业化重做。IRHash 在 LLVM IR 后做 hash 比 Ccache 准 1-2 个数量级；HEC 用 e-graph 验证 100k+ 行 MLIR 重写在 40 分钟内完成；ATLAS 通过 attribute fuzzing 在 GCC/LLVM 找 73 个新 bug；Bin2Wrong 统一反编译器 fuzz 在 4 个开源反编译器找 30 个 bug；Koala 给 shell 加速器一个完整 benchmark suite。这些工作不是新算法，而是把「工具链工程」当作一等论文产出对待，反映出 ATC 社区对「基础工程严肃化」的接纳度提升。

值得关注的方向

1. 多模型多租户 LLM serving 的资源调度

为什么小团队能做：Toppings、Weaver、Torpor、Katz 都是单机或小集群（1-4 GPU）实验；workload 用公开数据集（ShareGPT、MS-MARCO 等）即可；核心创新是 scheduler / runtime 而非新模型。

指向空白的论文：Toppings 只解决 LoRA 冷启动；Torpor 只做 model-switching；Weaver 仅在 attention 算子层 offload；LLMStation 把 fine-tuning 和 inference 复用但限于 PEFT。三者各自只覆盖一段。

Open problems：能否把 Toppings/Torpor/Weaver 三种异构资源复用统一在一个调度器里？跨模型的 KV-Cache 复用（同 prompt 跨不同 LLM 重用前缀）？Multi-adapter serving 与 multi-model serving 在 SLO 模型上有何不同——能否用统一 priority 模型？

2. 生产 KVCache trace 驱动的 cache policy 研究

为什么小团队能做：KVCacheInTheWild 公开了阿里生产 trace 特征统计；trace replay 实验只需开源 LLM 推理框架（vLLM/SGLang）；不需要拥有大集群，只需读懂 trace。

指向空白的论文：KVCacheInTheWild 只提了 workload-aware eviction，未触及 prefix tree 共享、RAG 场景、多模型共缓存；现有 prefix-cache 工作（vLLM/SGLang）的 eviction policy 在 to-B 长上下文下基本失效。

Open problems：to-B（API 调用）vs to-C（聊天）的 KVCache 复用模式有何根本差异？能否针对 RAG（长 document prefix）专门设计 cache layout？多模型共享同一段前缀缓存的语义正确性如何保证？

3. SmartNIC/DPU 上的 CC 与卸载 workload 选型

为什么小团队能做：BlueField-2/3 在云上可租；P4 Tofino dev kit 普及；SwCC、Barre、Snary、Poby、DShuffle 都是单 NIC 或小集群实验，重点在 workload 拆分而非新硬件。

指向空白的论文：SwCC 给出了软件 CC 的可行性但未对比与 ASIC 的 power/cost；Barre 只优化 AI 集群一类 workload；Snary/DShuffle 只各自做一类应用 offload。

Open problems：哪些 workload 卸载到 SmartNIC 是「净收益」、哪些是「PCIe 来回反而更慢」——能否给出量化决策模型？SmartNIC + CXL（DRack）共同存在时如何分工？SmartNIC 上软件 CC 的可调试性（区别于 ASIC 黑盒）能否用于科研。

4. Rust framekernel + model checking 的可移植性

为什么小团队能做：Asterinas、Converos、Rex 全部开源；4 人月即可在 Asterinas 上找 20 个 bug，单人在小模块上的可重复实验门槛很低。

指向空白的论文：Converos 只验证 Asterinas 的 12 模块；Rex 只做 eBPF verifier 替代；Asterinas 只展示 driver 的 safe Rust 化但 IO 路径未深入。

Open problems：能否把 Converos 工具链应用到 Linux kernel 的 Rust 子系统（rust-for-linux）？Rex 风格的「safe Rust 取代 verifier」能否扩到 BPF 之外的 sandbox（WASM、 bpftime）？framekernel 对 driver-内核交互延迟的影响是否需要 KPerfIR 风格 profiling？

5. 卫星/空间计算的开源仿真栈

为什么小团队能做：Rhone 提出单节点 700 卫星仿真器、LEOCraft 提出星座设计框架——都是工具型工作；SpaceExit 用 multi-exit DNN 做卫星推理，硬件需求低（嵌入式开发板足够）。

指向空白的论文：Rhone 只 covers 单节点 emulation；LEOCraft 只优化拓扑设计；SpaceExit 只做单星推理调度。

Open problems：卫星端 LLM 推理（单 token 数百毫秒功耗预算）的可行边界？跨卫星协同推理（partial offload，类似边缘云分卸载）？卫星 fail-slow 检测（Greyhound 风格）下的 ground-station 协调？

6. 编译器 / 工具链 fuzz 与等价性验证的工程化

为什么小团队能做：ATLAS 用 GCC/LLVM 公开 attribute spec 即可；Bin2Wrong 在 4 个开源反编译器（Ghidra/IDA/RetDec 等）上做差分；HEC 基于 e-graph + MLIR 现有生态；FPRev 黑盒探测，硬件只需单 GPU。

指向空白的论文：ATLAS 只 fuzz 编译器；Bin2Wrong 只 fuzz 反编译器；HEC 只验证 MLIR；IRHash 只优化构建缓存；五者无共享中间层。

Open problems：能否用 e-graph 验证 LLVM IR 优化 pass 的等价性（HEC 思路下沉到 IR 层）？把 ATLAS attribute fuzzing 与 Bin2Wrong 差分反编译结合做端到端编译器/反编译器一致性检测？面向 LLM agent 自动生成 kernel（AccelOpt/PIKE）的 IR 层正确性验证框架？

Awesome System Papers Wiki

探索

ATC-2025