ATC 2025
100 篇论文横跨 LLM 推理/训练、GPU 调度与 Kernel、网络(数据中心 + 流媒体 + 卫星)、OS 虚拟化、存储、安全可靠性、编译器与工具八条主线;网络相关共 21 篇占比最高,LLM 系统紧随其后 22 篇,国内云厂商生产系统论文密度爆发(阿里 / 腾讯 / 字节 / 华为云 / TikTok / 淘宝多家),异构硬件(CXL / SmartNIC-DPU / 可编程交换机 / PIM / NPU / Intel DSA)横贯各条主线。
概览
LLM 系统占 22 篇,「从单 GPU benchmark 转向多租户生产托管」是本届最强信号。推理侧 KVCacheInTheWild(阿里首份 to-C/to-B 生产 KVCache trace 刻画,QTTFT 降 28-41%)、DeepServe(华为 Ascend NPU serverless 平台,秒级扩 64 实例)、Torpor(阿里 GPU pool late binding,4-GPU 节点服务 480 函数)、Toppings(CPU+LoRA prefill 掩盖 adapter 冷启动 1.7×)、Katz(T2I diffusion + ControlNet 服务 7.8×)共同显示业内一线已经把推理框架从「vLLM/SGLang 单 GPU 调优」推向「多模型多租户多硬件托管」。训练侧 Optimus(3072 GPU MLLM bubble exploitation)、Greyhound(10K GPU fail-slow 检测)、CrossPipe(跨 DC PP+DP overlap)、UCP(Universal Checkpointing 让 1T 模型重配 < 3min)、Hermes(Ascend 训练 profiling 落地)、Primus(字节跳动 DLRM 三层统一训练系统)一齐把「大集群 + 大模型 + 工业落地」做到了主轴位置。
国内 hyperscaler production paper 密度爆发。除前述外,TGW(腾讯云软件网关,单节点 2.9× 吞吐 + 多 Tbps 流量)、AnchorNet(TikTok 直播架构,rebuffer -60%、参与度 +3.83%)、SolFS(移动云备份 sync 时间 -88.8%)、MARC(淘宝云渲染 freeze rate -71%)、FastACS(消息分发 1.8 Tbps p99 亚秒)、FlexPipe(变长 PP 训练)等多个论文都是带真实 A/B 测和大规模生产部署数字的工作。这种密度在前几届 ATC 罕见,反映出国内 hyperscaler 工程经验首次大规模进入顶会主流叙事。
异构硬件横贯多条主线,「软件可编程硬件」从 GPU 扩散到 SmartNIC/DPU/PIM/DSA/可编程交换机。CXL:DRack 用 CXL 3.0 把 NIC 与内存做 rack-level 解聚共享、DSA-2LM 用 Intel DSA bypass DMA 做 tiered memory;SmartNIC/DPU:Snary(FPGA 检索)、Poby(BlueField-2 镜像 provisioning)、DShuffle(DPU Spark Shuffle)、SwCC(BlueField + RISC-V 软件 CC,3.1µs RTT)、Barre(BlueField-3 PCC 上 AI 集群 CC,10K GPU 训练吞吐 +9.6%);可编程交换机:Trochilus(Tofino BRNN 蒸馏部署)、Minos(流量分析防御)、SwitchGNN(P4 在网 GNN 聚合,Reddit epoch -74%)、Pallas(ToR µs 调度);PIM:PIMANN 在 UPMEM 上做 ANNS;NPU:DeepServe、Hermes、CLONE(28nm 边缘 LLM 加速器);Intel DSA:Para-ksm(DSA 加速 ksm 内存去重)、DSA-2LM。
Rust 在 OS 与 kernel-extension 阵营继续工程化。Asterinas 推出 Rust framekernel OS(driver 全 safe Rust,TCB 仅 14% 代码、性能与 Linux 持平)、Rex 用 safe Rust 替代 eBPF verifier、Converos 用 PlusCal 多层规约对 Asterinas 做 model checking 找出 20 个真实 bug(4 人月)。这条线延续了 OSDI-2025 的「verification 工具化」与 SOSP 2025 的 Rust + 形式方法基调,且 Asterinas/Converos 是同一作者群体的配套交付。
网络工作显著倒向 AI workload,传统 CC/LB 大幅 AI 化。Barre(AI 集群 RoCEv2 PCC)、SwCC(软件可编程 RDMA CC)、FLB(无损 DC LB,PFC PAUSE -96%)、Pallas(µs rack 调度)、SwitchGNN(在网 GNN)、Snary(SmartNIC ANN)几乎都打着 AI 标签;与此同时 KernelBypassTCP(6-stack 横评,Linux 在 bulk 上 1.7× IX,IX 在 small msg 上 5.2× Linux)和 SplitConn(重审 PEP 与 BBR 相关性)给社区拉了一次基础认知 reset。
与 ATC 2024 对比:LLM 论文占比从 ~10% 升到 ~22%;网络从纯 RDMA 优化扩展到「AI 集群 CC + DPU CC offload」;OS/虚拟化议题增多(13 篇,含 Rust framekernel、microkernel UEFI、eBPF 用户态 paging、嵌套虚拟化 hyperupcall);卫星网络与空间计算自成一支(3 篇:LEOCraft、Rhone、SpaceExit);可编程交换机从「玩具 demo」变成产线工具(多个 Tofino Tbps line-rate 论文)。整体气质:工业落地浓度 + LLM 渗透深度是 ATC 2025 的两条明线。
论文分类
LLM 推理与服务(10 篇)
- Weaver — 多 LLM 服务把热模型 attention 算子卸载到运行冷模型的 GPU,热模型吞吐 +77%
- LLMStation — LLM 微调与推理资源复用,迭代级调度 + suspendable Autograd + fusion engine,PEFT 吞吐 1.38-14.77×
- DeepServe — 华为云 Ascend NPU serverless LLM 平台,request-job-task 抽象 + FlowServe + NPU-fork,秒级扩 64 实例
- KVCacheInTheWild — 阿里 to-C/to-B 生产 KVCache trace 首次系统刻画 + workload-aware 淘汰,QTTFT 降 28-41%
- CLONE — 边缘 LLM 算法-硬件协同(generative pruning + LoRA-MoE + 28nm 加速器),加速 11.92×、能耗 -7.36×
- Katz — T2I diffusion + ControlNet-as-a-Service + bounded async LoRA + CFG latent parallelism,SDXL 服务 7.8×
- Toppings — CPU 同时跑 LoRA prefill 掩盖 adapter loading 冷启动,rank-aware 调度,Llama2 1.7×
- Torpor — GPU 推理 serverless 的 late binding(host memory + 按需 swap),4-GPU 服务 480 函数省 GPU 70%
- QFactory — Qtile-Graph 编译框架延迟 dequantization,单 kernel 比 BitBLAS 快 1.66×、vLLM 解码 1.23×
- PPipe — 异构 GPU 视频分析 pool-based pipeline + MILP,吞吐 +32-75%、低端 GPU 利用率 +41-65%
LLM/MoE 训练与 Checkpoint(12 篇)
- CrossPipe — 跨 DC 训练 PP+DP overlap 调度建成 CO 问题,相同显存下比 1F1B 减 33.6% 训练时间
- Optimus — encoder/LLM 分离并行 + kernel 级填充 LLM bubble,3072 GPU ViT-22B+GPT-175B +20.5-21.3%
- mTuner — elastic tensor 抽象动态调节存储比例,PEFT 平均 +28.3%/14.5%、最高 +51.2%
- Obscura — pipeline 变换把 forward bubble 转成 backward bubble 掩盖 recomputation,13B-28B 提速 1.33×
- UCP — Universal Checkpointing 解耦并行策略,1T 模型重配 < 3 min
- AssyLLM — 联邦微调通过组装 pre-trained block + CKA/KL 兼容性挑选,端侧内存 -92%、加速 30×、准确率 +18.26%
- Greyhound — 大规模训练 fail-slow 检测,LD_PRELOAD hook NCCL + BOCD + ski-rental 多级缓解,10K GPU 集群表征
- PopFetcher — MoE 专家预取(相邻层选择相关性 + sliding window),训练时间 -15% 至 -94.5%
- FlexPipe — 首个支持 PP 阶段数与 GPU 分组在迭代间无停顿动态调整,变长 transformer 训练吞吐 +25%
- Jenga — Token 级 contextual sparsity 剔除冗余 token,长上下文 LLM 微调显存 -1.93×、加速 1.36×
- Hermes — 华为 Ascend NPU 训练 profiling/analysis/optimization 工业系统,PanGu-α 3.05× / MoE 1.19×
- Primus — 字节跳动 DLRM 三层统一(资源/数据/范式)+ 跨 YARN+K8s 弹性,DTGG 加速 23×、广告收入 +0.4-2.4%
GPU/加速器调度与 Kernel 优化(12 篇)
- GraphPy — 揭示 20+ GNN 系统的 accuracy / framework overhead 陷阱,参考实现省显存 6.92×、加速 1.69×
- Krypton — 内核空间拦截 GPU command buffer + MIG + 反馈 CPU token 调度,跨 CUDA/Vulkan,所需 GPU -32.1%
- GMI-DRL — GMI 把 GPU 切成可调子 GPU 适配 DRL 异构 task,DGX-A100 训练吞吐 2.34×、利用率 +40.8%
- WIC — UVM page-fault 触发 warp-level 中断替代 GPU 通信 polling,10 个跨设备应用平均加速 1.13×
- GeneralSparse — memory access + reduction 两空间自动生成 SpMM kernel,比 cuSPARSE 快 20.82×、推理 2.33×
- PluS — loop-centric +Graph 抽象 + 专家可维护 pattern warehouse,A100 上比 TorchInductor 快 4.04×
- Voltrix — bit-wise BMat 压缩 + warp-specialized 多级流水 + I/O co-balanced 持久化 kernel,H100 比 TC-GNN 36.5×
- PathWeaver — 多 GPU 图 ANNS 的流水线 path extension + ghost staging + direction-guided selection,95% recall 3.24×
- GPreempt — 利用 GPU 驱动隐藏 timeslice + hint-based pre-preemption,<40 µs context-switch 兼容非幂等 kernel
- Sirius — 推理-训练 GPU 显存 5ms 毫秒级交接(gradient compute/model update 两阶段),inference SLO +57%、训练吞吐 2.2×
- XRT — 加速器感知 runtime(notification-aware scheduler + software fallback),XMP 上吞吐 3.2× unoptimized、最高 32× CPU
- SAVE — vulnerable bit 计算放 reliable memory + CPU 异步验证,4K bit flip 精度不掉、<9% 开销
网络协议、CC 与在网计算(11 篇)
- KernelBypassTCP — 6 个 TCP stack 横评:Linux 在 bulk 上 1.7× IX,IX 在 small msg 上 5.2× Linux
- SwCC — NIC 引擎集成 RISC-V 核做 per-packet 软件 CC,3.1µs RTT 与 ASIC 持平,~150 行 C 实现 DCQCN/TIMELY/HPCC
- Barre — BlueField-3 PCC 上 rate-based AIMD + Fast Increase/Dual-lock,10K GPU 训练吞吐 +9.6%
- FLB — threshold-free reroute + 拥塞流隔离的无损 DC LB,PFC PAUSE -96%、AFCT -18-40%
- Pallas — ToR 交换机做 workload shaping + cFCFS,尾延迟比 RackSched 降 8.5-100×
- DRack — CXL 3.0 把 rack 内 NIC 与内存池化共享,跨 rack 通信 -37.3%、p99 -62.2%
- SplitConn — 重审 PEP 与 BBR/QUIC:BBRv2/v3 比 v1 更受益于 split,PEP 远未过时
- FastACS — RPC + RMA 多层 cache 跨集群推消息,单 leaf cluster 1.8 Tbps、p99 亚秒级
- SwitchGNN — P4 交换机做 graph-aware multicast + aggregation,Reddit 128-worker epoch -74%
- Snary — FPGA HBM data-parallel similarity + parallel-swap Top-K + LSH,Faiss 14-23× 吞吐
- Trochilus — DFA→BRNN→SMF 蒸馏部署到 Tofino,多 Tbps 模式匹配 + 自动更新规则替代专家手写
流媒体、RTC、云网关(6 篇)
- AnchorNet — TikTok 直播 RTC SFU 统一 CDN publisher + sample-level 音频拼接,rebuffer -60%、参与度 +3.83%
- STORM — 信号水位 + 可靠性感知 MPQUIC 调度,移动网下尾包延迟 -98.2%、帧率 +1.95×
- MP2 — 多用户 free-roaming VR 流媒体中心化多路径协调,tail latency -35×、QoE +1.86×
- MARC — 淘宝移动云渲染帧级 motion-aware 码率控制,freeze rate -71%、interaction +20%
- TGW — 腾讯云软件网关 DPDK + 双模型转发 + live state migration,单节点 2.9× 吞吐、多 Tbps 100% 可用
- NetKeeper — 自治网络配置更新(NL+异常日志→DSL→API)+ 多智能体 RL,策略一致性 99.6%
- Minos — Tofino1 上 line-rate PRINCE 加密 + 动态流交错抗指纹攻击,准确率压到 <20%
卫星与空间计算(3 篇)
- LEOCraft — Starlink/Kuiper 类星座的 flow-level 设计框架,process 并行 + VNS 剪枝优化时间 -5×
- Rhone — 太空计算网络 emulator(power/thermal/computation/orbit/network 模型),单节点 700 卫星,误差 <5%
- SpaceExit — 卫星 multi-exit 检测器 + 复杂度调度 + DVFS,OEC 性能比 SOTA 升 24.3%
OS / 虚拟化 / Container / 内存(13 篇)
- BurstComputing — FaaS 隔离从 function 抬到 job 级,group invocation flare + worker packing,PageRank 13×、TeraSort 2×
- 2DFS — OCI 加 2dfs.field 二维 allotment 矩阵支持模型 split 独立缓存与按需 partition,构建快 56×
- Poby — 把容器 image provisioning 拆解 offload 到 BlueField-2 SmartNIC,比 containerd 快 13.2×
- Para-ksm — Intel DSA 加速 ksm 内存去重(候选页 batch 提交),每 cycle 去重量 +31-50%
- Rex — safe Rust + 轻量 runtime 提供 eBPF 同等安全性,闭合 language-verifier gap
- ATLAS — 测试程序中插入 C/C++ attribute 触发 option 单独无法到达的编译路径,GCC/LLVM 报 73 个 unique bug
- DSA-2LM — Intel DSA bypass DMA + 4K/2M 自适应批迁移,比 MEMTIS/TPP/NOMAD 快 20%/30%/16%
- Asterinas — Rust framekernel OS,driver 全 safe Rust,TCB 仅 14% 代码、性能与 Linux 持平
- PageFlex — eBPF 把 Linux paging 策略外置到用户态,17 行 Hyperbolic + Leap 比 Linux prefetch 快 75%
- HyperTurtle — eBPF hyperupcall 把 L1 hypervisor 关键路径注入 L0,EPT fault 5.1×、Kata 启动 +27%
- Converos — PlusCal 多层多粒度规约对 Rust OS 内核做 model checking,验证 Asterinas 12 模块发现 20 bug,4 人月
- PMR — 解耦 page shrinking 与 writeback + 批量 unmap 的并行内存回收,Android 应用响应时间 -43.6%
- RTSFaaS — affinity-aware lease + 单边 RDMA 动态租约转移的事务 serverless,吞吐 5×/20× Boki/Beldi
存储与文件系统(9 篇)
- OpenCAS-Crash — Open CAS 块级缓存的 crash consistency 研究,发现 write hit/WA crash 返回坏数据
- Z-LFS — append-only 元数据 + 推测式日志流 + 冲突感知分配,小 zone ZNS SSD 上 LFS 比 F2FS 快 33.4×
- HyCache — ILP 决定缓存哪些预处理 step 到内存/SSD,DNN pipeline 提速 1.11-10.1×、端到端 1.67×
- HotRAP — FD 上小型 LSM (RALT) 跟踪 record-level 热度 + 双通道 promotion,YCSB read-write 1.6× 次优
- SolFS — 文件系统记录 (offset,length) 操作日志替代整文件 hash,移动云备份 sync 时间 -88.8%、CPU -90%
- LogCrisp — Sketch+Spec 两阶段 pattern 抽取 + AVX SIMD 把前缀查询转 range,分析比 LogGrep 快 4.65×
- ShieldReduce — bi-directional delta compression 维持物理局部性的 SGX 内细粒度数据精简,上传 +3.5×
- DecouKV — 把 LSM-tree sorting 解耦为 CPU-bound IndexTable merge + I/O-bound AOF append,写吞吐 2.3-4.9× RocksDB
- RCuckoo — 纯单向 RDMA + locality-enhanced cuckoo 哈希全分离 KV,YCSB-A 写密集 7.1×
数据库与大数据(5 篇)
- Swift — BO 每轮用 GAN 生成 150 配置混入随机池,Spark/Flink 调参时间从 12.5h 降到 5.8h
- HDTX — redo log + RDMA Wait/Enable 把解耦内存事务压成 2 RTT,TPC-C 延迟 -72.1%
- DDLumos — Atomic DDL bug 207 个特征研究 + metadata-conflict-guided 合成 + 图一致性分析,6 DBMS 找 73 新 bug
- PIMANN — UPMEM PIM 上 per-PU 总线仲裁 + persistent kernel + 动态副本调度,ANNS 吞吐 10.4× Faiss-CPU
- DShuffle — DPA 256 线程并行 serialize + DPU 直写盘/RDMA,sort shuffle 时间 -62.7%、整体 -16%
安全、可靠性与故障(11 篇)
- uEFI — UEFI 模块按微内核 deprivilege + 沙箱隔离,trampoline 注入做透明跨模块调用,开销 1.91%
- CAFault — FDModel 学习 fault-config 隐式依赖 + fault-handling 引导 fuzzing,48h 找 16 未知 bug、覆盖率 +31-82%
- Sieve — 静态识别 sync/timeout I/O 作为 fault point + context-sensitive delay 注入,ZK/Kafka/HDFS 找 6 未知 bug
- SyzMini — 内核 fuzzing 输入最小化 influence-guided 删 call + type-informed 简化参数,最小化执行 -60.7%、bug 1.7-2×
- BLECST — 用 Combinatorial Security Testing 替代概率 fuzzing,10 款 BLE 设备测出 19 独特漏洞
- TLS-RA — TLS 1.3 extension + DHE shared secret 的 linking hash 双重独立绑定 RA,无额外 round trip
- LiteShield — guest kernel 拆成 userspace µkernel 服务 + 共享内存 IPC,user-to-host 接口仅 22 syscalls
- MemoryTrap — 编译期插不可读 NOP 陷阱 + Intel MPK 防 JIT-ROP,最多泄 657B 即触发,开销 0.74-1.85%
- Bin2Wrong — source/compiler/opt/format 四维统一反编译器 fuzz,binary diversity 提升 10-17×、确认 30 个 bug
- CountingAtomicity — symbolic range analysis + SMT 自动推断 PM 数组与 size 的 counting 原子性,4 系统找 14 bug
- FiDe — OS 隔离 + XDP + SDN 双冗余 multicast tree,crash 检测 < 30µs(uKharon-FD 7.2×),Zookeeper 吞吐 2.23×
编译器、Shell、其他工具(8 篇)
- IRHash — 在 LLVM IR 后做 hash 的编译缓存,比 Ccache/cHash 准 1-2 数量级,C 项目 build -19%
- HEC — 静态 datapath + 动态 control-flow 重写规则混合的 e-graph MLIR 等价性验证,40 分钟跑 100k+ 行
- Koala — 126 个真实 shell 程序 + 3 档输入(最大 146GB)+ 自动化基础设施,统一评估 PASH/Shark
- FPRev — masked all-one array 黑盒重建 summation tree(O(n²) vs O(4ⁿ) brute),首支持 Tensor Core fused
- HypeReca — 异构 embedding DB 去中心索引 pipeline + 2-fold parallel 复制,DLRM 32 GPU 上 2.16-16.8×
- Cosmic — cell-grouping + speculation 让 SmartScan 在 Lambda 上满足 50ms 时序,3D 打印控制省 2.8-3.5×
- Chitu — Fair-Fallback 框架的异步 DAG-BFT,最佳 4 message delays,相比 Tusk 端到端延迟 -82.5%
研究趋势
1. LLM 系统从「单 GPU benchmark」全面进入「多模型多租户多硬件托管」。同一时段 ATC 出现 Weaver(多 LLM 共 GPU attention 卸载)、LLMStation(fine-tuning + inference 共享)、Toppings(CPU/GPU 共担 LoRA)、Torpor(GPU pool late binding 服务 480 函数)、Katz(diffusion + multi-adapter)—共同信号是「serving 系统已经是异构资源 + 异构模型 + 异构 adapter 三重多路复用」,单 GPU 单模型论文几乎不再出现。这与 OSDI-2025 LLM 服务议题向「极值/生产」分化、MLSys 2026 仍有大量「单 GPU 单模型」工作形成清晰互补。
2. 国内云厂商生产系统首次集中进入主流叙事。阿里 KVCache trace、阿里 Torpor、字节 Primus、华为 DeepServe、华为 Hermes、腾讯 TGW、TikTok AnchorNet、移动云 SolFS、淘宝 MARC 几乎覆盖国内 hyperscaler 主流玩家。这些工作普遍带 A/B 测和大规模生产数字(10K-1M+ 用户级),而不是 lab 级 benchmark。这种密度在前几届 ATC 罕见,反映出系统社区在 2025 年开始把「中国生产规模」当作一等公民。
3. 异构硬件「软件可编程性」从 GPU 扩散到 SmartNIC/DPU/PIM/DSA/Tofino。SwCC 把 RDMA CC 从 ASIC 搬到 RISC-V 软件、Barre 在 BlueField-3 上跑 AI CC、Snary/Poby/DShuffle 一系列把不同 workload 卸载到 SmartNIC、Trochilus/Minos/SwitchGNN/Pallas 把 P4/Tofino 当成可编程加速器、PIMANN 在 UPMEM 上做 ANN、Para-ksm/DSA-2LM 利用 Intel DSA、DRack 用 CXL 3.0 解聚 NIC+内存。共同信号是:硬件加速器的「可被研究者编程」拐点已过,论文不再争论「能不能做」,而是争论「做哪些 workload 性价比最高」。
4. CC、CXL 与生产网关把网络主线倒向 AI。Barre 与 SwCC 共同把 RDMA CC 重新当成研究问题(前者 AI 集群专用,后者通用软件可编程);FLB 把无损 LB 做到 PFC PAUSE -96%;Pallas 把 ToR 调度做到 µs;DRack 用 CXL 把 NIC 解聚。同时 KernelBypassTCP 与 SplitConn 给社区拉了基础认知 reset:经过十年的 CC 演进,许多 received wisdom 需要重新评估(IX 不再永远赢、PEP 不再过时、BBRv2/v3 行为反转)。这两条路线(前沿 AI 网络 + 基础 CC 重审)在同届 ATC 共存,反映出社区对「网络是否已经过度复杂」的内部反思。
5. Rust + 形式方法在 OS 阵营产线化交付。Asterinas 的 Rust framekernel + Converos 的 PlusCal model checking 是同一作者群体的配套交付:先建立一个完整 OS(Asterinas,driver 全 safe Rust),再用 model checking 工具(Converos)验证它(4 人月找出 20 bug)。Rex 提出用 safe Rust 替代 eBPF verifier。延续 OSDI-2025 的 Basilisk/PoWER/Paralegal 路线,这条「Rust + verification」的 OS 工程交付路线已经成型,不再是单点研究。
6. 编译器/工具基础设施的工业化重做。IRHash 在 LLVM IR 后做 hash 比 Ccache 准 1-2 个数量级;HEC 用 e-graph 验证 100k+ 行 MLIR 重写在 40 分钟内完成;ATLAS 通过 attribute fuzzing 在 GCC/LLVM 找 73 个新 bug;Bin2Wrong 统一反编译器 fuzz 在 4 个开源反编译器找 30 个 bug;Koala 给 shell 加速器一个完整 benchmark suite。这些工作不是新算法,而是把「工具链工程」当作一等论文产出对待,反映出 ATC 社区对「基础工程严肃化」的接纳度提升。
值得关注的方向
1. 多模型多租户 LLM serving 的资源调度
为什么小团队能做:Toppings、Weaver、Torpor、Katz 都是单机或小集群(1-4 GPU)实验;workload 用公开数据集(ShareGPT、MS-MARCO 等)即可;核心创新是 scheduler / runtime 而非新模型。
指向空白的论文:Toppings 只解决 LoRA 冷启动;Torpor 只做 model-switching;Weaver 仅在 attention 算子层 offload;LLMStation 把 fine-tuning 和 inference 复用但限于 PEFT。三者各自只覆盖一段。
Open problems:能否把 Toppings/Torpor/Weaver 三种异构资源复用统一在一个调度器里?跨模型的 KV-Cache 复用(同 prompt 跨不同 LLM 重用前缀)?Multi-adapter serving 与 multi-model serving 在 SLO 模型上有何不同——能否用统一 priority 模型?
2. 生产 KVCache trace 驱动的 cache policy 研究
为什么小团队能做:KVCacheInTheWild 公开了阿里生产 trace 特征统计;trace replay 实验只需开源 LLM 推理框架(vLLM/SGLang);不需要拥有大集群,只需读懂 trace。
指向空白的论文:KVCacheInTheWild 只提了 workload-aware eviction,未触及 prefix tree 共享、RAG 场景、多模型共缓存;现有 prefix-cache 工作(vLLM/SGLang)的 eviction policy 在 to-B 长上下文下基本失效。
Open problems:to-B(API 调用)vs to-C(聊天)的 KVCache 复用模式有何根本差异?能否针对 RAG(长 document prefix)专门设计 cache layout?多模型共享同一段前缀缓存的语义正确性如何保证?
3. SmartNIC/DPU 上的 CC 与卸载 workload 选型
为什么小团队能做:BlueField-2/3 在云上可租;P4 Tofino dev kit 普及;SwCC、Barre、Snary、Poby、DShuffle 都是单 NIC 或小集群实验,重点在 workload 拆分而非新硬件。
指向空白的论文:SwCC 给出了软件 CC 的可行性但未对比与 ASIC 的 power/cost;Barre 只优化 AI 集群一类 workload;Snary/DShuffle 只各自做一类应用 offload。
Open problems:哪些 workload 卸载到 SmartNIC 是「净收益」、哪些是「PCIe 来回反而更慢」——能否给出量化决策模型?SmartNIC + CXL(DRack)共同存在时如何分工?SmartNIC 上软件 CC 的可调试性(区别于 ASIC 黑盒)能否用于科研。
4. Rust framekernel + model checking 的可移植性
为什么小团队能做:Asterinas、Converos、Rex 全部开源;4 人月即可在 Asterinas 上找 20 个 bug,单人在小模块上的可重复实验门槛很低。
指向空白的论文:Converos 只验证 Asterinas 的 12 模块;Rex 只做 eBPF verifier 替代;Asterinas 只展示 driver 的 safe Rust 化但 IO 路径未深入。
Open problems:能否把 Converos 工具链应用到 Linux kernel 的 Rust 子系统(rust-for-linux)?Rex 风格的「safe Rust 取代 verifier」能否扩到 BPF 之外的 sandbox(WASM、 bpftime)?framekernel 对 driver-内核交互延迟的影响是否需要 KPerfIR 风格 profiling?
5. 卫星/空间计算的开源仿真栈
为什么小团队能做:Rhone 提出单节点 700 卫星仿真器、LEOCraft 提出星座设计框架——都是工具型工作;SpaceExit 用 multi-exit DNN 做卫星推理,硬件需求低(嵌入式开发板足够)。
指向空白的论文:Rhone 只 covers 单节点 emulation;LEOCraft 只优化拓扑设计;SpaceExit 只做单星推理调度。
Open problems:卫星端 LLM 推理(单 token 数百毫秒功耗预算)的可行边界?跨卫星协同推理(partial offload,类似边缘云分卸载)?卫星 fail-slow 检测(Greyhound 风格)下的 ground-station 协调?
6. 编译器 / 工具链 fuzz 与等价性验证的工程化
为什么小团队能做:ATLAS 用 GCC/LLVM 公开 attribute spec 即可;Bin2Wrong 在 4 个开源反编译器(Ghidra/IDA/RetDec 等)上做差分;HEC 基于 e-graph + MLIR 现有生态;FPRev 黑盒探测,硬件只需单 GPU。
指向空白的论文:ATLAS 只 fuzz 编译器;Bin2Wrong 只 fuzz 反编译器;HEC 只验证 MLIR;IRHash 只优化构建缓存;五者无共享中间层。
Open problems:能否用 e-graph 验证 LLVM IR 优化 pass 的等价性(HEC 思路下沉到 IR 层)?把 ATLAS attribute fuzzing 与 Bin2Wrong 差分反编译结合做端到端编译器/反编译器一致性检测?面向 LLM agent 自动生成 kernel(AccelOpt/PIKE)的 IR 层正确性验证框架?