MLSys 2026

136 篇论文(136 PDF,含 1 份 EventTensor 重复稿对应单一 wiki 页),KV-Cache / attention / Speculative-Decoding / serving 调度四条 LLM 推理主线占 ~35%,MoE 训练与推理加 serving tax 分析成建制议题,AI4AI(LLM 自动生成 kernel / HDL / 优化算法)与 Agent 系统(SDK / 记忆 / 安全)并列扩张,联邦学习与可审计 ML(ZK、GPU-CC、确定性复现)形成独立集群。

概览

LLM 推理系统仍是中心引力场,且从「单点优化」走向「全栈编排」。17 篇 serving 论文覆盖调度、disaggregation、冷启动、serverless 弹性、多模型路由与声明式 IR。NVIDIA-Disagg-StudyMeta-LLM-DeployMoE-Serving-Tax 三类「pragmatic take」式经验研究首次密集进场——MLSys 2026 已经过了「disaggregation 能否 work」的阶段,进入「哪些工作负载该 disagg、怎么 rate match、MoE 税多少」的细粒度优化时代。BreakingTheIceFaaScale 则把 serverless 冷启动与秒级弹性扩缩推上议程。

MoE 问题开始主导大模型系统设计。6 篇专攻 MoE 的论文外加 MoE-aware 调度(LayeredPrefillCRAFT)表明 MoE 系统已脱离「vanilla dense serving 的变种」成为独立议题轴。所有论文都把 Kimi-K2 / DeepSeek-V3 当作默认 baseline——1T 参数的开源 MoE 已经是「标准测试集」。

RAG 从应用补丁升级为推理一等公民TeleRAGContextPilotSpanQueriesLEANNTerminus 五条线分别优化 retrieval-to-generation 间隙、context reuse、声明式 locality、端侧索引与 early termination——RAG 不再是 serving 的附带场景,而是与 prefill/decode 并列的调度维度。

AI4AI 与 Agent 系统同步扩张。7 篇 LLM agent 生成 kernel / HDL / 数据的工作(AccelOptPIKETritorXVeriMoALLaMEA-KernelTunerMatrixRocketPPA)外加 FlashInfer-Bench 基准框架,与 8 篇 Agent SDK / 记忆 / 安全论文(OpenHands-SDKHIPPOCAMPUSADR 等)构成两个平行子领域。相比 hero demo 时代,这届更强调闭环可复现与生产安全。

可审计 / 可信 ML 与异构硬件同步浮出水面HawkeyeZK-APEXGPU-CC-SecurityDP-ZeRO 共同构成「训练/推理过程可被第三方验证」方向;HipKittensWAVEfabric-libSakuraONE 则表明社区不再把 H100 + NCCL + CUDA 当唯一默认。

与往届的对比:相比 MLSys 2025 的 79 篇初版综述,本届完整 proceedings 几乎翻倍。PagedAttention / vLLM 内部优化式论文减少,取而代之的是跨框架 IR(SpanQueries)、替代 compile 路径(EventTensorFlashlight)、容错 serving(GhostServeRaidServe)与基础设施 drift 监测(DriftBench)——说明社区已把 vLLM/SGLang 当成基础设施而非研究目标。

论文分类

LLM 推理服务与调度(17 篇)

  • LayeredPrefill — 把 prefill 调度轴从 token 换成 layer-group,消除 Chunked-PrefillMoE 上的冗余 expert 重载,TTFT 降 70%
  • Stream2LLM — 在 vLLM 上扩展 streaming prompt,LCP 缓存失效 + 成本感知抢占,RAG TTFT 降至 1/11
  • HELIOS — multi-model 协同 + greedy 层加载,EE-LLM 吞吐 1.48×、batch size 15.14×
  • LAPS — prefill 阶段内部再按长度 disaggregate,隔离长/短 prefill,SGLang 对比降 30% 延迟
  • BatchLLM — 微软大批量 offline 推理,global prefix 树 + 内存中心 token batching,比 vLLM/SGLang 1.3-10.8×
  • BOUTE — 多目标 Bayesian 优化联合选择异构模型和异构 GPU,cost 降 15-61%
  • SuperInfer — GH200 Superchip 上 OS-style rotary scheduler + DuplexKV 全双工 KV,SLO 达成率 +74.7%
  • MorphServe — runtime 按负载切换层精度 + KV 弹性,SLO 违规降 92.45%
  • OptiKit — eBay 端到端 LLM 优化框架,Ray actor + 压缩 + SLO 基准,吞吐 2.8×
  • NVIDIA-Disagg-Study — 数十万设计点系统评测 disaggregation,Disaggregation 对 prefill-heavy + >10B 模型收益最大
  • ProfInfer — eBPF uprobe 挂 llama.cpp 三层 + PMC 计数器,开销 <4%
  • SpanQueries — 声明式 span query IR 统一 RAG/agent/inference-scaling,492 行改动让 vLLM TTFT 降 10-20×
  • BreakingTheIce — 系统剖析 vLLM serverless 冷启动,量化模型加载/编译/KV 初始化各阶段瓶颈
  • FaaScale — serverless LLM 快速弹性扩缩,RDMA 权重广播 + 分层冷启动,秒级 scale-out
  • Meta-LLM-Deploy — 系统探索 LLM 部署配置空间(并行/量化/disagg),给出生产可行 design point 地图
  • Behdin-SemanticJobSearch — 语义招聘搜索的 SLM 压缩 + prefill-only SGLang 服务栈,延迟与成本双优化
  • TokenWeave — 分布式推理中 RMSNorm+AllReduce 计算通信重叠,tensor parallel 吞吐提升

RAG 与检索增强推理(5 篇)

  • TeleRAG — IVF 检索预取 + KV 复用协同优化 RAG 推理,降低 retrieval-to-generation 间隙
  • ContextPilot — 长上下文推理的 context reuse 调度,prefix 局部性感知减少重复 prefill
  • Terminus — 向量检索 rank-aware early termination,磁盘 I/O 降 40%+ 且 recall 无损
  • LEANN — 端侧向量索引不存 embedding,查询现场重算 + 两级 PQ+精确,188 GB→4 GB(50×)
  • ApproxMLIR — 面向 compound ML 系统的 accuracy-aware 编译器,RAG 等多阶段 pipeline 端到端近似优化

KV Cache 与 Attention 优化(11 篇)

  • FlexiCache — KV head 时域稳定性分级处理,GPU 显存降 70%、吞吐 1.38-1.55×
  • Kitty — 2-bit KV-Cache + channel-wise 精度提升 + Triton dequant kernel,8× 内存、2.1-4.1× 吞吐
  • MAC-Attention — 匹配 pre-RoPE 查询复用 attn summary,128K 下 KV 访问降 99%、attn 14.3×
  • SkipKV — reasoning 模型的句级 KV eviction + adaptive steering,2× 压缩下准确率 +6.7%
  • BLASST — FlashAttention online softmax 运行时 skip 低贡献 block,prefill 1.62×、decode 1.48×
  • IntAttention — IndexSoftmax 32-LUT 实现纯整数 attention,Arm CPU 比 FP16 快 3.7×
  • FlashAttention-4 — Blackwell B200 上 2-CTA MMA + TMEM + 软件 exp,BF16 1613 TFLOPS/s,cuDNN 比 1.3×
  • MTraining — Context Parallelism 下动态稀疏注意力的 Striped 布局 + Hierarchical Ring,Qwen2.5-3B 上下文到 512K
  • OPKV — plugin-driven 可召回稀疏 KV 框架,PagedAttention 兼容的 recallable sparsity
  • ScaleSearch — 搜索 block floating point scale 配置,NVFP4 attention/KV 精度-吞吐 Pareto 优化
  • AttributionSparseActivation — 基于 attribution 的运行时稀疏激活,LLM 推理按需跳过低贡献神经元

Speculative Decoding 与新解码范式(9 篇)

  • DAS — RL rollout 的 per-problem 滑动窗口 suffix tree drafter + long-tail budget 分配,rollout 延迟 -50%
  • PRISM — 按 draft step 拆分 draft model(类 MoE 条件计算),SGLang 吞吐 >2.6×
  • SparseSpec — self-speculation + PillarAttn 动态 sparse,从 verify 阶段白嫖 top-K,Qwen3 上 2.13×
  • SpecDecodeBench — 首次生产级 vLLM 上系统评测,验证阶段开销主导、接受行为高度异质
  • SpecDiff-2 — 离散扩散 drafter + streak-distillation + self-selection,5.5× 加速无损
  • TiDAR — diffusion-AR 混合,单前向 diffusion drafting + AR verification,无损 4.71-5.91×
  • CDLM — block-wise causal mask + consistency 蒸馏把 diffusion LM 压成 block-causal,3.6-14.5× 降延迟
  • ReSpec — RL 训练中优化 speculative decoding 的 drafter-verifier 对齐,rollout 吞吐提升
  • DataflowIsAllYouNeed — SambaNova RDU 数据流 decode 架构,speculative + 流水线并行突破 AR 串行瓶颈

MoE 训练与推理系统(6 篇)

  • CRAFT — MoE expert replica 按层动态分配(MCKP DP),DeepSeek-R1/Kimi-K2 上比 EPLB 均匀复制 1.14-1.2×
  • FarSkip-Collective — 改 skip 连接让下一 sub-block 用 partial activation 启动,all-to-all 与计算重叠,FCSD 蒸馏 <2.5% 精度差
  • FP8FlowMoE — scaling-aware transpose 算子消除重复 cast,DeepSeek-V3 训练 +21%、单卡显存 -16.5 GB
  • MoEBlaze — MoE token 路由无 per-expert buffer,on-the-fly gather/scatter 融合 + SwiGLU checkpoint 协同,4× 加速
  • EventTensor — 把 GPU 同步事件抽象成一等 tensor,symbolic shape + 数据依赖索引,ETC 编译器 MoE 1.23×
  • MoE-Serving-Tax — 系统量化 MoE serving 的 expert/TP/EP 组合税,揭示 hidden communication 与内存开销

分布式训练、RL 与弹性并行(17 篇)

  • AXLearn — Apple JAX/XLA 模块化训练框架,RoPE/MoE 10 行代码配置,H100/TPU v5p/Trainium2 全兼容
  • DistCA — Core Attention Disaggregation,无参数 softmax(QK)V 剥离到独立 attention server 池,512 H200 / 512K context 上 +35%
  • HetRL — 跨地区异构 GPU 集群跑 PPO/GRPO,5-level 搜索 + 遗传算法,比 verl/OpenRLHF 平均 3.17×
  • HexiScale — 全 asymmetric 的 DP/TP/PP 三维并行 + 分层 graph partition,异构集群 MFU 追平同构高端
  • DreamDDP — Local SGD 整模型同步拆成 layer-wise partial sync,32-GPU 低带宽下 1.49-3.91×
  • DP-ZeRO — 把 Book-Keeping per-sample 梯度裁剪嫁接进 DeepSpeed/FSDP ZeRO-1/2/3,首次让 DP 训练达 GPT-100B / ViT-10B 规模
  • NEST — level-wise 网络抽象 + memory modeling 的 DP 解 7 种并行联合优化,比 Alpa/TopoOpt/Mist 2.43×
  • ProTrain — 把 ZeRO + tensor swap + gradient checkpoint 统一到自动搜索,比 DeepSpeed/Colossal-AI/FSDP 1.43-2.71×
  • veScale-FSDP — ByteDance 新 FSDP backend,RaggedShard + Distributed Buffer,生产 10K+ GPU,吞吐 +5-66%
  • BOOST — 低秩瓶颈架构专用 TP(在窄瓶颈做 collective),vs. full-rank 1.46-1.91×、vs. vanilla TP 1.87-2.27×
  • FlexTrain — 弹性 hybrid-parallel 训练,pipeline stage 动态伸缩 + 资源感知重调度
  • FCP — foundation model 的 scalable context parallelism,长上下文 load balancing + ring attention 协同
  • Guard — 分布式训练 straggler 检测 + grey node 健康管理,MoE 集群 goodput 提升
  • Quirk-Sparing — 大集群 LLM 训练的 sparing 策略,最小化可靠性投入对 goodput 的影响
  • Zorse — 异构 GPU 集群 LLM 训练效率优化,pipeline + ZeRO 联合调度
  • FreeScale — 序列推荐模型的分布式训练 load balancing,embedding + RDMA 通信优化
  • PROMPTS — 多 agent 规划自动调优 LLM 训练 sharding,TPU 集群吞吐提升

推理容错、能效与多模态 Serving(8 篇)

  • GhostServe — 轻量级 serving 侧 checkpoint,erasure-coded KV shadow 实现透明容错
  • RaidServe — 高吞吐 resilient serving,tensor parallel + KV 冗余,故障下吞吐保持
  • SHIP — SRAM-based huge inference pipeline(Groq 风格),超低延迟 LLM serving
  • BEAM — LLM serving 联合资源-功耗优化,DVFS + SLO-aware 调度
  • TriInfer — 多模态大模型 hybrid disaggregated 调度,prefill/decode 与模态感知路由
  • FlashAgents — 多 agent LLM 系统的 streaming prefill 重叠加速
  • AgenticCache — embodied agent 的 cache-driven 异步 planning,推理与规划并行
  • LocalityAwareBeamScheduling — test-time compute 的 locality-aware beam 调度,consumer GPU KV offload 优化

GPU Kernel、编译器与 DSL(10 篇)

  • HipKittens — ThunderKittens 移植到 AMD CDNA3/4,8-wave ping-pong + chiplet swizzle,追平 AITER 手写汇编
  • ParallelKittens — 多 GPU kernel 的 8 个 primitive + 统一模板,<50 行 device 代码匹配 Flux/Comet/CUTLASS
  • Flashlight — TorchInductor 三类图重写,torch.compile 自动生成 FlashAttention 风格 Triton,对齐 FlexAttention
  • Collective-NoC — ML 加速器的 collective-capable NoC + Direct Compute Access,GEMM 3.8×
  • PyLO — 学习型优化器 VeLO 从 JAX 移植到 PyTorch + 自定义 CUDA kernel,ViT 优化器 4× 提速
  • WAVE — 符号化 Python DSL + 编译器,AMD GPU 上高性能 attention/GEMM kernel 生成
  • CATWILD — TPU fleet 级 XLA compiler autotuning,生产 workload 端到端加速
  • DynaFlow — torch.compile 透明 intra-device 算子调度重叠,融合与并行自动编排
  • XPROF — OpenXLA 开放可扩展 profiler,分布式训练 roofline + traceviewer 集成
  • FlashInfer-Bench — AI 生成 kernel 闭环框架,抗 reward-hacking + 动态 apply() 注入 vLLM/SGLang

AI4AI:LLM 生成 Kernel / HDL / 数据(7 篇)

  • AccelOpt — AWS Trainium NKI kernel 优化的 LLM beam search + optimization memory,gpt-oss + Qwen3-Coder 匹配 Claude 4 但成本 26× 低
  • LLaMEA-KernelTuner — LLM + 进化算法生成 auto-tuning 优化器,比人工 baseline 高 72.4%
  • PIKE — multi-agent kernel 优化的 exploit-heavy + error-fixing + 粗粒度 step,KernelBench H100 2.88×
  • TritorX — Meta MTIA 的 Triton ATen kernel 自动生成,484 算子、20K+ OpInfo 通过率
  • VeriMoA — spec-to-HDL 的 Mixture-of-Agents,quality-guided global cache,VerilogEval 2.0 Pass@1 +15-30%
  • Matrix — Meta FAIR 的 P2P message-driven multi-agent 合成数据,31 节点 248 GPU 上 12,400 并发,6.8× Coral
  • RocketPPA — 统一 LLM 做 EDA 的 power/performance/area 优化,Verilog 生成与评估闭环

量化、压缩与边缘/端侧推理(7 篇)

  • CAGE — Pareto-optimality 推导的 curvature-aware STE 校正,3-bit W+A 预训练匹配 4-bit QuEST
  • MixLLM — 全局显著性给 ~10% 输出通道 8-bit、其余 4-bit,Llama 3.1 70B PPL 退化从 0.5 降到 <0.2
  • HyperTinyPW — 共享 micro-MLP 从 latent code 合成 PW 卷积权重,TinyML 6.31× 压缩
  • CORE — 移动端 LLM 统一 DVFS 调度,llama.cpp 能耗-延迟联合优化
  • ExecuTorch — PyTorch 统一端侧推理方案,backend delegation + 量化,跨 mobile/embedded 部署
  • Shannonic — ML workload 的 entropy-optimal 压缩,联邦/推理场景通信与存储双降
  • PipelinedSharding — 客户端 VRAM 受限的 xLM 推理,CPU-GPU pipeline offload 支持 VLM/MoE

Agent 系统、记忆与安全(8 篇)

  • OpenHands-SDK — OpenHands 重构成 modular SDK,event-sourced state + opt-in sandbox + 100+ LLM 路由,SWE-Bench Verified SOTA
  • HIPPOCAMPUS — Dynamic Wavelet Matrix agent 记忆,压缩域 Hamming-ball 搜索,检索 31× 快、token 14× 少
  • OSWorld-Human — computer-use agent 延迟专项研究,planning/reflection 占总延迟 75-94%,369 任务人类金轨迹
  • PARROT — LLM sycophancy 鲁棒 benchmark,双盲对比 + 八状态分类,22 LLM 下 follow rate 4%-94% 20× 差异
  • RLVR-LowData — 程序生成 reasoning 数据集研究 RLVR 在 low data 下表现,mixed-difficulty 带 5× sample efficiency
  • ADR — 企业 agentic AI 安全检测,解析 Cursor/Cline 本地缓存重建 MCP tool call 攻击面
  • Tag2Graph — ontology-guided 对话 RAG 长期 agent 记忆,个性化检索图结构
  • BOA — 原则性 LLM jailbreak 安全测试,搜索式 red-team 发现系统性漏洞

扩散、视频与多模态生成(4 篇)

  • StreamDiffusionV2 — 视频扩散直播系统,SLO-aware batching + sink-token rolling KV + motion-aware noise,4× H100 达 58.28 FPS
  • Reparo — VQGAN + 时空 ViT 生成式视频会议编解码,每帧独立,50-75% 丢包 PSNR 比 VP9+Tambur 高 11-16 dB
  • db-SP — 视觉 DiT 的 dual-balanced(head + block)sequence parallelism,Wan2.1-T2V-14B 端到端 1.25×
  • SwiftGS — 3D Gaussian Splatting 算法-系统协同优化,CUDA kernel + 渲染管线加速

联邦学习、隐私与可审计 ML(9 篇)

  • PLayer-FL — 借 model pruning 一阶重要性定义 federation sensitivity,第一个 epoch 决定哪些层 federate
  • ProToken — 联邦 LLM 的 token 级 client 归因,梯度加权 activation 内积,4×4 配置 98.62% 准确率
  • FLoRIST — stacked LoRA adapter 的 SVD + 能量阈值截断,vs. FLoRA 58×、vs. full FT 227× 通信
  • Privatar — 多用户 VR 把 avatar 重建 secure offload 到 PC,block-DCT 频域分割 + PAC Privacy,2.37× 并发
  • ZK-APEX — 边缘个性化模型的 approximate unlearning ZK 证明,Halo2 ~2h 比重训验证快 10^7×
  • GPU-CC-Security — 首个 NVIDIA Hopper GPU Confidential Computing 系统安全分析,上报多个问题
  • DISAGG — 联邦学习分布式 secure aggregator,sublinear 通信的高效隐私聚合
  • G-HEMP — 多 GPU 大规模 GCN 同态加密推理,CKKS 并行化突破内存墙
  • Hawkeye — 逆向 Tensor Core rounding/subnormal/累加顺序,CPU bit-exact 复现 FP16/BF16/FP8 16×16 MMA

Benchmark、仿真与集群经验(8 篇)

  • Chakra — Meta+GATech+HPE 的分布式 ML 执行图 schema + 生成式合成 trace,obfuscated trace 给 HW 厂商 co-design
  • SakuraONE — 800-GPU H100 AI HPC 集群经验,TOP500 #49,Top-100 中唯一 800 GbE + SONiC 开源网络栈
  • DriftBench — LLM serving 基础设施 drift 测量与预测,量化/配置变更的安全影响
  • Charon — 统一细粒度 LLM 训练/推理模拟器,operator-level design space exploration
  • SONAR — 去中心化学习拓扑与协作 benchmark,P2P 联邦场景系统评测
  • Acela — 数据中心固件升级的 cost-aware 持续时间预测,quantile GBDT 偏 mild overprediction
  • MPG — Google TPU fleet 效率优化,goodput 驱动的系统级调度与 profiling
  • AIRS — 资源受限环境(TPU)live inference 扩展,search quality 感知的 batching + archive 缓存

专业领域与非 LLM 系统(9 篇)

  • EarthSight — LEO 卫星图像地面-轨道联合调度,多任务共享 backbone + 轨道 utility-driven filter,P90 延迟 51→21 min
  • Spira — 首个 voxel-property-aware 稀疏卷积引擎,vs. TorchSparse++/Minuet 平均 1.68×
  • CSLE — Cyber Security Learning Environment,Docker Swarm 数字孪生 + MDP 仿真,15 套 twin / 34 RL 算法
  • fabric-lib — 跨 ConnectX-7 + AWS EFA 的统一 RDMA 点对点库,IMMCOUNTER 完成通知,trillion-param RL 权重 1.3s
  • OutOfCoreUMAP — GPU 上 massive-scale out-of-core UMAP,kNN 图构建突破显存限制
  • GriNNder — 全图 GNN 训练的存储卸载,NVMe + PyG 突破 GPU 内存容量墙
  • Catur — 云规模 VM NUMA placement 强化学习,学习 norm 后泛化到新集群拓扑
  • Gohil-UncertaintyAware — ML-for-systems 的不确定性估计,OOD 检测 + graceful degradation 保障生产可靠性
  • QBL — 对抗性多臂老虎机数据库索引选择,sublinear regret 实用调优

研究趋势

1. Chunked-Prefill 的「后时代」:调度轴从 token 重构为 layer / length / locality / modality。2024 Sarathi-Serve 定下的 chunked prefill 范式正被多角度挑战。LayeredPrefill 把调度轴换成 layer-group 消除 MoE expert 重载;LAPS 在 prefill 内部再按长度 disaggregate;SpanQueries 把 chat/RAG/agent 统一到声明式表达式树;TriInfer 将 disagg 扩展到多模态 MLLM;Stream2LLM 处理 streaming prompt 场景。共同方向:chunk 只是工具,真正需要调度的是「模型层」「请求类型」「缓存局部性」「模态」这些 first-class 概念。

2. MoE 从 “附带支持” 升级到 “一等系统问题”。6 篇专攻 MoE 的论文外加 MoE-aware 调度与 MoE-Serving-Tax 的定量分析表明 MoE 系统已成独立议题。FarSkip-Collective 改架构让 all-to-all 与计算重叠,FP8FlowMoE 从 FP8 cast 链路切入,MoEBlaze 消掉 per-expert buffer,EventTensor 提供 megakernel 编译路径,CRAFT 解决 expert replica 动态分配。

3. Speculative decoding 走出 EAGLE 式 draft model 独霸格局,且开始接受 reality check。9 篇 speculative 工作呈现明显分化:SpecDiff-2TiDARCDLM 用扩散模型做 drafter;DASSparseSpec 走 training-free 路线;PRISM 把 draft model 按 step 切成 MoE 式条件计算;ReSpec 把 speculative 推进到 RL 训练环。SpecDecodeBench 直接把标题写成 “Performance or Illusion?”——社区已对 single-number 加速报道失去信任。

4. 分布式训练从「同构大集群」扩展到异构、弹性、长上下文。17 篇训练论文覆盖 ZeRO/FSDP 变体(veScale-FSDPDP-ZeRO)、异构调度(HexiScaleHetRLZorse)、attention disagg(DistCA)、context parallel(FCPMTraining)与弹性 pipeline(FlexTrain)。训练系统研究正与 RL rollout(HetRLDAS)和 serving 需求(DistCA)双向渗透。

5. AI4AI 成建制进入 MLSys,且 benchmark 成为入场券。7+1 篇 LLM agent 生成代码的工作外加 FlashInfer-Bench 构成独立子领域。与前一代 hero demo 不同,这届明显强调:开源 LLM 足够(gpt-oss、Qwen3-Coder 匹配 Claude)、必须提供 benchmark(否则无法证明 generalization)、error-fixing subagent 比大模型本身更重要(PIKEAccelOpt)。

6. Agent 系统从 demo 走向 SDK + 记忆 + 安全三角OpenHands-SDK 把 agent 框架产品化;HIPPOCAMPUSTag2Graph 给出具体记忆数据结构;OSWorld-Human 量化 planning/reflection 延迟瓶颈;ADRBOA 分别从企业安全与 red-team 角度切入。Agent 系统论文数量(8 篇)已与 speculative decoding(9 篇)接近。

7. 可审计 / 可信 ML 从边缘变主流议题Hawkeye(CPU 复现 Tensor Core)、ZK-APEX(unlearning ZK 证明)、GPU-CC-Security(Hopper CC 安全分析)、DriftBench(serving 基础设施 drift)共 9 篇联邦/隐私/可审计集群。这些论文共同指向:AI 部署开始进入被监管、被审计、被挑战的环境。

8. 异构硬件 / 非 NVIDIA 开始有一席之地HipKittens 宣称 “消灭 CUDA moat”;WAVE 面向 AMD;fabric-lib 跨 ConnectX-7 + AWS EFA;AccelOpt 在 AWS Trainium;TritorX 在 Meta MTIA;AXLearn 声称 H100/TPU v5p/Trainium2 全等权;SakuraONE 报告 800 GbE + SONiC 开源网络栈取代 InfiniBand。

共同观察

1. LLM 推理瓶颈已从「单算子 FLOPs」迁移到「编排税 + 内存税 + 同步税」。多篇论文独立量化三类开销:EventTensor 测得 decode 每 kernel launch 5–10 µs、细粒度 op 边界同步吃掉 inter-kernel overlap;MoE-Serving-Tax 报告 MoE decode 相对 FLOP 对齐稠密基线常见 2–3× serving tax;BreakingTheIce / FaaScale 把冷启动拆成权重加载 / 编译 / KV 初始化各阶段。适用边界:大 batch prefill-heavy datacenter 场景下 compute 仍可能主导(NVIDIA-Disagg-Study 的 prefill pool 饱和时),但 agent / coding / 低 batch 交互负载下编排与同步占比最高——OSWorld-Human 甚至发现 planning/reflection 占端到端延迟 75–94%,系统优化需上移到 workflow 层。

2. vLLM / SGLang 已被当作基础设施而非研究对象,改动集中在 scheduler / IR / backend 插件层。17 篇 serving 论文几乎全部 fork 现有引擎:SpanQueries 492 行 Python、Stream2LLM 扩 streaming prompt、LAPS / LayeredPrefill 改 prefill 调度轴、ProfInfer 用 eBPF 挂 llama.cpp。DriftBench 进一步把「量化 / 并行 / 路由配置 drift」当作生产风险监测对象。共识成立前提是社区继续以 PagedAttention + continuous batching 为默认栈;若下一代 engine 推翻 block 粒度或 prefix-only 缓存语义,SpanQueries / ContextPilot 类工作需重做。

3. 生产 workload 异质性(RAG / agent / reasoning / multi-model)打破了「线性 chat history + prefix cache」默认假设SpanQueries 指出 RAG 第二次检索 prefix hit 仅 33%;TeleRAG / ContextPilot 分别优化 retrieval-to-generation 间隙与 context reuse;HELIOS / BOUTE 处理 multi-model 路由;SkipKV / MAC-Attention 面向 reasoning 长 CoT。观察在 fragment/candidate 跨请求稳定、且 KV working set 小于 GPU 容量时最稳;每次检索全新文档或 inner generate temperature=0 单候选时,commutative / span 优化收益趋零(SpanQueries 自述)。

4. MoE 已成独立系统议题轴,且 Kimi-K2 / DeepSeek-V3 级开源模型是默认评测基线。6 篇 MoE 专文 + MoE-aware 调度(CRAFTLayeredPrefill)共享观察:expert routing 引入 data-dependent 依赖、all-to-all 与 padding/straggler 抬高 tax、EP/TP 组合空间远大于稠密模型。FP8FlowMoE / FarSkip-Collective 分别从 cast 链路与架构改 skip 连接切入。适用边界:极小 batch 单请求 decode tax 可低至 ~1.05×(MoE-Serving-Tax Mixtral),不能外推到所有 serving 配置。

5. 分布式训练研究同步拥抱异构、弹性与 RL rollout,且 straggler / goodput 与 serving SLO 开始互相渗透HetRL / HexiScale / Zorse 处理跨地区异构 GPU;FlexTrain / Guard 做弹性 pipeline 与 grey node 管理;DistCA 把 attention 剥离成独立 server 池;DAS / ReSpec 把 speculative decoding 推进 RL 环。观察在 ≥128 GPU 预训练 / RL 集群上最稳;单机微调或 torch.compile 路径下 DP-ZeRO 类框架收益与 paper 假设可能偏离。

6. 可审计 / 可信 ML 从合规边缘进入主会议集群。9 篇联邦 / 隐私 / 可审计论文共享前提:部署环境将被第三方验证、配置 drift 可被挑战、GPU 执行需可复现。Hawkeye 逆向 Tensor Core 做 bit-exact CPU 复现;ZK-APEX 给 unlearning 做 ZK 证明;GPU-CC-Security 剖析 Hopper CC 攻击面;DriftBench 监测 serving 基础设施 drift。共识在「需要向监管者证明行为」的 edge / enterprise 场景成立;纯内部 benchmark 竞赛仍可能忽略这些约束。

互相冲突的假设

1. Prefill/decode Disaggregation 是否普适? NVIDIA-Disagg-Study 在数十万设计点上结论:prefill-heavy(ISL ≫ OSL)+ >10B 模型收益最大,decode-heavy 且 latency 不紧时 co-located 往往更好,固定 ctx:gen GPU 比会在 Pareto 一侧极好另一侧崩溃。相对地,LAPS / DistCA / TriInfer 把 disagg 当作解决长/短 prefill 隔离、attention 池化、多模态路由的默认工具。仲裁测量:在同一 trace 上同时扫 ISL/OSL 分布、FTL/TTL SLA、是否 prefix cache / speculative,对比 disagg vs Chunked-Prefill piggyback 的 Pareto 面积——尤其 MLA 模型 chunk 重算 overhead(NVIDIA-Disagg-Study 观察 5)可能逆转结论。

2. Serving 优化应下沉到 kernel/megakernel 还是留在 scheduler/IR 层? EventTensor 假设低 batch decode 的 launch + 边界同步是主瓶颈,需 compiler-first megakernel(MoE 1.23×、warmup 3.5×)。SpanQueries 假设同类瓶颈在 cache locality 与 attention haystack 长度,492 行 scheduler 改动即可 TTFT 10–20×,无需重写 GEMM。仲裁测量:在 batch 1–32、seq 4K–128K、MoE vs dense 矩阵上分解 TTFT 为 launch / KV miss / attention FLOPs / collective,判断哪项占 >50%。

3. Speculative-Decoding 端到端加速是否接近论文宣称的 2–5×? TiDAR / SpecDiff-2 / PRISM 报告 4–5× 级无损加速;SpecDecodeBench 在生产 vLLM 上显示 batch 1→128 时 EAGLE 从 1.73× 跌至 1.21×,verification 主导且 draft-model KV 可让 per-token 内存 1.77×仲裁测量:固定生产 batch 分布(非实验室 bs=1)、报告 p50/p99 TPOT、并分解 draft/verify/reject 时间;reasoning 模型需单独 trace(SpecDecodeBench case study 显示 acceptance 高度位置异质)。

4. KV-Cache 压缩 / eviction 能否「免费」换吞吐? Kitty(2-bit KV + 2.1–4.1× 吞吐)、FlexiCache(显存 -70%)、SkipKV(2× 压缩下准确率 +6.7%)假设 head/channel/句级稳定性允许激进压缩;MAC-Attention / BLASST 走 runtime skip 而非存储压缩。相对地 DriftBench 警告量化与配置 drift 可 silently 改变行为。仲裁测量:同一长上下文 QA / reasoning / code 任务上对齐 PPL、task accuracy、tail latency 三指标,而非只报平均 TPOT。

5. MoE routing skew 帮还是害? MoE-Serving-Tax 观察 skew routing 可减少激活 expert、反直觉加速;CRAFT / MoEBlaze 假设 skew 带来 padding/straggler 必须靠 replica 动态分配或无 buffer gather/scatter 消除;FarSkip-Collective 则改架构让 all-to-all 与计算重叠。仲裁测量:在真实 trace(非均匀 synthetic token 分布)上同时测 EP AllToAll 时间、active expert 数、P99 step latency,分离「带宽节省」与「straggler 惩罚」两项。

6. AI4AI 自动 kernel 生成是否已可替代人类专家? AccelOpt / PIKE / LLaMEA-KernelTuner 报告匹配或超越人工 baseline;FlashInfer-Bench 强调 reward hacking 与动态 apply() 注入才是闭环关键;EventTensor 承认 compiler-generated GEMM tile 仍不如 cuBLAS。仲裁测量:在 FlashInfer-Bench / KernelBench 上报告 pass@k、% of roofline、跨硬件迁移成功率,而非单次 best speedup。

7. Agent 系统瓶颈在 serving 还是在 planning/memory? MorphServe / SuperInfer / OptiKit 假设 GPU serving 调度与 KV 是 SLO 主因;OSWorld-Human 测得 planning/reflection 占 75–94% 延迟;HIPPOCAMPUS / AgenticCache 假设异步 planning + 记忆结构才是突破口。仲裁测量:端到端 agent trace 上做 latency waterfall,区分 LLM call 内 TTFT/TPOT vs 工具 / 规划 / 记忆检索;高 fan-out nested generation 场景下 SpanQueriesFlashAgents 结论可能同时成立但作用于不同段。

值得关注的方向

1. Span Query 风格的 declarative serving IR 研究

为什么小团队能做SpanQueries 证明 492 行改动就能让 2B 模型准确率超过 stock 8B——核心难度不在写代码,而在设计声明式语义。适合 1-2 人深挖数月。

指向空白的论文SpanQueries 只覆盖了 chat / RAG / inference-scaling / agent 四个场景;Stream2LLM 的 streaming prompt 语义没进 IR;FlashInfer-Bench 的 trace schema 是命令式的;ApproxMLIR 面向 compound pipeline 但未统一 serving API。

Open problems:能否把 agent 的 tool-calling 循环、speculative decoding 的 acceptance 逻辑也纳入 span query IR?在 MTraining 这类长上下文训练场景里 span query 能否表达 context parallelism 的 locality?

2. Speculative decoding 的 reality-check / benchmark 生产力

为什么小团队能做SpecDecodeBench 的核心贡献不是新算法而是「对生产环境的严格测量」——单张 H100 或 2-4 张就能跑,主要工作是实验设计和数据收集。

指向空白的论文SpecDecodeBench 暴露了 position / request / dataset 三层异质性但只给出粗粒度分析;DAS 专门针对 RL rollout 的长尾;SparseSpecTiDAR 走不同技术路线但缺乏对比;ReSpec 把 speculative 推进到训练环但缺乏 serving 端到端数据。

Open problems:在 reasoning 模型(o1 / R1 风格长 CoT)上 speculative 的 acceptance 如何演化?long-context(>64K)下 draft 模型该不该共享 KV?扩散 drafter(SpecDiff-2 / TiDAR)在真实 vLLM 上的端到端开销如何?

3. Agent memory 的 benchmark 与系统化度量

为什么小团队能做HIPPOCAMPUS 用单机就跑完全部 benchmark(LoCoMo / LongMemEval);OSWorld-Human 的人类金轨迹标注是劳动密集而非算力密集。

指向空白的论文HIPPOCAMPUS 的 Dynamic Wavelet Matrix 给了一个具体内存数据结构,但没有与 vector DB / KV agent state / knowledge graph 的系统对比;Tag2Graph 的 ontology-guided 图记忆缺乏 serving 延迟分析;OSWorld-Human 发现 planning/reflection 占 75-94% 延迟但没给出 agent 内部 KV 复用的系统方案。

Open problems:agent workflow 里「trajectory cache」的正确抽象是什么(KV-Cache 的 agent 版本)?跨 agent session 的 long-term memory 是否应该像 LEANN 那样不存而现算?FlashAgents 的 streaming prefill 能否与 AgenticCache 的异步 planning 统一?

4. 可审计 ML 的轻量级工具链

为什么小团队能做Hawkeye 全部用公开 PTX benchmark;ZK-APEX 的 Halo2 proof 在单机 <0.7 GB 内存;DriftBench 的 drift 监测可在现有 serving 栈上叠加。

指向空白的论文Hawkeye 覆盖 FP16/BF16/FP8 16×16 MMA 但没覆盖 block-scaled fp4(Blackwell)、非方阵 MMA、Transformer Engine 的在线 rescaling;ZK-APEX 只做 unlearning,没做训练过程证明;DriftBench 聚焦量化 drift 但未覆盖 MoE routing 变化。

Open problems:能否给 MoE routing 做 ZK 证明(expert 选择不作弊)?能否在 confidential computing GPU 上运行带 attestation 的 speculative decoding?能否把 Hawkeye 扩展成「任何 GPU kernel 的 spec 级可复现性」的通用工具?

5. MoE 调度在非训练 / 非推理的第三空间

为什么小团队能做:MoE 系统研究以往需要 trillion 参数模型,但 CRAFTFarSkip-Collective 都用 DeepSeek-V2-Lite (16B) / Qwen-3-30B 做验证——2-4 张 H100 足够。

指向空白的论文CRAFT 只处理 replication 不处理 routing;FarSkip-Collective 改架构需要额外蒸馏;EventTensor 解决编译但不解决调度;MoE-Serving-Tax 定量分析但未给出自动优化器。

Open problems:MoE + speculative decoding 如何协同(draft 和 verify 的 expert 激活重叠率?)?MoE + RAG 缓存命中(哪些 expert 用于哪类 query)?MoE continuous batching 的 expert 预取调度?

6. Serverless / 冷启动 / 容错 serving 的轻量方案

为什么小团队能做BreakingTheIceGhostServe 的核心是测量 + 轻量机制,不需要大规模集群;ProfInfer 用 eBPF 挂 llama.cpp,开销 <4%。

指向空白的论文BreakingTheIce 剖析 vLLM 冷启动但未给出通用 warm-pool 策略;FaaScale 的 RDMA 权重广播依赖特定网络栈;RaidServe 的 KV 冗余与 GhostServe 的 erasure coding 未统一抽象。

Open problems:serverless LLM 的「分层冷启动」(权重 / KV / compiler cache)最优策略是什么?容错 serving 能否在 tensor parallel 和 pipeline parallel 之间做 trade-off 而不牺牲 SLO?BEAM 的 DVFS 能否与 MorphServe 的 runtime 精度切换协同?