<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0">
    <channel>
      <title>Awesome System Papers Wiki</title>
      <link>https://awesome-system-papers.pages.dev</link>
      <description>最近的10条笔记 on Awesome System Papers Wiki</description>
      <generator>Quartz -- quartz.jzhao.xyz</generator>
      <item>
    <title>Disaggregation</title>
    <link>https://awesome-system-papers.pages.dev/concepts/Disaggregation</link>
    <guid>https://awesome-system-papers.pages.dev/concepts/Disaggregation</guid>
    <description><![CDATA[ Disaggregation 把 LLM 推理的 prefill（prompt 全部一次性算 KV）与 decode（一次一个 token）拆到不同的 GPU/节点上，让两类工作各自在适合的硬件配置上跑。代价：每个请求要在两组 GPU 之间传 KV-Cache，所以高效的 P2P 通信（RDMA）是 enabler。 核心思想 LLM 推理两个阶段计算特性截然不同： 阶段计算特性硬件偏好Prefillcompute-bound（一次算完整个 prompt 的 K/V/O，并行度高）高算力 GPU、大 SM 数Decodememory-bound（每步算一个 token，HBM 带宽是瓶颈）高 ... ]]></description>
    <pubDate>Fri, 24 Apr 2026 09:47:48 GMT</pubDate>
  </item><item>
    <title>KV-Cache</title>
    <link>https://awesome-system-papers.pages.dev/concepts/KV-Cache</link>
    <guid>https://awesome-system-papers.pages.dev/concepts/KV-Cache</guid>
    <description><![CDATA[ KV-Cache LLM 推理的核心内存对象。自回归生成每个 token 时，attention 都要看历史所有 K/V；缓存它们避免重新计算，但也带来巨大的内存压力和复杂的管理问题——围绕 KV cache 的优化几乎是过去三年 LLM serving 论文的主线之一。 核心思想 Transformer 的 self-attention 在 decode 步骤需要把当前 query 与所有过去 token 的 key/value 做 dot-product。如果每步都重算所有过去 K/V，复杂度是 O(L²)。 KV cache 把每个 token 在每层每个 head 的 K/V 算一次后... ]]></description>
    <pubDate>Fri, 24 Apr 2026 09:47:48 GMT</pubDate>
  </item><item>
    <title>MoE</title>
    <link>https://awesome-system-papers.pages.dev/concepts/MoE</link>
    <guid>https://awesome-system-papers.pages.dev/concepts/MoE</guid>
    <description><![CDATA[ MoE (Mixture of Experts) 用 router + 多个稀疏激活的 expert 子网络替代单个大 FFN，让模型参数量与每 token 计算量解耦——成为 2024 起 frontier LLM 的事实标配（DeepSeek-V3、Qwen3MoE、GLM-4.5、Kimi-K2 都是 MoE）。但 MoE 的负载均衡和通信效率是系统层最棘手的问题之一。 核心思想 经典 dense transformer：每层一个大 FFN，所有 token 走同样路径。 MoE：每层换成 N 个小 FFN（experts）+ 一个 router；每个 token 由 router 选 ... ]]></description>
    <pubDate>Fri, 24 Apr 2026 09:47:48 GMT</pubDate>
  </item><item>
    <title>PagedAttention</title>
    <link>https://awesome-system-papers.pages.dev/concepts/PagedAttention</link>
    <guid>https://awesome-system-papers.pages.dev/concepts/PagedAttention</guid>
    <description><![CDATA[ PagedAttention 把 KV-Cache 当 OS 虚存分页管理。每个 sequence 的 KV 不连续存放，而是切成固定大小的 block，用一张 block table 把逻辑位置映射到物理 block——消除内外部碎片，并自然支持 copy-on-write 的 prefix 共享。这是 vLLM 的核心 contribution，也是后续大量 LLM serving 系统的事实基线。 核心思想 传统 KV cache 实现：每个 sequence 在 HBM 里预分配 max_seq_len × hidden_size × 2 的连续内存。问题： 内部碎片：实际生成长度远小... ]]></description>
    <pubDate>Fri, 24 Apr 2026 09:47:48 GMT</pubDate>
  </item><item>
    <title>Speculative-Decoding</title>
    <link>https://awesome-system-papers.pages.dev/concepts/Speculative-Decoding</link>
    <guid>https://awesome-system-papers.pages.dev/concepts/Speculative-Decoding</guid>
    <description><![CDATA[ Speculative Decoding 用一个轻量 draft model（或同模型的 self-speculation）连续预测 K 个 token，再用 target model 一次性 forward 验证。命中的 token 直接保留，第一个不命中的位置重采样。本质：用并行验证取代 K 次串行解码，在不损失分布的前提下把单次 latency 拉低 1.5–4×。 核心思想 LLM 自回归 decode 的瓶颈是「memory-bound 串行」——单 batch 一次只生成一个 token，HBM 带宽被多次低利用率的 forward 浪费。 Speculative decoding... ]]></description>
    <pubDate>Fri, 24 Apr 2026 09:47:48 GMT</pubDate>
  </item><item>
    <title>MLSys-2026</title>
    <link>https://awesome-system-papers.pages.dev/conferences/MLSys-2026</link>
    <guid>https://awesome-system-papers.pages.dev/conferences/MLSys-2026</guid>
    <description><![CDATA[ MLSys 2026 79 篇论文，KV-Cache / attention / Speculative-Decoding 三条 LLM 推理主线占 ~30%，MoE 训练与推理加 MoE 友好的调度是本届最密集的新共识，AI4AI（LLM 自动生成 kernel / HDL / 优化算法）正从 OSDI/SOSP 溢出到 MLSys，联邦学习与可审计 ML（ZK、GPU-CC、确定性复现）形成独立集群。 概览 LLM 推理系统仍是中心引力场。围绕 serving 的调度、disaggregation、attention kernel、KV cache、speculative decoding... ]]></description>
    <pubDate>Fri, 24 Apr 2026 09:47:48 GMT</pubDate>
  </item><item>
    <title>SGLang</title>
    <link>https://awesome-system-papers.pages.dev/entities/SGLang</link>
    <guid>https://awesome-system-papers.pages.dev/entities/SGLang</guid>
    <description><![CDATA[ SGLang 主流 LLM serving 框架之一，以 RadixAttention（基于 radix tree 的 prefix sharing）和结构化生成 DSL 为标志，在 MoE / 长 prompt / agent 场景常被作为 vLLM 的替代或对照。 是什么 SGLang 由 LMSYS 团队开发（Zheng et al.，最初发表于 NeurIPS 2024 / OSDI 2025）。核心设计： RadixAttention：用 radix tree 表达 prefix tree，KV cache 自然按公共前缀复用 Structured generation DSL：把多... ]]></description>
    <pubDate>Fri, 24 Apr 2026 09:47:48 GMT</pubDate>
  </item><item>
    <title>vLLM</title>
    <link>https://awesome-system-papers.pages.dev/entities/vLLM</link>
    <guid>https://awesome-system-papers.pages.dev/entities/vLLM</guid>
    <description><![CDATA[ vLLM UC Berkeley 提出的高吞吐 LLM serving 框架，PagedAttention 的起源，是当前 open-source LLM inference 事实标准之一。 是什么 vLLM 由 UC Berkeley Sky Lab（Kwon, Stoica 等）于 2023 年 SOSP 提出。核心 contribution 是 PagedAttention——把 KV cache 当 OS 虚存分页管理，消除内外部碎片，让单 GPU 吞吐相比 FasterTransformer 提升 2-4×。 vLLM 之后快速演化为社区生态：支持 continuous batchi... ]]></description>
    <pubDate>Fri, 24 Apr 2026 09:47:48 GMT</pubDate>
  </item><item>
    <title>index</title>
    <link>https://awesome-system-papers.pages.dev/</link>
    <guid>https://awesome-system-papers.pages.dev/</guid>
    <description><![CDATA[ Wiki Index 最后更新: 2026-04-24 本 wiki 是所有 LLM 生成的综合层，跨论文的实体、概念、比较、主题页都住在这里。Raw sources（papers/ 和 markdowns/）不属于 wiki，它们是 wiki 的材料。 Conferences MLSys-2026 — 79 篇 | KV/attention/speculative 三线占 ~30%，MoE 与 AI4AI 成建制进入，可审计 ML 集群化 Entities Systems vLLM — UC Berkeley 高吞吐 LLM serving 框架，PagedAttention 起源 SGLa... ]]></description>
    <pubDate>Fri, 24 Apr 2026 09:47:48 GMT</pubDate>
  </item><item>
    <title>log</title>
    <link>https://awesome-system-papers.pages.dev/log</link>
    <guid>https://awesome-system-papers.pages.dev/log</guid>
    <description><![CDATA[ Wiki Log 每条条目格式固定：## [YYYY-MM-DD] {Page or Action}，便于 grep &quot;^## \[&quot; wiki/log.md | head -20 解析。倒序排列，最新在上。 [2026-04-24] Finance 综述生成 生成:[Finance] 聚合 4 篇 paper wiki 页(全部新建,从 markdowns/finance 提取):101-Alphas-arXiv15、151-Trading-Strategies-SSRN18、TimesFM-Fin-arXiv24、RD-Agent-Quant-arXiv25 分类 3 ... ]]></description>
    <pubDate>Fri, 24 Apr 2026 09:47:48 GMT</pubDate>
  </item>
    </channel>
  </rss>