ACCELERATING SPARSE ATTENTION FOR VISUAL GENERATIVE MODELS WITH DUAL-BALANCED SEQUENCE PARALLELISM (MLSys 2026)

一句话总结:DiT 推理中 block-wise Sparse-Attention + Ulysses/Ring-Attention 会在 head 级与 block 级产生 ρ_s>1.5 负载失衡(8×A800 上 Wan2.1-14B 仅 6.09× 理想加速);db-SP 用双层 greedy 划分 + 运行时 Ulysses×Ring 策略选择,端到端 1.25×、attention 1.40× 于 SOTA SP。

问题与动机

视觉 DiT 视频生成 attention 占 >50% 延迟;block sparse attention 单卡仍太慢(Wan2.1-14B + PAROAttention >15 min/video A800)。Sequence-Parallelism 可扩 token,但现有 Ulysses(按 head)、Ring(按 sequence/block)未考虑稀疏 mask 不均:head 间稀疏度不同、mask 内 dense block 分布不规则,导致 straggler GPU。

关键观察 / 隐含假设

  • 观察 1:稀疏不平衡比 ρ_s = max load / avg load 在 Ulysses 8 GPU 上可达 1.513(Wan2.1-14B SpargeAttn),8→1 GPU 端到端仅 6.09×(Ulysses)/ 5.81×(Ring)。

    • 依赖假设:workload ≈ 各 head dense block 总数;block size 为 SM 整数倍以复用 dense kernel。
    • 可能失效场景:动态 online sparse(每步变 mask)使划分缓存失效,需重分区。
  • 观察 2:head 级与 block 级失衡耦合,但「每层可近似独立达到近完美 balance」可作为解耦先验。

    • 依赖假设:先 head partition 再 block partition 的序贯贪心足够接近联合最优。
    • 可能失效场景:极强跨 head 相关稀疏模式时序贯次优。
  • 观察 3:跨 denoising step/layer 稀疏模式相似,可复用划分降 reorder/通信开销。

    • 依赖假设:相邻 step mask 相似度高。
    • 可能失效场景:SpargeAttn 等动态方法相似度低时需频繁重划。
  • 假设 1:latency predictor 可为每组 attention 选最优 (Ulysses degree, Ring degree)。**

    • 证据强度——平均 1.25× E2E;predictor 校准质量决定鲁棒性。

核心方法

ρ_s 形式化:量化 SP 下稀疏 attention 负载不均。

Dual-balanced partitioning:head 级 greedy 均衡各 GPU dense block 数;block 级 biased greedy(reward factor 抑通信)在理想 head balance 假设下再均衡。

Runtime strategy selection:预测各 (UxRy) 计划延迟,动态选 Ulysses×Ring 组合(类似 USP)。

实现:github.com/thu-nics/db-SP。

设计取舍

  • Reorder/All-to-all 开销 vs balance 收益:贪心+mask 相似性缓存压低 overhead。
  • 序贯双层 vs 联合优化:实现可扩展,极端 mask 可能次优。
  • vs BurstAttention 均匀切 block:小块切分毁 kernel 效率(§6.2),不适合视觉质量所需小 block。
  • 边界条件:Wan/CogVideoX 等 DiT;8×A800 为主。

实验与结果

  • 平均端到端 1.25×、attention 1.40× vs SOTA SP(Ulysses/Ring/USP)。
  • ρ_s 表:多模型多 sparse 方法上 db-SP 显著降不平衡。
  • 8 GPU scaling:显著优于 baseline 欠理想线性。

Critical Analysis

论证链条

SP+sparse → 双层失衡 measurable → 解耦贪心+策略选择 → E2E 加速,链条完整。Predictor 错误可能导致选错并行策略——论文需依赖校准。

假设压力测试

更长视频、更多 GPU、PCIe 机器通信 dominate 时增益可能缩小。与量化/cache(SageAttention 等)正交但未联合测。

实验可信度

对比 USP 等强 baseline;多模型。缺:与 StreamDiffusionV2 级 streaming SLO 场景结合。

系统性缺陷

论文未讨论 partition 失败 fallback、多租户并发 DiT serving。动态 sparse worst-case 重划频率未量化。

局限与 Future Work

  • 局限 1:强动态 sparse 时相似性假设变弱。
  • 局限 2:predictor 跨硬件迁移需重训。
  • Future work 1:联合 predictor + 在线 ρ_s 反馈的自适应重划阈值。
  • Future work 2:与 TokenWeave/TP 异构并行共存 profile。

相关