PPipe: Efficient Video Analytics Serving on Heterogeneous GPU Clusters via Pool-Based Pipeline Parallelism (ATC 2025)

一句话总结：在异构 GPU 集群上用 pool-based pipeline parallelism 给 CNN 视频分析做模型分区服务，MILP 解最优分区 + 资源预留式自适应 batching，相对各 baseline 提升吞吐 32.2–75.1%、低端 GPU 利用率提升 41.1–65.5%。

问题

视频分析依赖 CNN（YOLO、ResNet、EfficientNet 等）做 200ms SLO 的实时推理。云厂商和私有集群 GPU 越攒越异构（V100、L4、T4、P4 共存），但低端 GPU（如 P4）单独跑大模型连 SLO 都满足不了——P4 比 L4 慢 3.0×–7.9×，仅 22% DNN 在 P4 上 batch=4 不超 200ms。

直觉上把模型切给低端 GPU 跑一部分会拖慢，但作者发现两种 diversity 的协同：(1) DNN 不同层在不同 GPU 上的相对 latency 差异巨大（EfficientNet-B8 早期层在 P4/L4 上 latency ratio 仅 1.7，后期层显著更高）；(2) 不同 GPU 设计 trade-off（SM 数、ops:bytes ratio）让 latency ratio 趋势在 P4 vs L4 和 P4 vs V100 上甚至完全相反。结论：GPU-aware 模型分区 + 让每段跑在它最擅长的 GPU 类型上可以挖出低端 GPU 的潜力。

但 chain pipeline（如训练用的 Pipeline-Parallelism）要求各 stage latency 严格匹配，约束太死。

核心方法

Pool-based pipeline parallelism：每个 partition 不是绑定一个 GPU 而是一个 pool of GPUs（同类型）。每个请求按序经过所有 partition，但在每个 partition 可走 pool 内任意 GPU。允许各 pool 用不同 GPU 数、不同 batch size、不同 latency，只要各 pool throughput 匹配且总 latency 满足 SLO。

控制面（MILP）：给定每模型每层在每 GPU 类型每 batch size 下的 profile、集群 GPU 数、SLO，输出最优分区点 + GPU pool 分配 + 各 pool batch size，目标最大化 throughput。

减搜索空间：把 600+ 层 pre-partition 成 N=10 个等运行时 block，MILP 只在 block 边界选分区点（求解时间从 7h 降到 3.5s）
Batch size unification：用 1/1、1/2、1/3、1/4 virtual GPU（MPS 实现）让同一 pipeline 各 partition 用相同 batch size，避免 batch split/merge 的复杂度

数据面（resource-reservation adaptive batching）：runtime 请求是异步且 bursty 的，会引入 D1 初始 batching 延迟、D2 inter-partition 排队、D3 网络竞争。scheduler 维护当前与未来 GPU/网络资源占用，对每批请求：(1) 用 probe() 找 waiting time 最低的 pipeline；(2) 从 MILP batch size 起逐渐缩小直到 SLO 能满足；(3) reserve() 占用对应资源 interval。probe() 贪心选每段最早完成的 GPU，同时考虑 uplink/downlink 带宽 simultaneity 约束。深度细节回 atc2025-kong。

关键结果

100-GPU 模拟 + 16-GPU GCP testbed（V100/L4/T4/P4）实测，18 个 CNN 模型
相对各 baseline 提升 throughput 32.2–75.1%
低端 GPU 利用率提升 41.1–65.5%，同时维持高端 GPU 利用率
99% 请求无 drop / 无 SLO 违反
MILP 求解从 7 小时（80 层直接搜）降到 3.5s（pre-partition + virtual GPU）

Awesome System Papers Wiki

探索

PPipe-ATC25

PPipe: Efficient Video Analytics Serving on Heterogeneous GPU Clusters via Pool-Based Pipeline Parallelism (ATC 2025)

问题

核心方法

关键结果

相关

关系图谱

目录

反向链接