GMI-DRL: Empowering Multi-GPU DRL with Adaptive-Grained Parallelism (ATC 2025)
一句话总结:把 GPU 切成大小可调的子 GPU(GMI),按 DRL 异构任务自适应映射 + 高效 inter-GMI 通信,DGX-A100 上训练吞吐提升至 2.34×、GPU 利用率提升 40.8%。
问题
DRL 训练在多 GPU 平台(如 DGX-A100)上利用率低:
- DRL 由 Simulator / Agent / Trainer 三种异构组件组成,计算模式差异大(物理仿真 vs GEMM)
- 简单增大 batch size(fine-grained parallelism)超过阈值反而吞吐下降——不同组件竞争固定 GPU 资源
- 现有 GPU 空间复用(MPS、MIG)只针对独立同构任务(如 DNN serving),缺少 sub-GPU 间通信支持
核心方法
提出 Adaptive-Grained Parallelism (AGP):让 GPU 资源大小适配 workload 而非反过来。引入 GPU Multiplexing Instance (GMI) 作为统一可调资源的 sub-GPU 抽象。
三个组件:
- Adaptive Coordinator:task-aware GMI mapping,针对 DRL serving / synchronized training / asynchronized training 各自分析 DP-MP / MP-DP / DP-only / DP-MP(EA-T) / DP-MP(E-AT) 等映射模板,结合 resource-performance 模型量化吞吐(DRL serving 中 DP-only 比 MP-DP 高 ~2.5×;同步训练 DP-only 比 DP-MP(EA-T) 高 ~5×);workload-GMI 联合优化 num_env 和 GMIperGPU
- Specialized Communicator:处理 inter-GMI 通信(intra-GPU 与 inter-GPU),latency-optimized inter-trainer 同步与 throughput-optimized 经验共享
- GMI-centric programming support:方便 DRL-like 应用按 GMI 切分
深度细节回 atc2025-wang-yuke。
关键结果
- 训练吞吐相对 SOTA(Isaac Gym + MSRL)提升至 2.34×
- GPU 利用率提升 40.8%
- 在 Anymal / Humanoid 等多个 PPO benchmark 上一致改进