GMI-DRL: Empowering Multi-GPU DRL with Adaptive-Grained Parallelism (ATC 2025)

一句话总结：把 GPU 切成大小可调的子 GPU（GMI），按 DRL 异构任务自适应映射 + 高效 inter-GMI 通信，DGX-A100 上训练吞吐提升至 2.34×、GPU 利用率提升 40.8%。

问题

DRL 训练在多 GPU 平台（如 DGX-A100）上利用率低：

提出 Adaptive-Grained Parallelism (AGP)：让 GPU 资源大小适配 workload 而非反过来。引入 GPU Multiplexing Instance (GMI) 作为统一可调资源的 sub-GPU 抽象。

三个组件：

Adaptive Coordinator：task-aware GMI mapping，针对 DRL serving / synchronized training / asynchronized training 各自分析 DP-MP / MP-DP / DP-only / DP-MP(EA-T) / DP-MP(E-AT) 等映射模板，结合 resource-performance 模型量化吞吐（DRL serving 中 DP-only 比 MP-DP 高 ~2.5×；同步训练 DP-only 比 DP-MP(EA-T) 高 ~5×）；workload-GMI 联合优化 num_env 和 GMIperGPU
Specialized Communicator：处理 inter-GMI 通信（intra-GPU 与 inter-GPU），latency-optimized inter-trainer 同步与 throughput-optimized 经验共享
GMI-centric programming support：方便 DRL-like 应用按 GMI 切分

深度细节回 atc2025-wang-yuke。