Barre: Empowering Simplified and Versatile Programmable Congestion Control in High-Speed AI Clusters (ATC 2025)

一句话总结：ByteDance 在 BlueField-3 SuperNIC PCC 上实现的简化 rate-based AIMD CC，用 Fast Increase / Dual-lock / Inflight Monitor 三件套补齐 RDMA per-flow 控制不足，部署 10K GPU 一年以上、AI 训练吞吐平均 +9.6%。

问题

400Gbps RoCEv2 AI 集群仍主要用 2015 年的 DCQCN，调参困难、congestion 响应慢、易触发 PFC。先进 CC 算法（HPCC 需 INT、Swift 需复杂 sqrt 计算、Poseidon 也存在 inflight byte 控制问题）部署门槛高，与现代商用 NIC/switch 不兼容。同时 AI 训练里 AlltoAll 占 60% 流量、SendRecv/AllReduce 各有不同 latency/bandwidth 需求，需要 broad applicability + simple logic + implementation practical 的统一框架。

核心方法

Barre 在 BlueField-3 PCC（Programmable Congestion Control）上实现 event-driven CC：

Adaptive Adjustment Interval：以 CNP 作为 congestion signal（避开 RTT baseline 难定问题），real-time RTT 决定增长间隔；Per-CNP-based 微小衰减（β 取 0.95–0.99）实现自然 fairness。
Fast Increase：连续 K 次 RTT 未收 CNP 则切到大步长 A（≈ NIC 带宽 1/1000），平衡 mice flow 快收敛和 elephant flow 稳定性。
Dual-lock：把 DCQCN 的 ByteCounter “OR” Timer 改为 “AND”，缓解高低速流间的不公平、严重拥塞下的过冲。
Inflight Monitor：用 PCC TX event 累计 RTT 内发送字节，超过 R×RTT 时立即降到 1/4，弥补 RDMA 缺乏 inflight byte 控制。
RTT-based Enhancement：给 RTT probe 加序列头/双时间戳防丢包错配，用 RTT 比例缩放每流 α 做 path-length-aware fairness。

详细 algorithm 1 和 fluid model 分析见 atc2025-peng-yajuan。

关键结果

256-GPU NCCL AlltoAll：交换机队列长度平均 -16.45%（最高 -21.79%）
大规模测试 vs DCQCN：延迟平均 -55.89%，带宽利用 +15%；与 InfiniBand 性能基本持平
实际训练任务吞吐平均 +9.6%
已部署 10K+ GPU 跨 4 层交换机一年以上，0 次 PFC 触发
4 颗 RISC-V core 可处理 10M congestion events/s

Awesome System Papers Wiki

探索

Barre-ATC25

Barre: Empowering Simplified and Versatile Programmable Congestion Control in High-Speed AI Clusters (ATC 2025)

问题

核心方法

关键结果

相关

关系图谱

目录

反向链接