DeepServe: Serverless Large Language Model Serving at Scale (ATC 2025)

一句话总结:华为云在 Ascend NPU 大集群上落地的 serverless LLM 平台,提出 request-job-task 抽象 + 自研 FlowServe 引擎 + PD-aware 调度 + NPU-fork 快速扩缩,可在数秒内并行扩到 64 实例。

问题

云上 MaaS 平台同时承载长任务(fine-tuning,几小时到几天)和短任务(chat、agent,秒到分钟),还需保证 SLO。三大挑战:1) 工作负载粒度差异大,资源共享调度难;2) KV-Cache 复用、PD-disaggregation 让 serving 变成有状态分布式;3) 流量波动剧烈,冷启动延迟高。已有开源系统(KServe、AIBrix、Dynamo 等)大多面向 GPU 集群,没有 NPU 集群和 post-training + serving 混部的统一抽象。

核心方法

四大组件:

  • Serverless 抽象:request-job-task 三层模型。Job Executor (JE) 把请求拆成 task 派发给 Task Executor (TE),Cluster Manager 统一管控扩缩与健康。
  • FlowServe 引擎:微内核架构 + NPU-centric 执行 + SPMD 设计。Master 负责调度/缓存/网络决策,每个 NPU 上的 executor 执行模型 forward。包含 Relational Tensor Cache (RTC) 统一管理 prefix caching(含 Chunked-Prefill)和 position-independent caching;DistFlow 跨 TE peer-to-peer 传 tensor,scaled-out 走 HCCL P2P,scaled-up CloudMatrix384 SuperPod 直接走共享内存拷贝。支持 PD-disaggregated 与 PD-colocated 两种部署。
  • 分布式调度:locality-aware(prompt-tree 选 KV cache 命中最长的 TE)+ PD-aware(基于 prefill/decode 长度热图选择 disagg 还是 coloc,decode 长度由 84.9% 准确率的预测模型给出)+ load-aware 三者组合。
  • 快速扩缩:pre-warmed Pods/TEs(与 model/parallelism 无关)、DRAM 预加载 safetensors、NPU-fork(用 HCCS 高速链路从已运行 TE 复制权重)。

深度细节回 atc2025-hu-junhao

关键结果

  • 已在生产运行 1 年以上,落地 Huawei Cloud Ascend 大集群
  • FlowServe v1→v2 异步调度 + IPC 优化使 TPOT 50ms SLO 下吞吐提升 2×;v2→v3 数据结构与 sampling 优化再提升约 20%
  • TE pre-warming 把 TE-Pre-Load 时间减少约 35%,并将其移出关键路径
  • NPU-fork 通过 HCCS 链路扩到 32 个 TE 仍保持高带宽,可秒级并行扩到 64 实例
  • PD-aware 调度在中等 RPS(10 reqs/s)下 JCT 优于 round-robin

相关