Automated Algorithm Design for Auto-Tuning Optimizers (MLSys 2026)

一句话总结:用 LLM(LLaMEA)进化生成 Kernel Tuner 优化算法而非手写 SA/GA;在 BAT 四内核×六 GPU 上,最佳生成算法相对 OpenTuner 等 SOTA 平均 72.4% performance score 提升,注入应用/搜索空间信息分别再 +30.7%/+14.6%,证明 auto-tuning 搜索策略本身可被 LLM 自动设计。

问题与动机

Auto-tuning(CUDA/OpenCL kernel 参数)搜索空间巨大、噪声、非凸;经典 SA/GA/PSO 需精心调超参且非为 auto-tuning 形态设计。能否用 LLM 生成专用优化器代码并在真实 compile-run-measure 循环中筛选?

关键观察 / 隐含假设

  • 观察 1:搜索空间不规则性使「通用元启发式」浪费评估预算;问题结构(维度、约束、compute/bandwidth bound)应进入生成 prompt。

    • 依赖假设:Willemsen et al. autotuning methodology 的 P score 可跨空间聚合比较。
    • 可能失效场景:新 GPU 架构未在 training set 出现时泛化靠 test set 12 空间验证,覆盖仍有限。
  • 观察 2:LLM 生成错误算法在 EA 中自然淘汰(低 P score),无需人工语法修复为主路径。

    • 依赖假设:stacktrace 反馈足以自修复;Kernel Tuner OptAlg 接口表达力足够。
    • 可能失效场景:编译失败率极高时 EA 样本效率差;LLM API 成本与延迟。
  • 观察 3:decoupled「只生成 optimizer、不改 kernel」保证数值正确性与可复现。

    • 依赖假设:搜索空间 X 用户固定;生成器不扩空间。
    • 可能失效场景:最优策略需改搜索空间结构(BaCO hidden constraints)时 LLM 无法触及。

核心方法

LLaMEA + Kernel Tuner 闭环:4 父代 + 12 子代/代;LLM 按 prompt 生成 OptAlg 子类;在训练集 12 搜索空间(4 app×3 GPU:MI250X/A100/A4000)用 P score 评估;mutation prompts 平衡探索/利用。

Prompt 变体:基础 / +应用描述 / +搜索空间维度与约束。

评估:BAT dedispersion、convolution、hotspot、GEMM;测试集另 3 GPU(W6600/W7800/A6000)防记忆化;预穷举空间模拟加速候选评估。

最佳算法并入 Kernel Tuner 上游。

设计取舍

  • LLM 成本 vs 一次生成长期复用:生成贵,摊销到多次 tuning session。
  • EA 种群小 vs 大:4+12 够发现强算法,可能漏罕见结构。
  • 模拟评估 vs 真跑:快但可能 mis-rank 噪声大空间。
  • 边界条件:GPU kernel auto-tuning;CPU/分布式训练调度未涉及。

实验与结果

  • 最佳生成算法 vs OpenTuner 等:+72.4% 平均 P(跨测试空间)。
  • +application info:+30.7%;+search space info:+14.6%(相对基础 prompt)。
  • 个案:dedispersion、GEMM 等显著领先经典 SA/GA/PSO 与 Bayesian 路线。

Critical Analysis

论证链条

「optimizer 可自动生成」→ 闭环 EA 证据充分。72.4% 是 methodology P 相对提升,非绝对 wall-clock 倍率,读者需区分。

假设压力测试

新 kernel 类型需重新跑 LLaMEA;LLM 版本漂移导致不可复现;生成算法可读性与可维护性差。

实验可信度

train/test GPU 分离较好;BAT 代表 HPC 但非 ML 训练全流程。缺与 human-tuned 专家长时间竞赛。

系统性缺陷

LLM 调用成本与环境依赖;生成代码安全审计;论文未讨论 multi-objective(能耗+时间)。

局限与 Future Work

  • 局限:四 BAT kernel、24 空间;生成成本与 API 依赖;可解释性弱。
  • Future work:约束感知生成(invalid config 预判);与 BaCO 结合;ML 训练 graph 级 auto-tuning。

相关