Automated Algorithm Design for Auto-Tuning Optimizers (MLSys 2026)
一句话总结:用 LLM(LLaMEA)进化生成 Kernel Tuner 优化算法而非手写 SA/GA;在 BAT 四内核×六 GPU 上,最佳生成算法相对 OpenTuner 等 SOTA 平均 72.4% performance score 提升,注入应用/搜索空间信息分别再 +30.7%/+14.6%,证明 auto-tuning 搜索策略本身可被 LLM 自动设计。
问题与动机
Auto-tuning(CUDA/OpenCL kernel 参数)搜索空间巨大、噪声、非凸;经典 SA/GA/PSO 需精心调超参且非为 auto-tuning 形态设计。能否用 LLM 生成专用优化器代码并在真实 compile-run-measure 循环中筛选?
关键观察 / 隐含假设
-
观察 1:搜索空间不规则性使「通用元启发式」浪费评估预算;问题结构(维度、约束、compute/bandwidth bound)应进入生成 prompt。
- 依赖假设:Willemsen et al. autotuning methodology 的 P score 可跨空间聚合比较。
- 可能失效场景:新 GPU 架构未在 training set 出现时泛化靠 test set 12 空间验证,覆盖仍有限。
-
观察 2:LLM 生成错误算法在 EA 中自然淘汰(低 P score),无需人工语法修复为主路径。
- 依赖假设:stacktrace 反馈足以自修复;Kernel Tuner OptAlg 接口表达力足够。
- 可能失效场景:编译失败率极高时 EA 样本效率差;LLM API 成本与延迟。
-
观察 3:decoupled「只生成 optimizer、不改 kernel」保证数值正确性与可复现。
- 依赖假设:搜索空间 X 用户固定;生成器不扩空间。
- 可能失效场景:最优策略需改搜索空间结构(BaCO hidden constraints)时 LLM 无法触及。
核心方法
LLaMEA + Kernel Tuner 闭环:4 父代 + 12 子代/代;LLM 按 prompt 生成 OptAlg 子类;在训练集 12 搜索空间(4 app×3 GPU:MI250X/A100/A4000)用 P score 评估;mutation prompts 平衡探索/利用。
Prompt 变体:基础 / +应用描述 / +搜索空间维度与约束。
评估:BAT dedispersion、convolution、hotspot、GEMM;测试集另 3 GPU(W6600/W7800/A6000)防记忆化;预穷举空间模拟加速候选评估。
最佳算法并入 Kernel Tuner 上游。
设计取舍
- LLM 成本 vs 一次生成长期复用:生成贵,摊销到多次 tuning session。
- EA 种群小 vs 大:4+12 够发现强算法,可能漏罕见结构。
- 模拟评估 vs 真跑:快但可能 mis-rank 噪声大空间。
- 边界条件:GPU kernel auto-tuning;CPU/分布式训练调度未涉及。
实验与结果
- 最佳生成算法 vs OpenTuner 等:+72.4% 平均 P(跨测试空间)。
- +application info:+30.7%;+search space info:+14.6%(相对基础 prompt)。
- 个案:dedispersion、GEMM 等显著领先经典 SA/GA/PSO 与 Bayesian 路线。
Critical Analysis
论证链条
「optimizer 可自动生成」→ 闭环 EA 证据充分。72.4% 是 methodology P 相对提升,非绝对 wall-clock 倍率,读者需区分。
假设压力测试
新 kernel 类型需重新跑 LLaMEA;LLM 版本漂移导致不可复现;生成算法可读性与可维护性差。
实验可信度
train/test GPU 分离较好;BAT 代表 HPC 但非 ML 训练全流程。缺与 human-tuned 专家长时间竞赛。
系统性缺陷
LLM 调用成本与环境依赖;生成代码安全审计;论文未讨论 multi-objective(能耗+时间)。
局限与 Future Work
- 局限:四 BAT kernel、24 空间;生成成本与 API 依赖;可解释性弱。
- Future work:约束感知生成(invalid config 预判);与 BaCO 结合;ML 训练 graph 级 auto-tuning。
相关
- 相关概念:Auto-Tuning
- 同类系统:OpenTuner、Kernel Tuner、FunSearch
- 同会议:MLSys-2026