Automated Algorithm Design for Auto-Tuning Optimizers (MLSys 2026)

一句话总结：用 LLM（LLaMEA）进化生成 Kernel Tuner 优化算法而非手写 SA/GA；在 BAT 四内核×六 GPU 上，最佳生成算法相对 OpenTuner 等 SOTA 平均 72.4% performance score 提升，注入应用/搜索空间信息分别再 +30.7%/+14.6%，证明 auto-tuning 搜索策略本身可被 LLM 自动设计。

问题与动机

Auto-tuning（CUDA/OpenCL kernel 参数）搜索空间巨大、噪声、非凸；经典 SA/GA/PSO 需精心调超参且非为 auto-tuning 形态设计。能否用 LLM 生成专用优化器代码并在真实 compile-run-measure 循环中筛选？

关键观察 / 隐含假设

观察 1：搜索空间不规则性使「通用元启发式」浪费评估预算；问题结构（维度、约束、compute/bandwidth bound）应进入生成 prompt。
- 依赖假设：Willemsen et al. autotuning methodology 的 P score 可跨空间聚合比较。
- 可能失效场景：新 GPU 架构未在 training set 出现时泛化靠 test set 12 空间验证，覆盖仍有限。
观察 2：LLM 生成错误算法在 EA 中自然淘汰（低 P score），无需人工语法修复为主路径。
- 依赖假设：stacktrace 反馈足以自修复；Kernel Tuner OptAlg 接口表达力足够。
- 可能失效场景：编译失败率极高时 EA 样本效率差；LLM API 成本与延迟。
观察 3：decoupled「只生成 optimizer、不改 kernel」保证数值正确性与可复现。
- 依赖假设：搜索空间 X 用户固定；生成器不扩空间。
- 可能失效场景：最优策略需改搜索空间结构（BaCO hidden constraints）时 LLM 无法触及。

核心方法

LLaMEA + Kernel Tuner 闭环：4 父代 + 12 子代/代；LLM 按 prompt 生成 OptAlg 子类；在训练集 12 搜索空间（4 app×3 GPU：MI250X/A100/A4000）用 P score 评估；mutation prompts 平衡探索/利用。

Prompt 变体：基础 / +应用描述 / +搜索空间维度与约束。

评估：BAT dedispersion、convolution、hotspot、GEMM；测试集另 3 GPU（W6600/W7800/A6000）防记忆化；预穷举空间模拟加速候选评估。

最佳算法并入 Kernel Tuner 上游。

设计取舍

LLM 成本 vs 一次生成长期复用：生成贵，摊销到多次 tuning session。
EA 种群小 vs 大：4+12 够发现强算法，可能漏罕见结构。
模拟评估 vs 真跑：快但可能 mis-rank 噪声大空间。
边界条件：GPU kernel auto-tuning；CPU/分布式训练调度未涉及。

实验与结果

最佳生成算法 vs OpenTuner 等：+72.4% 平均 P（跨测试空间）。
+application info：+30.7%；+search space info：+14.6%（相对基础 prompt）。
个案：dedispersion、GEMM 等显著领先经典 SA/GA/PSO 与 Bayesian 路线。

Critical Analysis

论证链条

「optimizer 可自动生成」→ 闭环 EA 证据充分。72.4% 是 methodology P 相对提升，非绝对 wall-clock 倍率，读者需区分。

假设压力测试

新 kernel 类型需重新跑 LLaMEA；LLM 版本漂移导致不可复现；生成算法可读性与可维护性差。

实验可信度

train/test GPU 分离较好；BAT 代表 HPC 但非 ML 训练全流程。缺与 human-tuned 专家长时间竞赛。

系统性缺陷

LLM 调用成本与环境依赖；生成代码安全审计；论文未讨论 multi-objective（能耗+时间）。

局限与 Future Work

局限：四 BAT kernel、24 空间；生成成本与 API 依赖；可解释性弱。
Future work：约束感知生成（invalid config 预判）；与 BaCO 结合；ML 训练 graph 级 auto-tuning。

Awesome System Papers Wiki

探索

LLaMEA-KernelTuner-MLSys26