Agentic Operator Generation for ML ASICs (MLSys 2026)

一句话总结：Meta 的 TritorX 用开源 LLM + FSM 反馈循环自动生成 Meta MTIA 加速器的 Triton PyTorch ATen kernel，覆盖 481 个 unique 算子（84.7% MTIA-compatible OpInfo 覆盖率），通过 20,000+ OpInfo 测试；目标是「overnight 生成完整 PyTorch ATen backend」。

问题

每新发一代 AI ASIC（如 Meta MTIA）都要重做 PyTorch ATen 算子库（>600 ops，覆盖多 dtype / shape / argument）。现有 kernel 生成工作（KernelBench 系等）多聚焦「少数关键 kernel 的 performance」，而新芯片上线首要是 coverage / correctness——没有 operator 覆盖，模型根本跑不通。手工编 kernel 耗时且新硬件文档滞后于编译器。

核心方法

TritorX = LLM + 有限状态机 + 生产测试harness：

FSM 架构（不用 reasoning agent）：状态包括 Generate Kernel → Lint → JIT Compile + Test → Feedback，显式 guardrail 好 debug，更适合生产。
In-context 蒸馏 MTIA 语义：初始 prompt 只给 ATen docstring + 3 个手写示例（exp / argmax / diag），靠执行反馈（linter / compiler / debugger）迭代学习 Triton MTIA 方言。
自研 Linter 防”作弊”：阻止 LLM 生成代码里调用未实现的 ATen 算子或 host fallback；确保 Triton MTIA 语法合法。
双测试 harness：(a) OpInfo（PyTorch 原生，一个 op 数百个 sample 覆盖各 dtype/shape/args）；(b) 生产模型 captured input data。每个 op 配对超 20,000 项测试。
反馈策略：compile 错误经次要 LLM 摘要压缩（避免 context 溢出）；runtime 崩溃加载 LLDB backtrace；accuracy error 摘要 tensor 值。
规模化部署：200 台生产 MTIA 设备，LLM 走内部中心推理服务，2 小时完成 95%，剩余尾部 6-8h。可用 QEMU 模拟未来 MTIA 代际。

关键结果

481 个 ATen 算子通过全部 OpInfo 测试（84.7% MTIA-compatible 覆盖率，总 20,000+ 测试）。
LLM 用 Code World Model (CWM) 或 GPT-OSS 120B（context 131K、temp 1.0）；Llama-4-Maverick 做反馈摘要。
算子类别差异大：Shape Manipulation 96.0%，Deep Learning 71.1%（GPT-OSS 好于 CWM 多数场景）。
端到端模型：NanoGPT、DLRM、两个 Meta 内部推荐模型，operator coverage 79.8-87.2%。OpInfo-validated kernel 直接套用生产数据通过率 80%+，refine 后再 +6-20%。
新一代 MTIA QEMU 模拟下单跑 73.1%，收集的 compiler failure 反馈给硬件/编译器团队。

Awesome System Papers Wiki

探索

TritorX-MLSys26

Agentic Operator Generation for ML ASICs (MLSys 2026)

问题

核心方法

关键结果

相关

关系图谱

目录

反向链接