MixLLM: LLM Quantization with Global Mixed-precision between Output-features and Highly-efficient System Design (MLSys 2026)

一句话总结：W4.4A8 混合精度量化，按「全局显著性」给 ~10% 输出通道分配 8-bit、其余 4-bit，配合 two-step dequantization 和 fast I2F 转换复用 int8 Tensor Core，Llama 3.1 70B PPL 退化从 SOTA 的 ~0.5 降至 <0.2，MMLU-Pro 平均提升 0.93。

问题

Quantization 要同时满足精度、显存、系统效率三角约束，但已有方案各有短板：

Weight-only（GPTQ/AWQ）解决显存但 4-bit 精度退化明显，且大 batch 下因 dequantization 开销反而降速。
Weight-activation（SmoothQuant/QoQ）能用低 bit 计算单元但激活难量化、精度更差。
Outlier 分离 / mixed-precision（SpQR/Atom）在层内局部识别高显著元素，难以覆盖不同层间重要性差异，且非结构化稀疏计算效率低。

如何在一个方案里覆盖精度、显存和系统效率的「triangle」？

核心方法

1. 全局显著性识别的输出通道混合精度

对每个 linear 层的每个输出 channel 用 Taylor 一阶+二阶（以 Fisher 信息近似 Hessian）估算「量化后对模型最终 loss 的贡献」，得到一个标量显著性 $S_{c}$ 。
所有层、所有 channel 的 $S_{c}$ 一起排序，top $N_{largebit}$ 走 8-bit，其余走 4-bit。不同层自动得到不同比例的 8-bit channel（图 2 显示差异巨大）。
相比 Atom 的输入特征 mixed-precision，输出特征之间自然 disjoint，对 Tensor-Parallelism 和 kernel 切分非常友好。

2. 算法-系统协同的量化配置

激活用 8-bit 对称 group-wise（4-bit 激活对精度帮助大但对大 MatMul 的算力省得少，推导自 compute intensity 公式）。
权重用 4-bit 非对称 group-wise（非对称对 4-bit 精度至关重要）。

3. Two-step dequantization + fast I2F 软件流水

先在 int8 域做 $(W_{q} - z) \cdot A_{q}$ （不溢出，仍走 int8 Tensor-Core），再乘以 $s_{w} \cdot s_{a}$ 做最后的 float 还原。
I2F 指令贵；利用整数和 float 二进制在某连续区间内等价的性质，把 I2F 替换为一次加 bias 再减 bias 的 float subtraction，并把加法 fuse 进 mma 指令的 accumulator 初始化——省了 >20 TOPS（A100, 512×4096×4096）。
软件流水重叠 HBM→shared memory load、dequant、MatMul。

关键结果

精度：仅用 ~10% 的 channel 8-bit（W4.4A8），Llama 3.1 70B 上 PPL 增量从 SOTA 的 ~0.5 降到 <0.2；三大流行模型 MMLU-Pro 平均比 SOTA 高 0.93。
精度 vs 4-bit 方法：W4.4A8 精度全面超过所有 4-bit weight-only 方案。
系统效率：在大 batch 下同时超过 SOTA W4A16（83% float16）和 W4A8 QoQ，达到 SOTA 系统效率。
Fast I2F 单项贡献：对 512/4096/4096 quantized MatMul 在 A100 上提升 >20 TOPS。

Awesome System Papers Wiki

探索

MixLLM-MLSys26

MixLLM: LLM Quantization with Global Mixed-precision between Output-features and Highly-efficient System Design (MLSys 2026)

问题

核心方法

关键结果

相关

关系图谱

目录

反向链接