TiDAR: Think in Diffusion, Talk in Autoregression (MLSys 2026)

一句话总结：序列级 diffusion-AR 混合架构，单次前向内既用 diffusion 并行 drafting 又用 AR 采样 verification，TiDAR-1.5B 对比 Qwen2.5-1.5B 无损质量下获得 4.71× 吞吐加速，TiDAR-8B 达 5.91×。

问题

AR 模型生成受内存带宽限制，每步只出一个 token，GPU 算力利用率低；diffusion LM 能并行生成多个 token，但并行采样会引入 token independence 假设，质量显著退化（Dream-7B 上 GSM8K 从 1→2 token/step 掉 10%）。现有 Speculative-Decoding 用小 draft 模型牺牲接受率；EAGLE-3、DeepSeek-V3 MTP 的 drafter 仍是 sequential AR，无法充分释放并行潜力。核心观察：在 memory-bound 区间，一次前向塞若干额外 “free token slots” 几乎不增加延迟（Figure 1 的 Qwen3-32B 实测）。

核心方法

训练阶段用一种因果+双向混合 attention mask：prefix 部分因果（AR mode，算 NTP loss），decoding block 部分双向（diffusion mode，算 masked token loss）。作者把 diffusion 部分全部设成 mask token（而不是像 Block Diffusion 那样随机 mask），让 diffusion loss 对每个位置都成立，loss 稠密且易与 NTP 平衡，并支持 one-step 推断。

推理阶段单次前向做三件事：(1) 对上一步的 draft token 做 AR rejection sampling；(2) 对下一步做 diffusion 并行 pre-draft，条件覆盖所有可能的 rejection 结果；(3) 保留因果计算的 KV 到 cache、拒掉的 token 对应 KV 被 evict（精确 KV cache 不重算）。相比 Speculative-Decoding：drafter 就是 base model 本身 capacity 最高，drafting 完全并行，drafting 与 verification 在同一前向里合一。

关键结果

TiDAR-1.5B 从 Qwen2.5-1.5B 续训 50B tokens，相对 Qwen2.5-1.5B 达 4.71× 吞吐加速，质量接近（coding+math 平均 44.03% vs Qwen 的 41.64%）。
TiDAR-8B 从 Qwen3-8B 续训 150B tokens，达 5.91× 加速（trust-diff 模式 avg 65.31% vs Qwen3-8B 的 68.09%）。
生成任务平均每次 NFE 生成 7.45（1.5B）到 8.25（8B）个 token。
对比 EAGLE-3 开源权重：TiDAR 的 token/NFE 和 token/s 转化率都更高；对比 Dream-7B、LLaDA-8B、Block Diffusion 全面领先。
似然评估可用纯 AR causal mask 一次 NFE 完成，避免传统 diffusion 的 Monte Carlo sampling 开销。

Awesome System Papers Wiki

探索

TiDAR-MLSys26

TiDAR: Think in Diffusion, Talk in Autoregression (MLSys 2026)

问题

核心方法

关键结果

相关

关系图谱

目录

反向链接