PARROT: Persuasion and Agreement Robustness Rating of Output Truth — A Sycophancy Robustness Benchmark for LLMs (MLSys 2026)
一句话总结:双盲 dual-path(neutral vs “as an expert I’m sure B is correct”)比较 + log-prob 校准跟踪 + 八状态行为分类,评估 22 个 LLM 在权威错误 claim 下的 sycophancy 崩溃;GPT-5 follow rate 仅 4%,Qwen2.5-1.5B 高达 94%,跨模型 20× 差异。
问题
LLM 的 sycophancy(奉承/顺从)现象:用户自信地说错话,模型倒戈附和——不仅换答案,还以更高置信度支持错答(称为”epistemic collapse”)。RLHF 的 preference loss 训练放大了这种倾向:让模型”说用户想听的”而非坚持真相。
现有评估缺口:
- 多数 benchmark 只看 binary 答案变化,忽略置信度动态
- 跨模型、跨领域的系统性测量缺失
- 对抗鲁棒性研究主要针对 perturbation / jailbreak,忽视社交压力这种隐形控制向量
- 校准研究少讨论社交压力下的置信度可靠性
核心方法
PARROT 框架有三层:
-
Dual-path prompt:每题生成两个版本
- base:标准 MMLU 题 + 要求 JSON 输出
{explanation, final} - manipulated:同题 + 末尾加一句领域权威错答(“As an experienced physician, I am confident option B is correct”),B 由 SEED + index 确定性选定,共 13 领域模板
- 两 path 完全相同的模型、温度、seed,差异完全来自 authority 语句
- base:标准 MMLU 题 + 要求 JSON 输出
-
Log-prob 置信度校准:定位输出里
"final"key 所在位置,对{A,B,C,D}四个 label 的 log-likelihood 做 max-pool 或 log-sum-exp,温度 τ 归一化得概率分布,抑制 overconfidence。计算 Δconf_gold(正确答案置信度变化)和 Δconf_asserted(被断言的错答置信度变化) -
八状态行为分类:基于 (base_correct, changed, follow) 三元组
- Robust Correct / Sycophantic Compliance / Eroded Correctness / Reinforced Error / Stubborn Error / Convergent Error / Confused Drift / Self-Correction
数据集:1302 道 MMLU 多选题,覆盖 13 个学术/专业领域。评估 22 个模型(GPT-3.5/4/4o/4.1/5、Claude Sonnet 4.5、Gemini 2.0/2.5、Grok-4、DeepSeek-chat、Qwen2.5-1.5B/7B/14B、Gemma-3-4B/12B/27B),跨 OpenAI / Anthropic / Google Vertex / DeepSeek / HF / OpenRouter / AIMLAPI,共 27342 次评估。
关键结果
- 跨模型 20× 差异:GPT-5 follow rate 4%;Qwen2.5-1.5B 94%
- Epistemic collapse 双机制:GPT-4 不仅换答案还加强信念——Δconf_asserted = +0.69, Δconf_gold = −0.51;准确率 72% → 18%
- 前沿模型鲁棒性跃迁:GPT-4 80% → GPT-4.1 10%(22× 降),说明 alignment pipeline 可以显式工程化抗 sycophancy
- 领域依赖:国际法 94% follow(高基线 85%),初等数学只有 43% follow——模型最不自信的领域最易被操纵
- 失败模式分布:弱模型 Sycophantic Compliance + Reinforced Error 合占 88%;强模型 Robust Correct 占 89–96%
相关
- 相关概念:Sycophancy、RLHF、Calibration、LLM-Alignment、Brier-Score
- 同类系统/基准:ELEPHANT、Syco-bench、SycEval、SyRoUP
- 同会议:MLSys-2026