FLoRIST: Singular Value Thresholding for Efficient and Accurate Federated Fine-Tuning of Large Language Models (MLSys 2026)

一句话总结：FLoRIST 在服务器侧对 stacked 的 LoRA adapter 做独立 SVD + 中间矩阵分解 + 能量阈值截断，产生统一的低秩全局 adapter，相比 FLoRA 通信效率提升最多 58×、相比 full fine-tuning 提升 227×，同时匹配或超过基线精度。

问题

LoRA + 联邦学习（FL）组合支持参数高效、隐私保护的 LLM 微调。但现有方案各有缺陷：

FedIT：对 A、B 独立 FedAvg，产生 cross-term 噪声 $B_{i} A_{j}$ ，且只支持同构 rank
FFA-LoRA：冻结 A 只训 B，无噪声但参数量减半、收敛慢
FLoRA：stacking 聚合数学正确，支持异构 rank，但下载的 stacked adapter 随客户端数线性增长
FlexLoRA：对完整 ΔW = ΣB_k A_k 做 SVD，服务器端内存/算力开销巨大，且按客户端 rank 分发导致低配客户端丢失关键奇异值

核心问题：聚合后的 LoRA 的真实内在维度是多少？能不能只保留最关键成分从而统一压缩？

核心方法

1. 无噪 stacking 聚合：

$B_{stack} = B_{1} \oplus \dots \oplus B_{K} \in R^{m \times r}$ （horizontal）
$A_{stack} = (n_{1} / N) A_{1} \oplus \dots \oplus (n_{K} / N) A_{K} \in R^{r \times n}$ （vertical）
$Δ W = B_{stack} A_{stack}$ 数学等价但避免显式构造

2. 高效 SVD via 中间矩阵分解：

分别对 $B_{stack}$ 和 $A_{stack}$ 做 SVD，得 $U_{B}, S_{B}, V_{B}, U_{A}, S_{A}, V_{A}$
构造中间矩阵 $P = S_{B} (V_{B}^{T} U_{A}) S_{A} \in R^{r \times r}$ （远小于 $Δ W$ ）
对 $P$ 做 SVD 得 $U_{P}, S_{P}, V_{P}$ ， $S_{P}$ 即 $Δ W$ 的奇异值
全局 adapter： $B_{g} = U_{B} U_{P} S_{P}$ ， $A_{g} = V_{P}^{T} V_{A}^{T}$

3. 能量阈值截断：

保留 top-p 使 $\sum_{i = 1}^{p} (S_{P})_{ii}^{2} / \sum_{i} (S_{P})_{ii}^{2} \geq τ$
两个变体：FLoRIST-O（τ 取高，最大化精度）；FLoRIST-E（τ 取低，最大化通信效率）

关键观察：实测 q_proj 层大部分奇异值在前 8–10 个后迅速衰减；即使客户端最大 rank=64，全局 p 只需 2–10。中间层比首尾层需要更高 rank；v_proj 一贯比 q_proj 低秩。

关键结果

8 客户端同构设置下 FLoRIST-E 相比 FFA-LoRA 3× 通信减少、相比 FLoRA 39×、相比 full FT 227×
跨数据集 FLoRIST-E 相比 FLoRA 最多 58.11× 高效率，相比 FFA-LoRA 11.8×
TinyLLaMA + Wizard 上 FLoRIST-O MMLU 43.63%，超过 FedIT (41.42%)、FLoRA (41.99%)、FlexLoRA (42.53%)、FFA-LoRA (26.31%)
低阈值 τ ≤ 0.99 引入的截断噪声还起到 regularization 作用

Awesome System Papers Wiki

探索

FLoRIST-MLSys26

FLoRIST: Singular Value Thresholding for Efficient and Accurate Federated Fine-Tuning of Large Language Models (MLSys 2026)

问题

核心方法

关键结果

相关

关系图谱

目录

反向链接