AssyLLM: Efficient Federated Fine-tuning of LLMs via Assembling Pre-trained Blocks (ATC 2025)

一句话总结：把多个预训练 LLM 拆成 transformer block，用客户端本地 inference + CKA/KL 兼容性打分挑出最适合下游任务的 block 组装成新模型，跳过 backpropagation；端侧内存降 92%、加速 30×、准确率比 FedLLM 基线高 18.26%。

问题

Federated Learning 微调 LLM（FedLLM）能保住边端数据隐私，但 Llama-7B 全量微调要 40+ GB、LoRA/Adapter 也要 15+ GB，普通边端设备只有 4–16 GB，导致 60–85% 客户端无法参与，数据多样性丢失、最终精度掉 14.7–19.1%。已有省内存方案各有问题：PEFT/QLoRA 准确率掉 5%+；BP-free（zero-order、forward gradient）训练不稳；recomputation/swapping 系统层省内存但训练时间翻 1.78–3.17×。

核心方法

把”微调”重新定义为”从预训练 block 池里挑+组装”，整个 fine-tuning 流程不做 backprop，每轮只做 inference：

Block Comparator：用 CKA（Centered Kernel Alignment）+ COR（layer-wise KL divergence）双指标评估候选 block 与已组装模型的兼容性。客户端 forward 一遍本地 batch，计算两 block 输出激活的相似度；高 CKA 高 COR 才是好候选
Elastic Adapter：解决跨预训练模型 block 拼接的三类不匹配——维度（线性投影）、语义（cross-attention 用一个 block 输出做 query、另一个做 K/V）、attention head 数（pool/expand）。多数情况只需简单 projection 矩阵，少数关键拼接点用 trainable adapter（仅 finetune adapter）
Block Quanter：block-pool 总大小可达 40+ GB（多个 LLM 并存），用 block-wise 混合精度量化——分析 weight 对 block 输出 activation 的敏感度（random perturbation + masking），关键权重高精度、其他低精度
Block Swapper：block 池仍可能超内存，按 block 之间的 correlation pre-load + pre-swap 流水化 block 在内存与外存间换入换出，掩盖 I/O 延迟

服务器端按 voting 聚合各客户端选出的 top-K block 形成下一轮候选模型，直到选到 terminating block 或达到深度上限。深度细节回 atc2025-zhan。

关键结果

比 FedLLM 基线（200 客户端、5 组内存 4–64 GB）准确率提升最多 18.26%
端到端训练加速最多 30.04×（vs recomputation/swapping 方案）
内存最多省 92%；4 GB 内存设备可参与，QLoRA 还要 15+ GB 才行
评估在 Llama-7B / OPT-6.7B / Vicuna-7B / BERT-base / RoBERTa-large block 池上，BoolQ + OBQA 任务

Awesome System Papers Wiki

探索

AssyLLM-ATC25

AssyLLM: Efficient Federated Fine-tuning of LLMs via Assembling Pre-trained Blocks (ATC 2025)

问题

核心方法

关键结果

相关

关系图谱

目录

反向链接