Recoverable but Not Stationary: 权重与激活中的局部线性结构

精选理由

做模型微调或可解释性研究的团队会感兴趣——它揭示了LoRA和激活导向的线性假设为何局部成立但全局不成立，建议在调试任务向量时参考其轨迹前缀基方法。

AI 摘要

该研究探讨了预训练模型中的线性结构是否真实存在及其尺度。通过合成多任务Transformer和LoRA适配器实验，发现任务梯度具有强局部低秩结构，但静态基无法捕捉恢复方向，有用基在100步内显著漂移。首次恢复更新形成的轨迹前缀基可捕获77%的LoRA恢复位移。研究还提出高斯局部线性定理，解释了高维随机参数搜索的有效性，并发现单步梯度产生的激活偏移与CAA导向向量余弦相似度为0.58。结果表明，线性结构并非全局任务方向，而是部分跨参数和激活空间演化的局部几何。

AI 翻译 · 中文

arXiv cs.LGTask vectors, LoRA, activation steering, and random search around pretrained weights all suggest that learned behaviour can be controlled by linear directions. We ask which linear structures actually exist and on what sc…

阅读原文