ReGrad:可检索梯度实现持续后训练不累积权重漂移

Retrievable Gradients: Continual Post-Training Without Cumulative Weight Drift

精选理由

这篇论文提出了ReGrad,把梯度当知识存起来,推理时才取用,不破坏原有模型参数,效果比CPT和RAG都好。

AI 摘要

论文提出ReGrad(Retrievable Gradients)范式,将梯度视为可检索的知识单元。方法预先离线计算文档特定梯度并存入索引梯度库,推理时仅检索查询相关梯度进行临时权重适应。为解决原始语言建模梯度不适于查询驱动知识使用的问题,引入双层元学习目标重塑梯度为通用适应信号。实验在通用和领域特定设置中表明,ReGrad优于CPT和RAG基线,实现可扩展且可逆的参数化知识注入,不累积权重漂移。

AI 翻译 · 中文

论文提出ReGrad(Retrievable Gradients)范式,将梯度视为可检索的知识单元。方法预先离线计算文档特定梯度并存入索引梯度库,推理时仅检索查询相关梯度进行临时权重适应。为解决原始语言建模梯度不适于查询驱动知识使用的问题,引入双层元学习目标重塑梯度为通用适应信号。实验在通用和领域特定设置中表明,ReGrad优于CPT和RAG基线,实现可扩展且可逆的参数化知识注入,不累积权重漂移。

arXiv cs.LGContinual post-training enables models to absorb emerging knowledge after deployment, but repeatedly updating shared parameters can accumulate weight drift, potentially causing catastrophic forgetting and degrading gener