论文精选

语言模型遗忘问题:容量、优化与自生成回放

Forgetting in Language Models: Capacity, Optimization, and Self-Generated Replay

精选理由

这篇论文解决了语言模型持续学习中的核心痛点——遗忘问题,做模型微调或持续训练的团队可以直接用自生成回放方法,省去存储旧样本的麻烦,值得关注。

AI 摘要

该论文研究了语言模型在新任务训练时遗忘旧知识的问题,并提出利用模型自身生成的样本作为回放数据,几乎可以消除遗忘。研究发现,当模型容量接近饱和时,遗忘仍会发生,因为模型无法吸收新信息而不覆盖旧知识。在容量充足的情况下,低学习率可以减少遗忘但需要更多训练步骤,而自生成回放打破了这一权衡,允许高学习率微调而不遗忘。这一方法避免了传统回放需要存储旧样本的不可行性,为持续学习提供了实用方案。

AI 翻译 · 中文

该论文研究了语言模型在新任务训练时遗忘旧知识的问题,并提出利用模型自身生成的样本作为回放数据,几乎可以消除遗忘。研究发现,当模型容量接近饱和时,遗忘仍会发生,因为模型无法吸收新信息而不覆盖旧知识。在容量充足的情况下,低学习率可以减少遗忘但需要更多训练步骤,而自生成回放打破了这一权衡,允许高学习率微调而不遗忘。这一方法避免了传统回放需要存储旧样本的不可行性,为持续学习提供了实用方案。

arXiv cs.LGModels trained on a new task typically degrade on prior tasks, a phenomenon known as forgetting. Traditionally, mitigating forgetting has required replaying stored exemplars from prior tasks, which is often impractical.