语言模型遗忘问题：容量、优化与自生成回放

精选理由

这篇论文解决了语言模型持续学习中的核心痛点——遗忘问题，做模型微调或持续训练的团队可以直接用自生成回放方法，省去存储旧样本的麻烦，值得关注。

AI 摘要

该论文研究了语言模型在新任务训练时遗忘旧知识的问题，并提出利用模型自身生成的样本作为回放数据，几乎可以消除遗忘。研究发现，当模型容量接近饱和时，遗忘仍会发生，因为模型无法吸收新信息而不覆盖旧知识。在容量充足的情况下，低学习率可以减少遗忘但需要更多训练步骤，而自生成回放打破了这一权衡，允许高学习率微调而不遗忘。这一方法避免了传统回放需要存储旧样本的不可行性，为持续学习提供了实用方案。

AI 翻译 · 中文

arXiv cs.LGModels trained on a new task typically degrade on prior tasks, a phenomenon known as forgetting. Traditionally, mitigating forgetting has required replaying stored exemplars from prior tasks, which is often impractical. …

阅读原文