12:20arXiv cs.LG@Martin Marek, Dongkyu Cho, Shikai Qiu, Rumi Chunara, Pavel Izmailov, Andrew Gordon Wilson精选该论文研究了语言模型在新任务训练时遗忘旧知识的问题,并提出利用模型自身生成的样本作为回放数据,几乎可以消除遗忘。研究发现,当模型容量接近饱和时,遗忘仍会发生,因为模型无法吸收新信息而不覆盖旧知识。在容量充足的情况下,低学习率可以减少遗忘但需要更多训练步骤,而自生成回放打破了这一权衡,允许高学习率微调而不遗忘。这一方法避免了传统回放需要存储旧样本的不可行性,为持续学习提供了实用方案。论文语言模型遗忘持续学习自生成回放容量推荐理由:这篇论文解决了语言模型持续学习中的核心痛点——遗忘问题,做模型微调或持续训练的团队可以直接用自生成回放方法,省去存储旧样本的麻烦,值得关注。原文