10:41arXiv cs.LG@Juliana Li, Diya Sreedhar论文发现小型语言模型在预训练中学会的代词-性别规则(准确率0.94)会在3500步后自然消失,尽管训练数据仍包含该规则。这种未在损失曲线上反映的反转现象称为natural ungrokking。规则存留由支持频率预测:在2个语料、3个预算、3个种子的16次未干预运行中,支持频率决定规则命运。该动态出现在公开Pythia检查点中,遗忘顺序按模型规模排序。控制不对称:反转支持证据可破坏规则,但即使注入450倍支持也无法恢复。论文Natural UngrokkingPythia预训练规则学习不对称控制推荐理由:这篇论文发现了模型训练中规则自然遗忘的规律,并且能预测和控制——破坏容易恢复难,对理解LLM行为很有启发。原文