自然 Ungrokking：预训练中哪些规则存留的不对称控制

精选理由

这篇论文发现了模型训练中规则自然遗忘的规律，并且能预测和控制——破坏容易恢复难，对理解LLM行为很有启发。

AI 摘要

论文发现小型语言模型在预训练中学会的代词-性别规则（准确率0.94）会在3500步后自然消失，尽管训练数据仍包含该规则。这种未在损失曲线上反映的反转现象称为natural ungrokking。规则存留由支持频率预测：在2个语料、3个预算、3个种子的16次未干预运行中，支持频率决定规则命运。该动态出现在公开Pythia检查点中，遗忘顺序按模型规模排序。控制不对称：反转支持证据可破坏规则，但即使注入450倍支持也无法恢复。

AI 翻译 · 中文

arXiv cs.LGMidway through an ordinary pretraining run, a small language model learns the pronoun-gender rule: cued with a girl's name ("Sue cried because"), it resolves the next pronoun to she, generalizing to held-out probes (0.94…

阅读原文