自然 Ungrokking:预训练中哪些规则存留的不对称控制

Natural Ungrokking: Asymmetric Control of Which Rules Survive Pretraining

精选理由

这篇论文发现了模型训练中规则自然遗忘的规律,并且能预测和控制——破坏容易恢复难,对理解LLM行为很有启发。

AI 摘要

论文发现小型语言模型在预训练中学会的代词-性别规则(准确率0.94)会在3500步后自然消失,尽管训练数据仍包含该规则。这种未在损失曲线上反映的反转现象称为natural ungrokking。规则存留由支持频率预测:在2个语料、3个预算、3个种子的16次未干预运行中,支持频率决定规则命运。该动态出现在公开Pythia检查点中,遗忘顺序按模型规模排序。控制不对称:反转支持证据可破坏规则,但即使注入450倍支持也无法恢复。

AI 翻译 · 中文

论文发现小型语言模型在预训练中学会的代词-性别规则(准确率0.94)会在3500步后自然消失,尽管训练数据仍包含该规则。这种未在损失曲线上反映的反转现象称为natural ungrokking。规则存留由支持频率预测:在2个语料、3个预算、3个种子的16次未干预运行中,支持频率决定规则命运。该动态出现在公开Pythia检查点中,遗忘顺序按模型规模排序。控制不对称:反转支持证据可破坏规则,但即使注入450倍支持也无法恢复。

arXiv cs.LGMidway through an ordinary pretraining run, a small language model learns the pronoun-gender rule: cued with a girl's name ("Sue cried because"), it resolves the next pronoun to she, generalizing to held-out probes (0.94