14:20AlphaSignal@AlphaSignalAI73°研究人员证明某些任务需要模型缩放而非数据缩放,小模型即使拥有无限数据也无法学会这些任务。原因在于神经元竞争:频繁任务优先抢占容量,稀有任务的梯度在下次更新前被覆盖,导致模型陷入学习后遗忘的循环。团队预训练了参数从4M到4B的OLMo模型,在训练中注入可控频率的新任务。只有最大的4B参数模型成功学会了稀有任务,干扰梯度几乎消失。论文OLMo模型缩放梯度神经元竞争稀有任务学习推荐理由:这项研究用OLMo模型从4M到4B参数实验,直观解释了为什么小模型学不会稀有任务——不是数据不够,是神经元竞争导致梯度被覆盖。原文