为何大模型更聪明？论文揭示神经元竞争机制

精选理由

这项研究用OLMo模型从4M到4B参数实验，直观解释了为什么小模型学不会稀有任务——不是数据不够，是神经元竞争导致梯度被覆盖。

AI 摘要

研究人员证明某些任务需要模型缩放而非数据缩放，小模型即使拥有无限数据也无法学会这些任务。原因在于神经元竞争：频繁任务优先抢占容量，稀有任务的梯度在下次更新前被覆盖，导致模型陷入学习后遗忘的循环。团队预训练了参数从4M到4B的OLMo模型，在训练中注入可控频率的新任务。只有最大的4B参数模型成功学会了稀有任务，干扰梯度几乎消失。

AI 翻译 · 中文

AlphaSignalWe finally know why bigger models are smarter. It's not the data. More training data was supposed to fix small models. A new paper shows why it cannot. Researchers proved some tasks need model scaling, not data scali…

查看原推