斯坦福/MIT/哈佛/Anthropic 联合论文:大模型为何能学会小模型错失的技能

Great Stanford + MIT + Harvard + Anthropic paper. …

精选理由

做模型训练或理解 scaling law 的团队值得一读——这篇论文把大模型涌现能力的机制讲清楚了,不是玄学而是容量与干扰的数学问题。

AI 摘要

来自斯坦福、MIT、哈佛和 Anthropic 的联合研究揭示了大型语言模型能学会小模型无法掌握的技能的根本原因:大模型在训练过程中更不容易遗忘稀有技能。其额外容量能保护弱学习信号,而小模型的有限神经元会被常见任务占据,导致稀有任务在学习信号出现足够多次之前就被覆盖。研究通过控制实验和 OLMo 模型(4M 到 4B 参数)验证了这一结论,发现大模型在低频任务上表现更好,能保留更多任务特征,且梯度干扰更小。该论文为模型规模与能力涌现之间的关系提供了清晰的训练层面解释。

AI 翻译 · 中文

来自斯坦福、MIT、哈佛和 Anthropic 的联合研究揭示了大型语言模型能学会小模型无法掌握的技能的根本原因:大模型在训练过程中更不容易遗忘稀有技能。其额外容量能保护弱学习信号,而小模型的有限神经元会被常见任务占据,导致稀有任务在学习信号出现足够多次之前就被覆盖。研究通过控制实验和 OLMo 模型(4M 到 4B 参数)验证了这一结论,发现大模型在低频任务上表现更好,能保留更多任务特征,且梯度干扰更小。该论文为模型规模与能力涌现之间的关系提供了清晰的训练层面解释。

rohanpaul_aiGreat Stanford + MIT + Harvard + Anthropic paper. Gives a clear training-based reason for why larger models learn abilities smaller models miss. Says bigger AI models learn rare skills because they forget them less durin
  • Decoder06-06 11:22原文
  • arXiv: Anthropic06-07 09:14原文
  • Anthropic06-08 18:39原文
  • Gary Marcus06-09 19:37原文
  • Simon Willison’s Weblog06-10 00:37原文