论文精选

LLM事实回忆可预测:模型大小与主题频率决定

Predictable Confabulations: Factual Recall by LLMs Scales with Model Size and Topic Frequency

精选理由

这项研究为LLM的事实回忆能力提供了可预测的缩放规律,做模型评估或训练数据设计的团队可以直接用这个规律来预估模型表现,值得关注。

AI 摘要

该研究揭示了大型语言模型(LLM)的事实回忆能力与模型参数数量和训练数据中主题频率之间存在可预测的缩放规律。研究团队评估了38个模型在超过8900个学术参考文献上的表现,发现回忆质量遵循模型参数与主题表示的对数线性组合的S形曲线。这两个变量单独解释了16个密集模型(来自四个模型家族)中60%的方差,在单个家族内解释力升至74-94%。该规律符合一种基于信号噪声比的解释:信号强度随概念频率增加,噪声基底随模型容量增加。

AI 翻译 · 中文

该研究揭示了大型语言模型(LLM)的事实回忆能力与模型参数数量和训练数据中主题频率之间存在可预测的缩放规律。研究团队评估了38个模型在超过8900个学术参考文献上的表现,发现回忆质量遵循模型参数与主题表示的对数线性组合的S形曲线。这两个变量单独解释了16个密集模型(来自四个模型家族)中60%的方差,在单个家族内解释力升至74-94%。该规律符合一种基于信号噪声比的解释:信号强度随概念频率增加,噪声基底随模型容量增加。

arXiv cs.AIWhile scaling laws govern aggregate large language model performance, no scaling law has linked factual recall to both model size and training-data composition. We evaluated 38 models on over 8,900 scholarly references e