精选理由
这篇论文用物理能量模型解释推理,让Phi-3.5在GSM8K上提了5.38%,思路挺新。
该论文提出一种受物理启发的推理机制,将大语言模型视为高维密集联想记忆体。作者通过吉布斯权重对多个推理路径进行加权(P∝e^{-βE}),使模型收敛到更稳定的吸引子盆地。实验表明,该方法在GSM8K上将微软Phi-3.5的准确率从84.7%提升至90.1%,提升5.38%。这揭示了推理过程更像动态松弛而非贪婪词预测。
AI 翻译 · 中文
该论文提出一种受物理启发的推理机制,将大语言模型视为高维密集联想记忆体。作者通过吉布斯权重对多个推理路径进行加权(P∝e^{-βE}),使模型收敛到更稳定的吸引子盆地。实验表明,该方法在GSM8K上将微软Phi-3.5的准确率从84.7%提升至90.1%,提升5.38%。这揭示了推理过程更像动态松弛而非贪婪词预测。
Large Language Models (LLMs) are traditionally viewed as autoregressive generators. However, from the perspective of collective computation, they function as high-dimensional Dense Associative Memories that store complex…