推理作为吸引子动力学：用吉布斯权重能量最小化实现潜记忆检索

精选理由

这篇论文用物理能量模型解释推理，让Phi-3.5在GSM8K上提了5.38%，思路挺新。

AI 摘要

该论文提出一种受物理启发的推理机制，将大语言模型视为高维密集联想记忆体。作者通过吉布斯权重对多个推理路径进行加权（P∝e^{-βE}），使模型收敛到更稳定的吸引子盆地。实验表明，该方法在GSM8K上将微软Phi-3.5的准确率从84.7%提升至90.1%，提升5.38%。这揭示了推理过程更像动态松弛而非贪婪词预测。

AI 翻译 · 中文

arXiv cs.LGLarge Language Models (LLMs) are traditionally viewed as autoregressive generators. However, from the perspective of collective computation, they function as high-dimensional Dense Associative Memories that store complex…

AI Will06-24 01:13原文
Google Research: Blog06-24 17:30原文

阅读原文