精选理由
这项研究把 LLM 上下文学习的黑箱过程可视化成了几何轨迹,做可解释性、推理机制或认知建模的研究者值得关注——它提供了干预模型信念的实操方法,看完会有启发。
该研究提出大语言模型(LLM)的上下文学习可视为在低维几何空间(概念信念空间)中的轨迹更新。通过故事理解任务,结合行为与表征分析发现:信念更新在低维结构化流形上可被良好描述;模型行为与内部表征一致反映该结构,且可用简单线性探针解码预测行为;对表征的干预能因果性地引导信念轨迹,效果可从概念空间几何预测。该工作为 LLM 的贝叶斯解释提供了结构化几何基础。
AI 翻译 · 中文
该研究提出大语言模型(LLM)的上下文学习可视为在低维几何空间(概念信念空间)中的轨迹更新。通过故事理解任务,结合行为与表征分析发现:信念更新在低维结构化流形上可被良好描述;模型行为与内部表征一致反映该结构,且可用简单线性探针解码预测行为;对表征的干预能因果性地引导信念轨迹,效果可从概念空间几何预测。该工作为 LLM 的贝叶斯解释提供了结构化几何基础。
Large Language Models (LLMs) update their behavior in context, which can be viewed as a form of Bayesian inference. However, the structure of the latent hypothesis space over which this inference operates remains unclear…