论文精选

推理在哪断裂?基于隐藏态传输几何的步骤级幻觉检测

Where Does Reasoning Break? Step-Level Hallucination Detection via Hidden-State Transport Geometry

精选理由

这篇论文把幻觉检测从“整体打分”推进到“单步定位”,做推理模型调试和可解释性研究的团队值得关注——它用几何视角揭示了错误发生的精确位置,比传统方法更细粒度。

AI 摘要

该论文提出了一种新的幻觉检测方法,将多步推理中的幻觉视为隐藏状态轨迹的几何特性,而非传统对整个输出打分。作者通过对比PCA构建标签条件教师模型,提取七个几何过渡特征,并蒸馏出BiLSTM学生模型,仅需单次前向传播即可定位首个错误步骤。在ProcessBench、PRM800K等基准测试中,该方法优于基于熵、探针和注意力的基线,教师模型跨语言模型和数据集稳定迁移,但学生模型在分布偏移下失效。研究将步骤级幻觉检测重新定义为轨迹动力学问题,并指出分布偏移下保持对比传输裕度是部署的关键障碍。

AI 翻译 · 中文

该论文提出了一种新的幻觉检测方法,将多步推理中的幻觉视为隐藏状态轨迹的几何特性,而非传统对整个输出打分。作者通过对比PCA构建标签条件教师模型,提取七个几何过渡特征,并蒸馏出BiLSTM学生模型,仅需单次前向传播即可定位首个错误步骤。在ProcessBench、PRM800K等基准测试中,该方法优于基于熵、探针和注意力的基线,教师模型跨语言模型和数据集稳定迁移,但学生模型在分布偏移下失效。研究将步骤级幻觉检测重新定义为轨迹动力学问题,并指出分布偏移下保持对比传输裕度是部署的关键障碍。

arXiv cs.AILarge language models hallucinate during multi-step reasoning, but most existing detectors operate at the trace level: they assign one confidence score to a full output, fail to localize the first error, and often requir