AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
精选
AI 自动挑选的高价值内容
全部模型产品行业论文技巧
标签:分布偏移×
5月14日
13:27
arXiv cs.AI@Tyler Alvarez, Ali Baheri
精选55
该论文提出了一种新的幻觉检测方法,将多步推理中的幻觉视为隐藏状态轨迹的几何特性,而非传统对整个输出打分。作者通过对比PCA构建标签条件教师模型,提取七个几何过渡特征,并蒸馏出BiLSTM学生模型,仅需单次前向传播即可定位首个错误步骤。在ProcessBench、PRM800K等基准测试中,该方法优于基于熵、探针和注意力的基线,教师模型跨语言模型和数据集稳定迁移,但学生模型在分布偏移下失效。研究将步骤级幻觉检测重新定义为轨迹动力学问题,并指出分布偏移下保持对比传输裕度是部署的关键障碍。
论文幻觉检测推理模型隐藏状态轨迹对比PCA分布偏移

推荐理由:这篇论文把幻觉检测从“整体打分”推进到“单步定位”,做推理模型调试和可解释性研究的团队值得关注——它用几何视角揭示了错误发生的精确位置,比传统方法更细粒度。