精选理由
这篇论文为AI推理失败提供了诊断工具,做模型调试和推理优化的团队可以直接用这三个特征来区分可修复与不可修复的失败,无需额外训练或权重访问,值得关注。
该论文提出,大语言模型在推理任务中失败时,常见的做法是增加采样次数重试,但忽略了失败轨迹本身蕴含的宝贵信息。作者发现,失败可分为“运气不好”和“结构性问题”两类,前者可通过更多采样解决,后者则无法通过重试修复。他们从失败轨迹的分布特征中提取了三个问题级特征,这些特征不依赖轨迹文本,而是基于可用的测试时干预结构。这些特征能以84.3%的准确率聚类失败模式,并支持一种无需训练的路径选择规则,在Steerable-Hard子集上将修复成功率提升12.2%。该方法无需访问训练过程或模型权重,即可用于测试时路由和后训练分析。
AI 翻译 · 中文
该论文提出,大语言模型在推理任务中失败时,常见的做法是增加采样次数重试,但忽略了失败轨迹本身蕴含的宝贵信息。作者发现,失败可分为“运气不好”和“结构性问题”两类,前者可通过更多采样解决,后者则无法通过重试修复。他们从失败轨迹的分布特征中提取了三个问题级特征,这些特征不依赖轨迹文本,而是基于可用的测试时干预结构。这些特征能以84.3%的准确率聚类失败模式,并支持一种无需训练的路径选择规则,在Steerable-Hard子集上将修复成功率提升12.2%。该方法无需访问训练过程或模型权重,即可用于测试时路由和后训练分析。
When post-trained language models fail on reasoning problems, the common test-time-scaling response is to spend more compute on additional attempts, and the failed traces play no further role. We argue this discards a cr…