论文精选

Operadic Consistency:无标签检测LLM组合推理失败的新信号

Operadic consistency: a label-free signal for compositional reasoning failures in LLMs

精选理由

做LLM推理评估的团队终于有了一个无需标签就能检测组合推理失败的新工具——Operadic Consistency在多个数据集上表现稳定,比CoT-SC更可靠,建议关注这个方向。

AI 摘要

论文提出一种名为Operadic Consistency(OC)的新方法,用于在无真实标签的情况下检测大语言模型的推理失败。OC基于操作理论,通过比较模型对组合问题的直接回答与分解后组合回答的一致性,生成每个问题的置信度信号。在12个指令微调模型(4B到671B参数)和4个多跳QA数据集上,OC与准确率的皮尔逊相关系数达0.86-0.94,且在所有数据集上均优于链式思维自一致性(CoT-SC)和语义熵等基线。在选择性预测任务中,OC在固定覆盖率下显著提升准确率,AUARC提升0.086-0.096,AUROC提升0.092-0.164。该方法无需标注数据,为LLM推理可靠性提供了一种高效、通用的诊断工具。

AI 翻译 · 中文

论文提出一种名为Operadic Consistency(OC)的新方法,用于在无真实标签的情况下检测大语言模型的推理失败。OC基于操作理论,通过比较模型对组合问题的直接回答与分解后组合回答的一致性,生成每个问题的置信度信号。在12个指令微调模型(4B到671B参数)和4个多跳QA数据集上,OC与准确率的皮尔逊相关系数达0.86-0.94,且在所有数据集上均优于链式思维自一致性(CoT-SC)和语义熵等基线。在选择性预测任务中,OC在固定覆盖率下显著提升准确率,AUARC提升0.086-0.096,AUROC提升0.092-0.164。该方法无需标注数据,为LLM推理可靠性提供了一种高效、通用的诊断工具。

arXiv cs.LGDetecting LLM reasoning failures at inference time without ground-truth labels has motivated a wide range of confidence baselines, including self-consistency, semantic entropy, and P(True), built on within-question sampl