可能的回答何时正确?LLM序列概率与正确性研究

When are likely answers right? On Sequence Probability and Correctness in LLMs

精选理由

论文搞清楚了啥时候模型觉得对就真的对。它告诉你别光看概率,同一问题重复问,概率高不一定准,做解码或自一致性时可参考。

AI 摘要

该论文在多个解码方法(如温度采样、束搜索)和多个模型(如LLaMA-2、GPT-4)上分析序列概率与正确性的对齐关系。在固定数据集内,高序列概率通常预示正确,但改变超参数或解码方法提升序列概率并不稳定提高准确度。对于同一提示的多次回复,序列概率与正确性相关性很弱。研究为解码策略、自一致性等提供实践指导。

AI 翻译 · 中文

该论文在多个解码方法(如温度采样、束搜索)和多个模型(如LLaMA-2、GPT-4)上分析序列概率与正确性的对齐关系。在固定数据集内,高序列概率通常预示正确,但改变超参数或解码方法提升序列概率并不稳定提高准确度。对于同一提示的多次回复,序列概率与正确性相关性很弱。研究为解码策略、自一致性等提供实践指导。

arXiv cs.LGMany decoding methods for large language models can be understood as shifting probability mass toward outputs that are more likely under the model, either locally at the token level or globally at the sequence level. The