LLM掷骰子有多靠谱？概率推理能力大考

精选理由

想用LLM做决策或数据分析的开发者注意了——模型在概率推理上存在系统性漏洞，反直觉问题和提示误导能轻易让它翻车，建议点开看看测试细节，避免在实际应用中踩坑。

AI 摘要

该研究通过构建标准与反直觉两类离散概率问题数据集，测试了8个前沿大语言模型的概率推理能力。模型在标准问题上平均准确率达0.96，但在反直觉问题上骤降至0.59。研究还发现token偏差：将规范表述替换为伪装变体后性能下降超20%；在提示中嵌入误导性建议可使性能下降高达34%，且没有模型能免疫。结果表明，尽管LLM在高级数学问题上表现出色，但它们并非真正的概率推理者。

AI 翻译 · 中文

arXiv cs.AIWe investigate the probabilistic reasoning capabilities of large language models through a controlled benchmarking study on discrete probability problems. We constructed two datasets, respectively a set of standard exerc…

阅读原文