11:20arXiv cs.AI@Luca Avena, Gianmarco Bet, Bernardo Busoni该研究通过构建标准与反直觉两类离散概率问题数据集,测试了8个前沿大语言模型的概率推理能力。模型在标准问题上平均准确率达0.96,但在反直觉问题上骤降至0.59。研究还发现token偏差:将规范表述替换为伪装变体后性能下降超20%;在提示中嵌入误导性建议可使性能下降高达34%,且没有模型能免疫。结果表明,尽管LLM在高级数学问题上表现出色,但它们并非真正的概率推理者。论文大语言模型概率推理基准测试token偏差提示工程推荐理由:想用LLM做决策或数据分析的开发者注意了——模型在概率推理上存在系统性漏洞,反直觉问题和提示误导能轻易让它翻车,建议点开看看测试细节,避免在实际应用中踩坑。原文