11:20arXiv cs.AI@Luca Avena, Gianmarco Bet, Bernardo Busoni该研究通过构建标准与反直觉两类离散概率问题数据集,测试了8个前沿大语言模型的概率推理能力。模型在标准问题上平均准确率达0.96,但在反直觉问题上骤降至0.59。研究还发现token偏差:将规范表述替换为伪装变体后性能下降超20%;在提示中嵌入误导性建议可使性能下降高达34%,且没有模型能免疫。结果表明,尽管LLM在高级数学问题上表现出色,但它们并非真正的概率推理者。论文大语言模型概率推理基准测试token偏差提示工程推荐理由:想用LLM做决策或数据分析的开发者注意了——模型在概率推理上存在系统性漏洞,反直觉问题和提示误导能轻易让它翻车,建议点开看看测试细节,避免在实际应用中踩坑。原文
11:06arXiv cs.AI@Anany Kotawala多组件LLM智能体由多个子组件组成,每个子组件只看到联合问题的一部分,即使每个组件局部一致,组合后也可能违反基本概率公理。本文通过组合残差ε*形式化这种“局部一致、全局不一致”的失败,该残差可在运行时从系统输出和声明的跨组件耦合约束计算。研究在4个LLM的1876个集成团上发现,33-94%的团存在ε*>0,导致每赌注+0.115 nats的遗憾。三种直观的LLM侧缓解方法(检索、分区感知提示、聚合LLM)均失败或退化。论文LLM智能体组合一致性概率推理形式化验证多组件系统推荐理由:多组件LLM系统的组合一致性是实际部署中的关键问题,做智能体架构或概率推理的开发者会直接受益——本文提供了可计算的诊断方法和理论边界,值得关注其修复方案。原文