全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月8日

11:20

11:20

arXiv cs.AI@Luca Avena, Gianmarco Bet, Bernardo Busoni

该研究通过构建标准与反直觉两类离散概率问题数据集，测试了8个前沿大语言模型的概率推理能力。模型在标准问题上平均准确率达0.96，但在反直觉问题上骤降至0.59。研究还发现token偏差：将规范表述替换为伪装变体后性能下降超20%；在提示中嵌入误导性建议可使性能下降高达34%，且没有模型能免疫。结果表明，尽管LLM在高级数学问题上表现出色，但它们并非真正的概率推理者。

论文大语言模型概率推理基准测试 token偏差提示工程

推荐理由：想用LLM做决策或数据分析的开发者注意了——模型在概率推理上存在系统性漏洞，反直觉问题和提示误导能轻易让它翻车，建议点开看看测试细节，避免在实际应用中踩坑。

5月29日

11:06

11:06

arXiv cs.AI@Anany Kotawala

多组件LLM智能体由多个子组件组成，每个子组件只看到联合问题的一部分，即使每个组件局部一致，组合后也可能违反基本概率公理。本文通过组合残差ε*形式化这种“局部一致、全局不一致”的失败，该残差可在运行时从系统输出和声明的跨组件耦合约束计算。研究在4个LLM的1876个集成团上发现，33-94%的团存在ε*>0，导致每赌注+0.115 nats的遗憾。三种直观的LLM侧缓解方法（检索、分区感知提示、聚合LLM）均失败或退化。

论文 LLM智能体组合一致性概率推理形式化验证多组件系统

推荐理由：多组件LLM系统的组合一致性是实际部署中的关键问题，做智能体架构或概率推理的开发者会直接受益——本文提供了可计算的诊断方法和理论边界，值得关注其修复方案。