全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月21日

15:49

15:49

rohanpaul_ai@rohanpaul_ai

精选72°

一种名为GRAM（生成式递归推理）的新模型，仅用1000万参数，通过同时探索多条推理路径，在硬数独谜题上达到97%准确率，超越此前最佳递归模型（87.4%）。传统递归模型是确定性的，容易陷入错误轨迹，而GRAM在每个推理步骤注入随机性，生成多样化的推理路径，并在测试时并行运行并选择最佳结果。在N皇后等多解任务中，GRAM保持近乎完美的准确率，而确定性模型随解数量增加而崩溃。此外，GRAM还能作为生成器，用16步生成有效数独谜题，成功率99%，远超扩散模型。

论文推理模型并行推理随机性数独 GRAM

推荐理由：GRAM用随机性打破了递归模型的确定性瓶颈，做推理模型或搜索算法的研究者可以直接复现，做数独或组合优化应用的团队值得关注。

5月15日

10:56

10:56

arXiv cs.AI@Shang Zhou, Wenhao Chai, Kaiyuan Liu, Huanzhi Mao, Qiuyang Mang, Jingbo Shang

精选

OpenDeepThink 是一种基于种群的测试时计算扩展框架，通过成对 Bradley-Terry 比较选择最佳推理候选，解决了并行采样中的选择瓶颈。每次迭代中，LLM 对随机候选对进行评判并聚合为全局排名，保留顶部候选并变异前四分之三，丢弃底部四分之一。在 Codeforces 上，Gemini 3.1 Pro 的 Elo 评分在 8 轮 LLM 调用（约 27 分钟）内提升 405 分。该方法跨弱强模型无需重新调参，在 HLE 基准上，增益集中在客观可验证领域，主观领域则出现逆转。同时发布了 CF-73 数据集，包含 73 道专家评级的 Codeforces 问题。

论文推理模型测试时计算扩展 Bradley-Terry 并行推理 Codeforces

推荐理由：OpenDeepThink 用 Bradley-Terry 聚合解决了并行推理的候选选择难题，做推理扩展的开发者可以直接复现，效果显著且无需调参。