全部 AI 动态 · AI 热点

6月29日

01:42

01:42

OpenRouter@OpenRouterAI

OpenRouter 持续对大多数开源权重模型运行 GPQA 与 TAU-Bench 两个基准，并将结果公开。这些成绩被用于其 AutoExacto 元基准，后者是路由工具调用的默认依据。当前 Parasail 和 Zai 在排行榜上位列第一。

技巧 OpenRouter GPQA TAU-Bench AutoExacto 基准测试

推荐理由：选模型路由工具前，看看 OpenRouter 定期跑的 GPQA 和 TAU-Bench 排名，现在 Parasail 和 Zai 排第一，挺有参考价值。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

14:08

14:08

AlphaSignal@AlphaSignalAI

研究人员在论文《Training-Free Looped Transformers via Numerical ODE Integration》中提出一种无需重新训练即可提升冻结大模型性能的方法。该方法将每一层视为解常微分方程的一步，用多个小阻尼步骤替换原始大步骤，使模型获得更多推理时间。在MMLU-Pro上取得+2.64分提升，在GPQA上取得+2.01分提升，并在87%的测试组合中保持正向效果。

AI模型 Looped Transformers MMLU-Pro GPQA 推理模型无训练优化

推荐理由：这篇论文教会你一种骚操作：不重新训练，就能让现成模型在推理时多思考几轮，MMLU-Pro和GPQA分数都涨了，值得看看。

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？