全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

14:43

14:43

Philipp Schmid@_philschmid

Agents' Last Exam (ALE) 是一个针对 AI 智能体的新基准测试，包含来自 55 个行业的 1000 多个真实专业任务，所有任务都源自实际专家工作，而非合成数据。测试结果显示，最佳智能体在最简单任务上得分低于 50%，在困难任务上低于 10%，最前沿模型在最高难度任务上通过率为 0%。模型选择对性能的影响大于工具链（harness），且增加 token 消耗并不能提升结果。智能体常见失败模式包括策略错误（47%）、领域知识缺失（31%）和执行错误（22%），且 34% 的任务需要 GUI 软件，但智能体倾向于回避并采用 CLI 变通方案。

AI模型智能体基准测试 ALE 真实任务评估

推荐理由：ALE 揭示了当前 AI 智能体在真实专业任务上的真实水平，做智能体开发或评估的团队值得关注——它可能是衡量 Agent 能力的最后一把尺子。

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？