全部 AI 动态 · AI 热点

6月30日

03:07

03:07

@koltregaskes@koltregaskes

Ethan Mollick根据Artificial Analysis的AA-Briefcase分数，绘制了AI模型在复杂多周咨询任务上的表现趋势。AA-Briefcase测试模型处理电子表格和策略规划等可交付成果。GLM-5.2等开源模型目前达到的水平，与闭源模型三个月前的分数一致。高端闭源模型仍保持明显领先，但差距在缩小。

AI模型 GLM-5.2 AA-Briefcase 开源模型智能体基准测试

推荐理由：开源模型GLM-5.2在AA-Briefcase智能体基准上只差闭源三个月了，做复杂任务时值得试试看。

6月29日

13:49

13:49

Ethan Mollick@emollick

AA-Briefcase评分由@ArtificialAnlys发布，用于衡量AI完成多周复杂咨询任务的能力。最新得分曲线显示，AI模型在短期内取得了快速进步。开放权重模型与封闭模型之间存在明显的差距，封闭模型整体表现更优。该评测揭示了当前AI在多步骤复杂任务中的能力差异。

AI模型 AA-Briefcase 开放模型封闭模型 AI基准

推荐理由：新评测让AI做多周复杂咨询，结果看到开放模型和封闭模型差距挺大，进步也很快。

6月27日

12:09

12:09

NVIDIA AI@NVIDIAAI

ArtificialAnlys发布新基准AA-Briefcase，用于评估复杂项目中的现实任务。Nemotron 3 Ultra在该基准开放模型中排名靠前。该模型在多种长时间运行的智能体任务上表现强劲，即使首次面对这些任务也能保持性能。该基准旨在测试模型的长期执行与泛化能力。

AI模型 AA-Briefcase Nemotron 3 Ultra ArtificialAnlys 智能体基准

推荐理由：新出的AA-Briefcase基准可以看看，Nemotron 3 Ultra在开放模型里排前面，适合对比它处理复杂任务的能力。

6月19日

09:25

09:25

Clement Delangue@ClementDelangue

AA-Briefcase基准测试评估模型在长期知识工作项目中的表现，任务成本差异达800倍。Claude Fable 5以1587 Elo领先，但平均任务成本31美元；Claude Opus 4.8得分1356，成本10.40美元。DeepSeek V4 Flash仅需约0.04美元，性价比最高。GLM-5.2得分1266，成本2.40美元，得分仅低Claude Opus 4.8不到90 Elo，成本不到其25%。

AI模型 Claude Fable 5 DeepSeek V4 Flash GLM-5.2 AA-Briefcase 推理模型

推荐理由：新基准AA-Briefcase测长期项目，Claude Fable 5最强但贵，DeepSeek V4 Flash极便宜，GLM-5.2性价比超赞。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？