AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:AA-Briefcase×
6月30日
03:07
03:07@koltregaskes@koltregaskes
Ethan Mollick根据Artificial Analysis的AA-Briefcase分数,绘制了AI模型在复杂多周咨询任务上的表现趋势。AA-Briefcase测试模型处理电子表格和策略规划等可交付成果。GLM-5.2等开源模型目前达到的水平,与闭源模型三个月前的分数一致。高端闭源模型仍保持明显领先,但差距在缩小。
AI模型GLM-5.2AA-Briefcase开源模型智能体基准测试

推荐理由:开源模型GLM-5.2在AA-Briefcase智能体基准上只差闭源三个月了,做复杂任务时值得试试看。
原文
6月29日
13:49
13:49Ethan Mollick@emollick
AA-Briefcase评分由@ArtificialAnlys发布,用于衡量AI完成多周复杂咨询任务的能力。最新得分曲线显示,AI模型在短期内取得了快速进步。开放权重模型与封闭模型之间存在明显的差距,封闭模型整体表现更优。该评测揭示了当前AI在多步骤复杂任务中的能力差异。
AI模型AA-Briefcase开放模型封闭模型AI基准

推荐理由:新评测让AI做多周复杂咨询,结果看到开放模型和封闭模型差距挺大,进步也很快。
原文
6月27日
12:09
12:09NVIDIA AI@NVIDIAAI
ArtificialAnlys发布新基准AA-Briefcase,用于评估复杂项目中的现实任务。Nemotron 3 Ultra在该基准开放模型中排名靠前。该模型在多种长时间运行的智能体任务上表现强劲,即使首次面对这些任务也能保持性能。该基准旨在测试模型的长期执行与泛化能力。
AI模型AA-BriefcaseNemotron 3 UltraArtificialAnlys智能体基准

推荐理由:新出的AA-Briefcase基准可以看看,Nemotron 3 Ultra在开放模型里排前面,适合对比它处理复杂任务的能力。
原文
6月19日
09:25
09:25Clement Delangue@ClementDelangue
AA-Briefcase基准测试评估模型在长期知识工作项目中的表现,任务成本差异达800倍。Claude Fable 5以1587 Elo领先,但平均任务成本31美元;Claude Opus 4.8得分1356,成本10.40美元。DeepSeek V4 Flash仅需约0.04美元,性价比最高。GLM-5.2得分1266,成本2.40美元,得分仅低Claude Opus 4.8不到90 Elo,成本不到其25%。
AI模型Claude Fable 5DeepSeek V4 FlashGLM-5.2AA-Briefcase推理模型

推荐理由:新基准AA-Briefcase测长期项目,Claude Fable 5最强但贵,DeepSeek V4 Flash极便宜,GLM-5.2性价比超赞。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
精选全部日报登录