03:01lmarena.ai@lmarena_ai精选72°GLM-5.2 (Max) 在 Agent Arena 排行榜上排名第10,得分接近 Claude-Opus-4.8(非推理模式)。它成为排名最高的开源模型,较去年发布的 GLM-5.1 从第13位上升3位。该模型在数百万真实长程任务上评测,可调用网页搜索、文件系统和终端工具。GLM-5.2 (Max) 输入/输出定价保持为每百万 token 1.4/4.4 美元,支持1M上下文窗口,权重采用 MIT 许可开源。AI模型GLM-5.2Zai_orgAgent Arena开源模型智能体推荐理由:Zai_org 发了 GLM-5.2,在 Agent 任务榜单上排第10,碾压所有开源模型,而且价格没变。跑复杂工作流、调工具效果明显进步。原文
01:31lmarena.ai@lmarena_ai精选MiniMax M3 在全新 Agent Arena 排行榜上位列第18,是排名第5的开源模型。相比 M2.7,M3 从第22名升至第18名,主要改进是任务成功确认和 bash 错误恢复能力。工具幻觉保持低位,与最佳模型并列第一。排行榜基于30万+任务、200万+工具调用和4000万行代码的代理会话评估。AI模型MiniMaxM3Agent Arena开源模型智能体推荐理由:MiniMax M3 在 Agent Arena 上排名上升了4位,是最强开源模型之一,能写代码、做PPT、查资料,幻觉控制也顶级。原文
11:05lmarena.ai@lmarena_ai精选NVIDIA 的 Nemotron 3 Ultra 在 Agent Arena 排行榜上位列第20名,在开源模型中排第5。该模型在用户表扬与投诉的净差值和工具幻觉率方面表现突出,但在可操控性和 bash 恢复能力上存在短板。排行榜基于30万+任务、200万+工具调用和4000万行代码的评测数据。当前分数置信区间较宽,排名仍在稳定中。AI模型Nemotron 3 UltraNVIDIAAgent Arena开源模型智能体10 个信源在谈推荐理由:NVIDIA 开源模型在智能体评测中排第5原文
04:05lmarena.ai@lmarena_ai精选73°GPT-5.5 (xHigh) 在 Agent Arena 中排名第二,净提升 10.6%,成为 OpenAI 排名最高的模型,仅次于 Claude Fable 5 (High)。在 Praise vs. Complaint 和 Bash Recovery 两项指标上,GPT-5.5 甚至超过了 Claude Fable 5。Agent Arena 通过数百万真实世界、长周期智能体任务评估模型,涵盖代码编写、幻灯片制作、网页研究、应用构建和文档分析等复杂工作流。该平台还推出了 Agent Mode,允许用户直接测试 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 等前沿模型。AI模型GPT-5.5Agent Arena智能体评测Claude Fable 5OpenAI10 个信源在谈推荐理由:做智能体开发和 AI 评测的团队值得关注——GPT-5.5 在用户满意度和故障恢复上反超 Claude,说明 OpenAI 在实用场景上有了实质提升,建议直接去 Agent Arena 跑跑自己的任务。原文
08:33lmarena.ai@lmarena_ai精选76°Anthropic 的 Claude Opus 4.8 在 Agent Arena 排行榜上首次亮相,在 Thinking 模式下与 GPT 5.5 (High) 并列第一,但在 Non-Thinking 模式下仅排第八。相比前代 Opus 4.7,Opus 4.8 在开启思考时任务完成率更高,但可操控性略差,从 bash 错误中恢复更慢,且工具幻觉率上升。Agent Arena 基于 30 万+任务、200 万+工具调用和 4000 万行代码,通过因果追踪方法评估模型在真实世界智能体任务中的表现。该排行榜衡量任务成功、可操控性、错误恢复、用户反馈和工具幻觉五个信号。AI模型智能体模型评测Claude Opus 4.8GPT 5.5Agent Arena10 个信源在谈推荐理由:Agent Arena 用真实任务和因果推断评估智能体,比传统基准更贴近实际使用场景。做智能体开发或选型的团队,值得关注这个排行榜来对比模型的实际表现。原文
05:03lmarena.ai@lmarena_ai精选xAI 的 Grok Build 0.1 和 Grok 4.3 (High) 在最新的 Agent Arena 排行榜中分别位列第15和第17名。Grok Build 0.1 在 bash 能力上有明显提升,但可操控性稍差且更容易出现工具幻觉,不过整体任务完成率更高。Agent Arena 使用因果追踪方法对模型在真实世界智能体任务中的表现进行排名。该排行榜基于全球用户社区提交的真实任务,从5个信号维度评估模型表现。AI模型智能体GrokxAIAgent Arena模型排名推荐理由:xAI 的模型在 Agent Arena 中取得不错排名,做智能体开发和自动化任务的团队可以看看 Grok Build 0.1 在 bash 能力上的改进,值得关注其实际任务完成率提升。原文
01:47lmarena.ai@lmarena_ai精选Agent Arena 排行榜正式上线,该榜单基于超过一百万次真实野外会话数据,挖掘出五个关键行为信号来评估智能体性能:确认成功、表扬与投诉、可操控性、Bash 恢复以及工具幻觉检测。这些信号从真实用户交互中提取,能更准确地反映智能体在实际场景中的表现。开发者可通过 arena.ai/leaderboard/ag 查看排行榜,了解不同智能体的行为质量。AI产品智能体排行榜行为信号评估Agent Arena推荐理由:做智能体开发和评估的团队终于有了基于真实用户行为的量化指标,比传统基准测试更贴近实际使用,建议点开看看你的智能体在这些信号上表现如何。原文
00:48lmarena.ai@lmarena_ai精选72°Agent Arena 排行榜发布方法论深度解读,通过因果推断评估模型的智能体性能。排行榜基于五个信号:任务成功率、可操控性、错误恢复能力、用户表扬与投诉比、工具幻觉率。这为评估 AI 智能体能力提供了更全面的框架,帮助开发者理解模型在实际任务中的表现。AI产品智能体排行榜因果推断评估方法Agent Arena推荐理由:做 AI 智能体评估的团队终于有了更科学的参考框架——五个信号覆盖了任务执行和用户体验,值得研究评测方法的开发者点开细看。原文
08:13lmarena.ai@lmarena_ai精选76°Arena.ai 宣布将 NVIDIA 的 Nemotron 3 Ultra 模型加入其新的 Agent Mode,用于评估 AI 智能体在真实世界中的多步骤任务能力。Agent Arena 通过数百万次真实用户会话,测量模型在编写代码、创建演示文稿、网络研究、构建应用和文档分析等复杂工作流中的表现。评估基于任务成功率、可操控性、错误恢复、用户反馈和工具幻觉五个信号。当前排行榜显示 OpenAI GPT-5.5 排名第一,Anthropic Claude-Opus-4.7 第二,Zai GLM-5.1 第三。该平台已积累超过 30 万任务、200 万次工具调用和 4000 万行代码数据。AI产品智能体评估/基准NVIDIANemotron 3 UltraAgent Arena10 个信源在谈推荐理由:Agent Arena 用真实任务数据解决了智能体评估难的问题,做 AI 智能体开发或选型的团队可以直接参考排行榜和会话信号,比纯基准测试更有说服力。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……