精选 AI 资讯 · AI 热点

6月17日

03:01

lmarena.ai@lmarena_ai

精选72°

GLM-5.2 (Max) 在 Agent Arena 排行榜上排名第10，得分接近 Claude-Opus-4.8（非推理模式）。它成为排名最高的开源模型，较去年发布的 GLM-5.1 从第13位上升3位。该模型在数百万真实长程任务上评测，可调用网页搜索、文件系统和终端工具。GLM-5.2 (Max) 输入/输出定价保持为每百万 token 1.4/4.4 美元，支持1M上下文窗口，权重采用 MIT 许可开源。

AI模型 GLM-5.2 Zai_org Agent Arena 开源模型智能体

推荐理由：Zai_org 发了 GLM-5.2，在 Agent 任务榜单上排第10，碾压所有开源模型，而且价格没变。跑复杂工作流、调工具效果明显进步。

原文

01:31

lmarena.ai@lmarena_ai

精选

MiniMax M3 在全新 Agent Arena 排行榜上位列第18，是排名第5的开源模型。相比 M2.7，M3 从第22名升至第18名，主要改进是任务成功确认和 bash 错误恢复能力。工具幻觉保持低位，与最佳模型并列第一。排行榜基于30万+任务、200万+工具调用和4000万行代码的代理会话评估。

AI模型 MiniMax M3 Agent Arena 开源模型智能体

推荐理由：MiniMax M3 在 Agent Arena 上排名上升了4位，是最强开源模型之一，能写代码、做PPT、查资料，幻觉控制也顶级。

原文

6月13日

11:05

lmarena.ai@lmarena_ai

精选

NVIDIA 的 Nemotron 3 Ultra 在 Agent Arena 排行榜上位列第20名，在开源模型中排第5。该模型在用户表扬与投诉的净差值和工具幻觉率方面表现突出，但在可操控性和 bash 恢复能力上存在短板。排行榜基于30万+任务、200万+工具调用和4000万行代码的评测数据。当前分数置信区间较宽，排名仍在稳定中。

AI模型 Nemotron 3 Ultra NVIDIA Agent Arena 开源模型智能体

推荐理由：NVIDIA 开源模型在智能体评测中排第5

原文

6月12日

04:05

lmarena.ai@lmarena_ai

精选73°

GPT-5.5 (xHigh) 在 Agent Arena 中排名第二，净提升 10.6%，成为 OpenAI 排名最高的模型，仅次于 Claude Fable 5 (High)。在 Praise vs. Complaint 和 Bash Recovery 两项指标上，GPT-5.5 甚至超过了 Claude Fable 5。Agent Arena 通过数百万真实世界、长周期智能体任务评估模型，涵盖代码编写、幻灯片制作、网页研究、应用构建和文档分析等复杂工作流。该平台还推出了 Agent Mode，允许用户直接测试 GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro 等前沿模型。

AI模型 GPT-5.5 Agent Arena 智能体评测 Claude Fable 5 OpenAI

推荐理由：做智能体开发和 AI 评测的团队值得关注——GPT-5.5 在用户满意度和故障恢复上反超 Claude，说明 OpenAI 在实用场景上有了实质提升，建议直接去 Agent Arena 跑跑自己的任务。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

08:33

lmarena.ai@lmarena_ai

精选76°

Anthropic 的 Claude Opus 4.8 在 Agent Arena 排行榜上首次亮相，在 Thinking 模式下与 GPT 5.5 (High) 并列第一，但在 Non-Thinking 模式下仅排第八。相比前代 Opus 4.7，Opus 4.8 在开启思考时任务完成率更高，但可操控性略差，从 bash 错误中恢复更慢，且工具幻觉率上升。Agent Arena 基于 30 万+任务、200 万+工具调用和 4000 万行代码，通过因果追踪方法评估模型在真实世界智能体任务中的表现。该排行榜衡量任务成功、可操控性、错误恢复、用户反馈和工具幻觉五个信号。

AI模型智能体模型评测 Claude Opus 4.8 GPT 5.5 Agent Arena

推荐理由：Agent Arena 用真实任务和因果推断评估智能体，比传统基准更贴近实际使用场景。做智能体开发或选型的团队，值得关注这个排行榜来对比模型的实际表现。

原文

6月9日

05:03

lmarena.ai@lmarena_ai

精选

xAI 的 Grok Build 0.1 和 Grok 4.3 (High) 在最新的 Agent Arena 排行榜中分别位列第15和第17名。Grok Build 0.1 在 bash 能力上有明显提升，但可操控性稍差且更容易出现工具幻觉，不过整体任务完成率更高。Agent Arena 使用因果追踪方法对模型在真实世界智能体任务中的表现进行排名。该排行榜基于全球用户社区提交的真实任务，从5个信号维度评估模型表现。

AI模型智能体 Grok xAI Agent Arena 模型排名

推荐理由：xAI 的模型在 Agent Arena 中取得不错排名，做智能体开发和自动化任务的团队可以看看 Grok Build 0.1 在 bash 能力上的改进，值得关注其实际任务完成率提升。

原文

01:47

lmarena.ai@lmarena_ai

精选

AI产品智能体排行榜行为信号评估 Agent Arena

推荐理由：做智能体开发和评估的团队终于有了基于真实用户行为的量化指标，比传统基准测试更贴近实际使用，建议点开看看你的智能体在这些信号上表现如何。

原文

6月7日

00:48

lmarena.ai@lmarena_ai

精选72°

AI产品智能体排行榜因果推断评估方法 Agent Arena

推荐理由：做 AI 智能体评估的团队终于有了更科学的参考框架——五个信号覆盖了任务执行和用户体验，值得研究评测方法的开发者点开细看。

原文

6月5日

08:13

lmarena.ai@lmarena_ai

精选76°

Arena.ai 宣布将 NVIDIA 的 Nemotron 3 Ultra 模型加入其新的 Agent Mode，用于评估 AI 智能体在真实世界中的多步骤任务能力。Agent Arena 通过数百万次真实用户会话，测量模型在编写代码、创建演示文稿、网络研究、构建应用和文档分析等复杂工作流中的表现。评估基于任务成功率、可操控性、错误恢复、用户反馈和工具幻觉五个信号。当前排行榜显示 OpenAI GPT-5.5 排名第一，Anthropic Claude-Opus-4.7 第二，Zai GLM-5.1 第三。该平台已积累超过 30 万任务、200 万次工具调用和 4000 万行代码数据。

AI产品智能体评估/基准 NVIDIA Nemotron 3 Ultra Agent Arena

推荐理由：Agent Arena 用真实任务数据解决了智能体评估难的问题，做 AI 智能体开发或选型的团队可以直接参考排行榜和会话信号，比纯基准测试更有说服力。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……