Agent Arena

§ 01综述

Agent Arena 是一个基于百万级真实智能体任务的大规模模型评估排行榜，由 lmarena.ai 推出，用于衡量语言模型在长期复杂任务中的表现。该平台通过自动化测试和用户投票，提供多维度性能指标。

Agent Arena 近期进展

2025年4月12日：Kimi K3 正式登陆 Agent Arena，接受长期智能体任务评估，其表现将与其他模型进行对比。原文链接

2025年4月12日：Inkling 多模态模型加入 Agent Arena 并开放权重，支持图像与文本混合任务。原文链接

2025年4月11日：Agent Arena 发布排行榜（基于百万真实智能体任务），Meta 的 Muse Spark 1.1 排名第五。原文链接

2025年4月11日：GPT-5.6 Sol 升至第二名（净提升1.6%），缩小与第一名 Claude Fable 的差距；Grok-4.5 排名第13（基于9.8K实时会话），幻觉指标位列第4。原文链接

竞争格局：榜首争夺激烈，Claude Fable 暂居第一，但 GPT-5.6 Sol 快速追赶。Meta、Anthropic、OpenAI 等巨头持续投入，新入局者（如 Kimi K3、Inkling）加速生态丰富。

评估维度：Agent Arena 强调长期任务完成度、可操纵性、幻觉率等指标，与传统问答式排行榜（如 Chatbot Arena）形成互补，推动模型走向更实用的智能体应用。

争议点：虽然基于百万任务，但任务类型和难度权重可能影响排名公允性；部分模型（如 Grok-4.5）在幻觉指标上表现优异但总排名靠后，提示需要更透明的评分细则。

§ 02相关报道10 条在档

§ 03邻近话题