Arena

§ 01综述

Arena 是 lmarena.ai 旗下的一系列 AI 模型评测排行榜平台，通过竞技场式的匿名对战、代码测试、视频生成等维度，为开发者提供模型性能的直观对比。近期，Arena 在商业化和评测范围上均取得显著进展：其评估产品上线 8 个月即实现年收入 1 亿美元，同时陆续推出 Code Arena、Video Arena 和 Agent Arena 等新赛道，成为业界关注模型能力的核心参考之一。

Arena 近期进展

Arena 评估产品商业化加速：推出仅 8 个月，Arena 评估产品的年收入即达到 1 亿美元，反映出业界对标准化模型评测的强烈需求。Arena 推出评估产品8个月后年收入达1亿美元

Agent Arena 排行榜上线：Arena 发布专门的 Agent 评测榜单，支持按开放模型和实验室筛选，并首次引入因果追踪方法论和 token 效率分析，其中 Opus 与 Fable 在效率上表现突出。Agent Arena排行榜上线，支持按开放模型和实验室筛选

多领域排名持续更新：在 Code Arena 前端排名中，GLM-5.2 超越 Claude Opus 4.8 位列第二，仅次于 Fable 5；Video Arena 则迎来 HappyHorse 1.1 的挑战，试图刷新上一代排名。GLM-5.2 在 Code Arena 前端排名超 Claude Opus 4.8

当前焦点与观察点

当前 Arena 的焦点在于如何平衡评测的广度与深度：一方面扩展至视频、代理（Agent）等新兴领域，另一方面需确保方法论透明且可复现。此外，模型开发者对 Arena 排名的重视程度持续上升——排名靠前的模型往往能获得更多关注，这反过来也推动了更多模型参与 Arena 评测。值得注意的是，评估产品的高速创收表明，行业愿意为可靠的基准测试付费，而 Arena 正试图定义这一细分市场的标准。

§ 02相关报道10 条在档

§ 03邻近话题