Battle

§ 01综述

Battle Mode 是 AI 模型在 Arena 评测平台中的一种竞争性测试模式，允许不同模型在相同任务上直接对比性能，类似于擂台赛。近期，多个前沿模型如 GPT-5.6、Grok 4.5 和 Claude Fable 5 相继进入 Battle Mode 和 Agent Mode 测试，标志着 AI 评测从单项基准向动态对抗转型。

Battle 近期进展

2025年3月24日，Arena 宣布 GPT-5.6 推出 Battle Mode 和 Agent Mode 供用户测试，这是 OpenAI 首次在公开平台开放模型对战模式。GPT-5.6 推出 Battle Mode 和 Agent Mode 供用户测试

同日，Meta 发布 Muse Spark 1.1 并进入 Agent Arena 评测，该平台专注编程和智能体任务，此前 Grok 4.5 和 Claude Opus 4.8 已加入。Meta发布Muse Spark 1.1，进入Agent Arena评测

3月24日，Grok 4.5 在 Battle Mode 和 Agent Mode 中开放测试，其分数即将公布，表明 xAI 正积极争夺评测榜单前列。Grok 4.5 在 Battle Mode 和 Agent Mode 中开放测试，分数即将公布

更早的3月18日，Claude Fable 5 重返 Arena 并测试 prompt 蒙太奇视频，同时支持 Battle Mode 与 Agent Mode，显示 Anthropic 在创意生成与对抗性测试上的布局。Arena邀测Claude Fable 5：Battle Mode与Agent Mode

当前焦点与观察点

当前 Battle 的焦点在于：不同厂商模型的实时对抗结果是否会影响开源与闭源路线之争，以及 Agent Mode 是否能真实反映模型在复杂场景下的自主能力。例如，Grok 4.5 的加入可能拉高编程赛道分数，而 Claude Opus 4.8 在 Code Arena 前端测试中的亮眼表现（3月6日）Claude Opus 4.8 在 Code Arena 前端测试中表现亮眼已引发对模型编码倾向的新讨论。预计未来 Battle 会持续推动模型在鲁棒性、多轮交互和实时适应性上的进化。

§ 02相关报道09 条在档

§ 03邻近话题