Agent Mode

§ 01综述

Agent Mode 是近期由 LM Arena 推出的新型 AI 智能体评估模式，旨在让用户通过真实工作任务来测试前沿 AI 模型的实际执行能力。与传统的聊天评分不同，Agent Mode 要求模型完成诸如代码开发、数据分析、信息检索等复杂、多步骤的任务，从而更客观地反映模型在真实场景中的表现。

Agent Mode 正式上线：LM Arena 推出了这一新模式，支持包括 GPT-5.5、Claude Opus 4.7、Mistral 3.5 在内的多个顶尖模型，用户可提交任务并让 AI 自主规划执行，最终由人工或自动方式评估完成质量。(Arena 推出 Agent Mode，支持 GPT-5.5/Claude Opus 4.7 等模型)
Mistral 3.5 加入评测：Mistral 最新模型被纳入 Agent Mode 评测体系，其在复杂真实任务上表现亮眼，展示了开源模型在智能体场景的竞争力。(Mistral 3.5 加入 Arena Agent Mode，可执行复杂真实任务)
评估体系与 FAQ 发布：官方发布了 Agent Mode 的详细 FAQ，分享了早期使用经验，强调了任务设计、模型自主性以及结果可靠性等关键点，帮助用户更好地理解和使用该模式。(Agent Mode 详解：FAQ 与早期经验分享)

当前焦点集中在 Agent Mode 能否成为衡量 AI 智能体实际能力的行业标准。其优势在于任务真实、结果可量化，但挑战在于如何保证任务多样性、避免评估偏差以及处理超长任务序列。未来观察点包括：更多模型入驻、任务类型的丰富化，以及该模式是否会被其他评测平台采用，从而推动 AI 从“对话”向“行动”的范式转变。

§ 02相关报道05 条在档

§ 03邻近话题