Agent Mode 是近期由 LM Arena 推出的新型 AI 智能体评估模式,旨在让用户通过真实工作任务来测试前沿 AI 模型的实际执行能力。与传统的聊天评分不同,Agent Mode 要求模型完成诸如代码开发、数据分析、信息检索等复杂、多步骤的任务,从而更客观地反映模型在真实场景中的表现。
- 近期主要进展包括:
- Agent Mode 正式上线:LM Arena 推出了这一新模式,支持包括 GPT-5.5、Claude Opus 4.7、Mistral 3.5 在内的多个顶尖模型,用户可提交任务并让 AI 自主规划执行,最终由人工或自动方式评估完成质量。(Arena 推出 Agent Mode,支持 GPT-5.5/Claude Opus 4.7 等模型)
- Mistral 3.5 加入评测:Mistral 最新模型被纳入 Agent Mode 评测体系,其在复杂真实任务上表现亮眼,展示了开源模型在智能体场景的竞争力。(Mistral 3.5 加入 Arena Agent Mode,可执行复杂真实任务)
- 评估体系与 FAQ 发布:官方发布了 Agent Mode 的详细 FAQ,分享了早期使用经验,强调了任务设计、模型自主性以及结果可靠性等关键点,帮助用户更好地理解和使用该模式。(Agent Mode 详解:FAQ 与早期经验分享)
当前焦点集中在 Agent Mode 能否成为衡量 AI 智能体实际能力的行业标准。其优势在于任务真实、结果可量化,但挑战在于如何保证任务多样性、避免评估偏差以及处理超长任务序列。未来观察点包括:更多模型入驻、任务类型的丰富化,以及该模式是否会被其他评测平台采用,从而推动 AI 从“对话”向“行动”的范式转变。