Bench

§ 01综述

Bench，在人工智能领域通常指用于评估模型或系统性能的基准测试（Benchmark）的简称，是衡量AI能力进步的关键工具。近期，一系列关于AI智能体评估和训练的Bench研究密集发布，揭示了基准设计正从静态测试向动态、长程、自我改进方向演进。

Bench 近期进展

Long-Horizon-Terminal-Bench 基准：长期终端任务极限评测：该基准专门针对需要长期规划和终端执行的任务，挑战AI在复杂环境中的持续决策能力。

LLM-as-a-Verifier：验证成为新的扩展轴，在多个Agent基准上达SOTA：斯坦福团队提出将大模型作为验证器，在多个智能体基准上取得最优结果，强调了验证阶段对提升Bench性能的重要性。

TRACE：智能体识别缺失能力自我改进，Qwen3.6-27B达73.2%：斯坦福的另一项工作TRACE让智能体自主识别缺失技能并生成合成训练数据，在相关Bench上达到73.2%的准确率。

Meta研究：记忆智能体修复长程任务中的行为状态衰减：Meta发现长程任务中智能体行为会随时间衰减，通过引入记忆机制可有效修复，从而提升Bench表现。

当前焦点与观察点

当前Bench研究的焦点集中在智能体的自我改进能力和长程任务挑战上。多个工作（如TRACE、LLM-as-a-Verifier）不再满足于静态评测，而是让智能体在Bench测试中自主学习并弥补不足。同时，Long-Horizon-Terminal-Bench等新基准的出现，将评估维度从简单回合扩展到需要多步推理和长期记忆的终端任务。此外，Meta关于行为状态衰减的研究提示，即便在表现良好的Bench上，智能体也可能存在隐性退化，需要通过记忆机制或动态环境设计来应对。总体而言，Bench正从单纯的能力度量工具转变为推动AI自适应和持续学习的驱动力。

§ 02相关报道10 条在档

§ 03邻近话题