Terminal-Bench

§ 01综述

Terminal-Bench是一个专为评估智能体（agent）持续学习能力而设计的基准测试平台，旨在衡量优化器在顺序任务中的知识积累与迁移效果。它由学术界提出，关注智能体在长期交互中的表现稳定性，为多任务学习提供标准化评估。

Terminal-Bench 近期进展

智能体优化器能否累积？Terminal-Bench 2.0持续学习评估：2026年7月，该工作提出Terminal-Bench 2.0，相比初版增加了更复杂的连续任务场景，重点测试智能体优化器在任务序列中是否能够累积先前经验并有效适应新任务。

SETA：为终端代理扩展训练环境：同期发布于arXiv cs.AI，SETA是一个专门为终端代理设计的训练环境扩展工具，通过模拟多样化的终端交互场景，为Terminal-Bench等基准提供更丰富的训练数据来源。

Proactive Memory Agent：长时任务的行为状态衰减干预方法：Meta研究团队提出了一种记忆驱动的方法，用于修复终端代理在长时任务中出现的行为状态衰减，这一方向与Terminal-Bench所评估的持续学习能力直接相关。

LLM-as-a-Verifier：一种通用验证框架：该工作提出将大语言模型作为验证器，在多个智能体基准上达到新SOTA，为Terminal-Bench等评估任务提供了新的性能验证手段。

当前焦点与观察点

Terminal-Bench 2.0的发布标志着智能体评估从单任务静态测试转向持续学习动态挑战。当前焦点在于：智能体如何在无需重置参数的情况下，通过记忆模块或优化策略实现知识累积，避免灾难性遗忘。同时，SETA提供更逼真的训练环境，Proactive Memory Agent提出干预衰减的新方法，LLM-as-a-Verifier则引入外部验证机制，这些进展共同推动了终端代理的鲁棒性和实用性提升。观察点在于，Terminal-Bench能否成为行业标准，并促使更多研究关注长期交互中的行为一致性。

§ 02相关报道10 条在档

§ 03邻近话题