AgentCL:语言智能体持续学习的严格评估框架

AGENTCL: Toward Rigorous Evaluation of Continual Learning in Language Agents

精选理由

做智能体持续学习和记忆设计的团队,AgentCL提供了比现有基准更严格的评估方法,能帮你诊断记忆设计在跨任务复用中的真实效果,值得参考。

AI 摘要

语言智能体在单个任务上花费大量推理时间,但跨任务的经验复用不足。现有基准难以严格评估持续学习,多聚焦长上下文检索或简单任务流,缺乏对跨任务关系的分析。本文提出AgentCL框架,通过受控任务流和迁移增益指标,评估智能体能否积累可复用经验、随时间改进并避免干扰。实验表明,受控流比简单流更能区分记忆设计的可塑性,而简单流和保留设置常暴露记忆导致的性能退化。该工作为设计平衡可塑性与稳定复用的记忆系统提供了方向。

AI 翻译 · 中文

语言智能体在单个任务上花费大量推理时间,但跨任务的经验复用不足。现有基准难以严格评估持续学习,多聚焦长上下文检索或简单任务流,缺乏对跨任务关系的分析。本文提出AgentCL框架,通过受控任务流和迁移增益指标,评估智能体能否积累可复用经验、随时间改进并避免干扰。实验表明,受控流比简单流更能区分记忆设计的可塑性,而简单流和保留设置常暴露记忆导致的性能退化。该工作为设计平衡可塑性与稳定复用的记忆系统提供了方向。

arXiv cs.AILanguage agents spend substantial inference time solving individual tasks, yet the experience acquired in one episode is often underutilized in future episodes. Continual learning expects an agent to accumulate reusable