ECHO: 选择性记忆框架解决智能体强化学习中的历史坍塌与可溯学习

精选理由

这篇论文提出的ECHO框架，能让智能体在长回合任务中既保留细粒度证据，又能用强化学习追踪信用分配，效果比GRPO和SUPO都强。

AI 摘要

ECHO通过源索引重建方法，将每个环境交互回合压缩为紧凑记忆记录，并从中选择构建策略上下文。该方法在BrowseComp-Plus基准上达到43.4%保留准确率，超越GRPO的28.9%和SUPO的36.1%，且使用更少回合和轨迹量。训练后的策略在多项问答、代码生成和深度信息检索任务中实现了零样本泛化提升。

AI 翻译 · 中文

arXiv cs.LGLong-horizon language agents must repeatedly interact with tools, accumulate evidence, and make decisions under bounded context windows. Existing context-management methods make such rollouts feasible by truncating dista…

阅读原文