精选理由
这篇论文提出的ECHO框架,能让智能体在长回合任务中既保留细粒度证据,又能用强化学习追踪信用分配,效果比GRPO和SUPO都强。
ECHO通过源索引重建方法,将每个环境交互回合压缩为紧凑记忆记录,并从中选择构建策略上下文。该方法在BrowseComp-Plus基准上达到43.4%保留准确率,超越GRPO的28.9%和SUPO的36.1%,且使用更少回合和轨迹量。训练后的策略在多项问答、代码生成和深度信息检索任务中实现了零样本泛化提升。
AI 翻译 · 中文
ECHO通过源索引重建方法,将每个环境交互回合压缩为紧凑记忆记录,并从中选择构建策略上下文。该方法在BrowseComp-Plus基准上达到43.4%保留准确率,超越GRPO的28.9%和SUPO的36.1%,且使用更少回合和轨迹量。训练后的策略在多项问答、代码生成和深度信息检索任务中实现了零样本泛化提升。
Long-horizon language agents must repeatedly interact with tools, accumulate evidence, and make decisions under bounded context windows. Existing context-management methods make such rollouts feasible by truncating dista…