精选理由
这篇论文用实验证明LLM代理离了上下文里的计划就抓瞎,不是脑子记住了。对做多步任务代理的人很有启发。
该论文提出replay pairing诊断方法,测量LLM代理中计划信号随上下文步数的衰减。在Llama-3.1-70B上,计划信号在计划后一步骤达到0.453,随后单步动作-观察步骤下降4.1倍。推理模型如DeepSeek-R1-Distill-Llama-70B存在推理痕迹混淆,严格剥离后恢复+153%信号。计划驱逐导致ALFWorld成功率下降34.7个百分点。研究显示代理关键信息依赖上下文存在而非持久化。
AI 翻译 · 中文
该论文提出replay pairing诊断方法,测量LLM代理中计划信号随上下文步数的衰减。在Llama-3.1-70B上,计划信号在计划后一步骤达到0.453,随后单步动作-观察步骤下降4.1倍。推理模型如DeepSeek-R1-Distill-Llama-70B存在推理痕迹混淆,严格剥离后恢复+153%信号。计划驱逐导致ALFWorld成功率下降34.7个百分点。研究显示代理关键信息依赖上下文存在而非持久化。
Long-horizon agents depend on context management: systems compress, summarize, and evict old tokens so tasks can continue beyond finite windows. That is safe only when dropped information is no longer needed or has been …