09:44arXiv cs.AI@Peng Xu, Sijia Chen, Junzhuo Li, Xuming Hu论文提出SCPO,一种价值无关的奖励塑造方法,通过对比同组内成功与失败轨迹的中间步骤,为失败步骤恢复正向信用。该方法解决了因轨迹最终结果不同导致语义相似的中间步骤获得相反信用的问题。在ALFWorld基准上,1.5B参数模型达到93.7%±4.1%成功率;在WebShop基准上达到74.8%±2.0%成功率,提升集中在最难的多步任务。论文SCPOALFWorldWebShop强化学习智能体推荐理由:这篇论文解决了强化学习给LLM智能体分配奖励时的一个逻辑问题:相同意思的步骤因轨迹成败拿了相反信用。SCPO在ALFWorld和WebShop上跑分挺高,最难的步骤提升明显。原文
12:04arXiv: DeepSeek@Aman Mehta, Anupam Datta该论文提出replay pairing诊断方法,测量LLM代理中计划信号随上下文步数的衰减。在Llama-3.1-70B上,计划信号在计划后一步骤达到0.453,随后单步动作-观察步骤下降4.1倍。推理模型如DeepSeek-R1-Distill-Llama-70B存在推理痕迹混淆,严格剥离后恢复+153%信号。计划驱逐导致ALFWorld成功率下降34.7个百分点。研究显示代理关键信息依赖上下文存在而非持久化。论文Llama-3.1-70BDeepSeek-R1-Distill-Llama-70BALFWorld上下文管理推理模型推荐理由:这篇论文用实验证明LLM代理离了上下文里的计划就抓瞎,不是脑子记住了。对做多步任务代理的人很有启发。原文