MAA:记忆驱动智能体自我进化的边际优势累积

Marginal Advantage Accumulation for Memory-Driven Agent Self-Evolution

精选理由

这篇论文提出MAA,能让智能体自我进化时跨批次累积有效操作,减少75%的token消耗,在多个基准上超过现有方法。

AI 摘要

现有批量式轨迹蒸馏中,同一记忆操作在不同批次间可能收到矛盾反馈,缺乏跨批次操作级证据累积机制。MAA通过构造差分信号使证据跨批次可比,利用指数移动平均累积每操作符号证据,并通过语义身份合并保证跨批次可追溯。在4个基准和4个目标模型的16个设置中,MAA取得14个最佳结果,一致优于现有批量级蒸馏基线。优化阶段token消耗减少约75%。

AI 翻译 · 中文

现有批量式轨迹蒸馏中,同一记忆操作在不同批次间可能收到矛盾反馈,缺乏跨批次操作级证据累积机制。MAA通过构造差分信号使证据跨批次可比,利用指数移动平均累积每操作符号证据,并通过语义身份合并保证跨批次可追溯。在4个基准和4个目标模型的16个设置中,MAA取得14个最佳结果,一致优于现有批量级蒸馏基线。优化阶段token消耗减少约75%。

arXiv cs.LGIn batch-style trace distillation, the same memory operation may receive contradictory feedback across different batches. Existing methods lack a cross-batch, operation-level evidence accumulation mechanism, making it im