MAA：记忆驱动智能体自我进化的边际优势累积

精选理由

这篇论文提出MAA，能让智能体自我进化时跨批次累积有效操作，减少75%的token消耗，在多个基准上超过现有方法。

AI 摘要

现有批量式轨迹蒸馏中，同一记忆操作在不同批次间可能收到矛盾反馈，缺乏跨批次操作级证据累积机制。MAA通过构造差分信号使证据跨批次可比，利用指数移动平均累积每操作符号证据，并通过语义身份合并保证跨批次可追溯。在4个基准和4个目标模型的16个设置中，MAA取得14个最佳结果，一致优于现有批量级蒸馏基线。优化阶段token消耗减少约75%。

AI 翻译 · 中文

arXiv cs.LGIn batch-style trace distillation, the same memory operation may receive contradictory feedback across different batches. Existing methods lack a cross-batch, operation-level evidence accumulation mechanism, making it im…

阅读原文