精选理由
这篇论文提出MAA,能让智能体自我进化时跨批次累积有效操作,减少75%的token消耗,在多个基准上超过现有方法。
现有批量式轨迹蒸馏中,同一记忆操作在不同批次间可能收到矛盾反馈,缺乏跨批次操作级证据累积机制。MAA通过构造差分信号使证据跨批次可比,利用指数移动平均累积每操作符号证据,并通过语义身份合并保证跨批次可追溯。在4个基准和4个目标模型的16个设置中,MAA取得14个最佳结果,一致优于现有批量级蒸馏基线。优化阶段token消耗减少约75%。
AI 翻译 · 中文
现有批量式轨迹蒸馏中,同一记忆操作在不同批次间可能收到矛盾反馈,缺乏跨批次操作级证据累积机制。MAA通过构造差分信号使证据跨批次可比,利用指数移动平均累积每操作符号证据,并通过语义身份合并保证跨批次可追溯。在4个基准和4个目标模型的16个设置中,MAA取得14个最佳结果,一致优于现有批量级蒸馏基线。优化阶段token消耗减少约75%。
In batch-style trace distillation, the same memory operation may receive contradictory feedback across different batches. Existing methods lack a cross-batch, operation-level evidence accumulation mechanism, making it im…