11:02arXiv cs.LG@Mingyu Yang, Keye Zheng, Congchao Cheng, Yujie Liu, Xingkang Lu, Fan Jiang, Yefei Zheng现有批量式轨迹蒸馏中,同一记忆操作在不同批次间可能收到矛盾反馈,缺乏跨批次操作级证据累积机制。MAA通过构造差分信号使证据跨批次可比,利用指数移动平均累积每操作符号证据,并通过语义身份合并保证跨批次可追溯。在4个基准和4个目标模型的16个设置中,MAA取得14个最佳结果,一致优于现有批量级蒸馏基线。优化阶段token消耗减少约75%。论文智能体MAA轨迹蒸馏边际优势累积推荐理由:这篇论文提出MAA,能让智能体自我进化时跨批次累积有效操作,减少75%的token消耗,在多个基准上超过现有方法。原文