精选理由
智能体睡一觉,推理更强
该论文提出一种睡眠压缩机制,让模型每N步进行离线递归处理将上下文写入持久快速权重,然后清除KV缓存。在细胞自动机、多跳图检索和数学推理任务上,该方法比纯Transformer和SSM-Attention混合模型效果更好,睡眠时间越长性能提升越大。这为长时智能体提供了替代方案,通过压缩和遗忘原始token来避免注意力二次计算开销。
AI 翻译 · 中文
该论文提出一种睡眠压缩机制,让模型每N步进行离线递归处理将上下文写入持久快速权重,然后清除KV缓存。在细胞自动机、多跳图检索和数学推理任务上,该方法比纯Transformer和SSM-Attention混合模型效果更好,睡眠时间越长性能提升越大。这为长时智能体提供了替代方案,通过压缩和遗忘原始token来避免注意力二次计算开销。
Language models need "sleep" DAIR.AI @dair_ai // Language Models Need Sleep // Let your agents "sleep", folks. On a serious note, this is a fascinating paper on getting the most from long-horizon agen…