论文精选

语言模型需要“sleep”

Language models need "sleep"

精选理由

智能体睡一觉,推理更强

AI 摘要

该论文提出一种睡眠压缩机制,让模型每N步进行离线递归处理将上下文写入持久快速权重,然后清除KV缓存。在细胞自动机、多跳图检索和数学推理任务上,该方法比纯Transformer和SSM-Attention混合模型效果更好,睡眠时间越长性能提升越大。这为长时智能体提供了替代方案,通过压缩和遗忘原始token来避免注意力二次计算开销。

AI 翻译 · 中文

该论文提出一种睡眠压缩机制,让模型每N步进行离线递归处理将上下文写入持久快速权重,然后清除KV缓存。在细胞自动机、多跳图检索和数学推理任务上,该方法比纯Transformer和SSM-Attention混合模型效果更好,睡眠时间越长性能提升越大。这为长时智能体提供了替代方案,通过压缩和遗忘原始token来避免注意力二次计算开销。

elvisLanguage models need "sleep" DAIR.AI @dair_ai // Language Models Need Sleep // Let your agents "sleep", folks. On a serious note, this is a fascinating paper on getting the most from long-horizon agen