论文83°

大模型也需要“睡觉”:CMU/UMD提出睡眠式记忆固化机制

别被骗了! 大模型也特么需要“睡觉”? 一个来自CMU和UMD的研究团队发现:Transforme…

精选理由

这个研究用“睡觉”这种生物启发机制解决了长上下文推理的显存和速度瓶颈,做长序列AI应用的开发者可以直接参考开源方案,比堆显存更聪明。

AI 摘要

CMU和UMD的研究团队发现,Transformer大模型在处理超长任务时注意力机制会因上下文长度二次方爆炸而性能下降。他们提出“sleep-like consolidation”机制,让模型在“睡眠”期间将最近上下文转化为持久fast weights并清空KV cache,从而将短期记忆转为长期记忆。实验表明,增加睡眠深度或时长能显著提升睡眠后的推理能力。该方案完全开源,颠覆了传统靠堆显存扩展上下文的做法。

AI 翻译 · 中文

CMU和UMD的研究团队发现,Transformer大模型在处理超长任务时注意力机制会因上下文长度二次方爆炸而性能下降。他们提出“sleep-like consolidation”机制,让模型在“睡眠”期间将最近上下文转化为持久fast weights并清空KV cache,从而将短期记忆转为长期记忆。实验表明,增加睡眠深度或时长能显著提升睡眠后的推理能力。该方案完全开源,颠覆了传统靠堆显存扩展上下文的做法。

berryxia别被骗了! 大模型也特么需要“睡觉”? 一个来自CMU和UMD的研究团队发现:Transformer大模型在处理超长任务时注意力机制彻底拉胯 他们没有继续堆上下文长度而是直接给模型安排了“睡眠” 模型在睡眠期间把最近的上下文全部转化成持久的fast weights然后清空KV cache 这个机制叫“sleep-like consolidation”大模型也需要睡觉 故事就藏在2026年5月25日刚出的arXiv 2605.26099里