大模型也需要“睡觉”：CMU/UMD提出睡眠式记忆固化机制

精选理由

这个研究用“睡觉”这种生物启发机制解决了长上下文推理的显存和速度瓶颈，做长序列AI应用的开发者可以直接参考开源方案，比堆显存更聪明。

AI 摘要

CMU和UMD的研究团队发现，Transformer大模型在处理超长任务时注意力机制会因上下文长度二次方爆炸而性能下降。他们提出“sleep-like consolidation”机制，让模型在“睡眠”期间将最近上下文转化为持久fast weights并清空KV cache，从而将短期记忆转为长期记忆。实验表明，增加睡眠深度或时长能显著提升睡眠后的推理能力。该方案完全开源，颠覆了传统靠堆显存扩展上下文的做法。

AI 翻译 · 中文

berryxia别被骗了！大模型也特么需要“睡觉”？一个来自CMU和UMD的研究团队发现：Transformer大模型在处理超长任务时注意力机制彻底拉胯他们没有继续堆上下文长度而是直接给模型安排了“睡眠” 模型在睡眠期间把最近的上下文全部转化成持久的fast weights然后清空KV cache 这个机制叫“sleep-like consolidation”大模型也需要睡觉故事就藏在2026年5月25日刚出的arXiv 2605.26099里…

查看原推