精选理由
做深度推理项目的开发者终于有了新思路——不用堆算力,而是给模型“离线整理”时间,准确率直接拉升52%,值得一试。
CMU和UMD的研究者发现,大模型在多跳推理任务中表现不佳的根本原因不是内存容量,而是缺乏将上下文转化为可用内部表示的“巩固”过程。他们提出“睡眠”机制:在清空KV缓存前,让模型对当前上下文多次前向传播,将记忆沉淀进fast weights。实验显示,这一方法使多跳推理准确率提升52%,且推理延迟不变。这与当前行业狂加上下文窗口和test-time compute的方向不同,更接近人脑的睡眠记忆巩固机制。
AI 翻译 · 中文
CMU和UMD的研究者发现,大模型在多跳推理任务中表现不佳的根本原因不是内存容量,而是缺乏将上下文转化为可用内部表示的“巩固”过程。他们提出“睡眠”机制:在清空KV缓存前,让模型对当前上下文多次前向传播,将记忆沉淀进fast weights。实验显示,这一方法使多跳推理准确率提升52%,且推理延迟不变。这与当前行业狂加上下文窗口和test-time compute的方向不同,更接近人脑的睡眠记忆巩固机制。
特么人需要睡觉,大模型迎无一例外啊! 我最近在用大模型做真正需要深度推理的项目时候 十万token的合同、整个codebase塞进去都没问题。 可一旦让我多跳追问、把散落的事实串起来,它就开始犯糊涂。 明明信息全在,却总觉得它知道答案在哪,就是拼不起来。 不仅睡觉,记忆也是大问题, CMU和UMD的研究者最近发了一篇论文,直接把这堵墙拆开了。 论文标题就叫Language Models Need Sleep。 他们用Rule 110这种…