DeepSeekV4 上下文内存压缩至1/10，FlashMemory 显存占用仅1.3GB

精选理由

长文本推理的显存瓶颈被 FlashMemory 大幅缓解，做 LLM 推理优化或部署长上下文模型的团队可以直接参考论文方法，效果甚至比原版更好。

AI 摘要

FlashMemory 论文提出一种神经内存索引器，能将 DeepSeekV4 的 1M 上下文显存占用从约 10GB 压缩至 1.3GB，且输出准确率反而提升 0.6%。该方法通过预测未来需要的历史片段，按需加载 KVCache，实现注意力降噪。索引器采用解耦训练，无需加载基座模型，训练成本大幅降低。该技术对长文本推理场景具有重大意义，尤其适合资源受限的部署环境。

AI 翻译 · 中文

karminski-牙医 (AI工具)魔法! DeepSeekV4 上下文内存压缩到1/10! 大家都知道 DeepSeekV4 是支持1M上下文的, 而且经过了极度优化, 如果要真的用到1M上下文, 显存占用只需要10G左右, (对比之下 DeepSeek-V3.2 大概需要84G显存). 然后我刚看到了FlashMemory这个论文, 直接能把显存占用压到 1.3GB! 甚至输出效果不降反升! 哥们你骗兄弟可以, 骗自己就没意思了, 真的吗? 压缩后反而性能上升? 我赶…

查看原推