精选理由
长文本推理的显存瓶颈被 FlashMemory 大幅缓解,做 LLM 推理优化或部署长上下文模型的团队可以直接参考论文方法,效果甚至比原版更好。
FlashMemory 论文提出一种神经内存索引器,能将 DeepSeekV4 的 1M 上下文显存占用从约 10GB 压缩至 1.3GB,且输出准确率反而提升 0.6%。该方法通过预测未来需要的历史片段,按需加载 KVCache,实现注意力降噪。索引器采用解耦训练,无需加载基座模型,训练成本大幅降低。该技术对长文本推理场景具有重大意义,尤其适合资源受限的部署环境。
AI 翻译 · 中文
FlashMemory 论文提出一种神经内存索引器,能将 DeepSeekV4 的 1M 上下文显存占用从约 10GB 压缩至 1.3GB,且输出准确率反而提升 0.6%。该方法通过预测未来需要的历史片段,按需加载 KVCache,实现注意力降噪。索引器采用解耦训练,无需加载基座模型,训练成本大幅降低。该技术对长文本推理场景具有重大意义,尤其适合资源受限的部署环境。
魔法! DeepSeekV4 上下文内存压缩到1/10! 大家都知道 DeepSeekV4 是支持1M上下文的, 而且经过了极度优化, 如果要真的用到1M上下文, 显存占用只需要10G左右, (对比之下 DeepSeek-V3.2 大概需要84G显存). 然后我刚看到了FlashMemory这个论文, 直接能把显存占用压到 1.3GB! 甚至输出效果不降反升! 哥们你骗兄弟可以, 骗自己就没意思了, 真的吗? 压缩后反而性能上升? 我赶…