12:32karminski-牙医 (AI工具)@karminski3精选FlashMemory 论文提出一种神经内存索引器,能将 DeepSeekV4 的 1M 上下文显存占用从约 10GB 压缩至 1.3GB,且输出准确率反而提升 0.6%。该方法通过预测未来需要的历史片段,按需加载 KVCache,实现注意力降噪。索引器采用解耦训练,无需加载基座模型,训练成本大幅降低。该技术对长文本推理场景具有重大意义,尤其适合资源受限的部署环境。论文FlashMemoryDeepSeekV4显存优化长上下文注意力降噪推荐理由:长文本推理的显存瓶颈被 FlashMemory 大幅缓解,做 LLM 推理优化或部署长上下文模型的团队可以直接参考论文方法,效果甚至比原版更好。原文
07:01Together AI@togethercompute精选Together AI 团队提出 Untied Ulysses 方法,解决了长上下文训练中的显存瓶颈。传统方法在单节点 8xH100 上训练 Llama 3B 模型时,仅模型参数就会耗尽显存,无法支持 3M token 的上下文长度。新方法通过优化注意力机制,在 8B 和 32B 规模下实现了比先前实现长 25% 的序列训练。这项研究让大模型长上下文训练变得更可行,降低了硬件门槛。论文长上下文显存优化注意力机制Together AI训练效率推荐理由:长上下文训练一直是显存大户,Untied Ulysses 让单节点就能跑 3M token,做 LLM 训练和推理优化的团队值得关注,能省下不少 GPU 预算。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……