全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

12:32

12:32

karminski-牙医 (AI工具)@karminski3

精选

FlashMemory 论文提出一种神经内存索引器，能将 DeepSeekV4 的 1M 上下文显存占用从约 10GB 压缩至 1.3GB，且输出准确率反而提升 0.6%。该方法通过预测未来需要的历史片段，按需加载 KVCache，实现注意力降噪。索引器采用解耦训练，无需加载基座模型，训练成本大幅降低。该技术对长文本推理场景具有重大意义，尤其适合资源受限的部署环境。

论文 FlashMemory DeepSeekV4 显存优化长上下文注意力降噪

推荐理由：长文本推理的显存瓶颈被 FlashMemory 大幅缓解，做 LLM 推理优化或部署长上下文模型的团队可以直接参考论文方法，效果甚至比原版更好。

07:01

07:01

Together AI@togethercompute

精选

Together AI 团队提出 Untied Ulysses 方法，解决了长上下文训练中的显存瓶颈。传统方法在单节点 8xH100 上训练 Llama 3B 模型时，仅模型参数就会耗尽显存，无法支持 3M token 的上下文长度。新方法通过优化注意力机制，在 8B 和 32B 规模下实现了比先前实现长 25% 的序列训练。这项研究让大模型长上下文训练变得更可行，降低了硬件门槛。

论文长上下文显存优化注意力机制 Together AI 训练效率

推荐理由：长上下文训练一直是显存大户，Untied Ulysses 让单节点就能跑 3M token，做 LLM 训练和推理优化的团队值得关注，能省下不少 GPU 预算。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？