全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

09:13

09:13

arXiv cs.AI@Xunhao Lai, Weiqi Xu, Yufeng Yang, Qiaorui Chen, Yang Xu, Lunbin Zeng, Xiaolong Li, Haohai Sun, Haichao Zhu, Vito Zhang, Pengyu Zhao

精选

MiniMax 提出了一种名为 MiniMax Sparse Attention (MSA) 的块级稀疏注意力机制，旨在解决大语言模型在超长上下文（百万级 token）下的计算瓶颈。MSA 基于分组查询注意力（GQA），通过轻量级索引分支对键值块进行评分，并为每个 GQA 组独立选择 Top-k 子集，实现高效的组级稀疏检索。在 109B 参数的多模态模型上，MSA 在 1M 上下文长度下将每 token 注意力计算量减少 28.4 倍，并在 H800 GPU 上实现 14.2 倍预填充和 7.6 倍解码加速。该方法的推理内核已开源，同时发布了基于 MSA 的生产级多模态模型。

论文稀疏注意力长上下文推理加速 MiniMax 开源/仓库

推荐理由：做长上下文推理或 agent 工作流的开发者，终于有了一个能直接部署的稀疏注意力方案——MSA 在 109B 模型上实现 28 倍计算缩减，且内核已开源，值得立刻试跑。

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？