AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:MiniMax×
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
09:13
09:13arXiv cs.AI@Xunhao Lai, Weiqi Xu, Yufeng Yang, Qiaorui Chen, Yang Xu, Lunbin Zeng, Xiaolong Li, Haohai Sun, Haichao Zhu, Vito Zhang, Pengyu Zhao
精选
MiniMax 提出了一种名为 MiniMax Sparse Attention (MSA) 的块级稀疏注意力机制,旨在解决大语言模型在超长上下文(百万级 token)下的计算瓶颈。MSA 基于分组查询注意力(GQA),通过轻量级索引分支对键值块进行评分,并为每个 GQA 组独立选择 Top-k 子集,实现高效的组级稀疏检索。在 109B 参数的多模态模型上,MSA 在 1M 上下文长度下将每 token 注意力计算量减少 28.4 倍,并在 H800 GPU 上实现 14.2 倍预填充和 7.6 倍解码加速。该方法的推理内核已开源,同时发布了基于 MSA 的生产级多模态模型。
论文稀疏注意力长上下文推理加速MiniMax开源/仓库

推荐理由:做长上下文推理或 agent 工作流的开发者,终于有了一个能直接部署的稀疏注意力方案——MSA 在 109B 模型上实现 28 倍计算缩减,且内核已开源,值得立刻试跑。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
精选全部日报登录