全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月5日

12:01

12:01

arXiv cs.AI@Zhuoming Chen, Xinrui Zhong, Qilong Feng, Ranajoy Sadhukhan, Yang Zhou, Michael Qizhe Shieh, Zhihao Jia, Beidi Chen

精选

Vortex 是一个专为大规模语言模型（LLM）设计的稀疏注意力服务系统，解决了稀疏注意力算法在部署和评估中工程成本高的问题。它通过 Python 嵌入式前端语言和页面中心张量抽象，支持广泛稀疏注意力算法的快速原型设计、部署和评估。在 NVIDIA B200 GPU 上，Vortex 使 AI Agent 自动生成的算法吞吐量比全注意力提升高达 3.46 倍，并在 MLA 架构的 GLM-4.7-Flash 和 229B 参数的 MiniMax-M2.7 上分别实现 4.7 倍和 1.37 倍的吞吐量提升。该系统显著加速了稀疏注意力算法的迭代，尤其适用于长序列生成场景。

论文稀疏注意力 LLM服务 AI Agent 吞吐量优化 Vortex

推荐理由：稀疏注意力是长上下文 LLM 服务的关键瓶颈，Vortex 让 AI Agent 和研究者能快速实验新算法，做 LLM 推理优化的团队可以直接用它提升吞吐量，值得关注。