全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

22:47

22:47

vLLM@vllm_project

73°

MiniMax AI 发布了新一代开源模型 MiniMax M3，具备前沿的编码和智能体能力，原生支持图像和视频输入、计算机使用功能，并拥有 100 万 token 的上下文窗口。其核心是 MSA（MiniMax Sparse Attention）稀疏注意力架构，通过仅对 top 128-token KV 块进行注意力计算，大幅降低了长上下文推理的计算成本。M3 已在 vLLM 中实现首日支持，可在 NVIDIA 和 AMD 硬件上运行，支持 BF16 和 MXFP8 检查点、MoE 后端、多模态输入、工具调用和推理控制。这一成果是 MiniMax、NVIDIA、AMD 和 vLLM 社区合作的结晶。

AI模型 MiniMax M3 稀疏注意力 1M上下文开源模型 vLLM

推荐理由：M3 的 1M 上下文和稀疏注意力架构解决了长文档和复杂智能体任务的性能瓶颈，做 RAG、代码分析和自动化工作流的团队可以直接在 vLLM 上部署试用。

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月4日

01:21

01:21

Fireworks AI@FireworksAI_HQ

78°

MiniMax 发布了新模型 M3，其核心创新是 MiniMax Sparse Attention (MSA) 机制，在 1M token 长上下文场景下解码速度提升 15.6 倍。Fireworks AI 宣布与 MiniMax 合作，为本次发布提供推理支持。用户可前往 minimax.io 试用，模型权重发布后也将对 Fireworks 社区开放。这一突破显著降低了长上下文推理的延迟和成本，对需要处理超长文档、代码库或对话历史的开发者意义重大。

AI模型 MiniMax M3 稀疏注意力长上下文推理加速

推荐理由：长上下文推理的瓶颈被 MSA 大幅缓解，做 RAG、长文档分析或大上下文应用的团队值得立即体验，速度提升意味着更低的成本和更好的用户体验。

6月3日

04:40

04:40

Together AI@togethercompute

76°

MiniMax-M3 是一款结合了 1M 上下文窗口、原生多模态能力和 MiniMax 稀疏注意力机制的新模型。Together 的推理和内核团队通过 KV-block-major 稀疏注意力、分页 MSA 解码、优化索引评分以及 GPU 工作前的多模态预处理，将常见智能体流量下的吞吐量提升了 81-125%。该模型在长上下文和多模态任务上表现出色，适合需要处理大量信息和多种数据类型的应用场景。

AI模型 MiniMax-M3 稀疏注意力多模态长上下文推理优化

推荐理由：做长上下文和多模态应用的团队可以关注——MiniMax-M3 的稀疏注意力优化让吞吐量提升显著，直接降低推理成本，值得一试。

6月1日

18:53

18:53

岚叔@lufzzliz

精选76°

MiniMax 发布新一代旗舰模型 M3，面向 coding agent、长上下文和多模态任务。M3 支持 1M 上下文，核心技术创新是 MiniMax Sparse Attention (MSA)，通过稀疏注意力将 KV 分块并精确选取相关块，大幅降低长上下文计算成本。在 1M 上下文下，每 token 计算量仅为上一代的 1/20，prefill 提速 9 倍以上，decode 提速 15 倍以上。M3 支持文本、图片、视频输入，将长上下文、工具调用、多模态理解和持续执行能力整合，明确押注 agentic coding 场景。

AI模型 MiniMax-M3 稀疏注意力长上下文 Agentic Coding 多模态

推荐理由：M3 的稀疏注意力解决了长上下文推理的成本痛点，做 coding agent 和自动化任务的开发者可以直接关注——1M 上下文下计算量骤降 95%，意味着更长的任务链也能跑得动。

18:24

18:24

berryxia@berryxia

精选76°

KwaiKeye 在 Hugging Face 开源了多模态模型 Keye VL 2.0-30B-A3B，总参数 30B 但活跃参数仅 3B，采用 Apache 2.0 协议。模型通过 DeepSeek 稀疏注意力实现 256K 上下文，视频理解能力随输入帧数增加而准确率上升，打破长视频导致模型迷失的直觉。在多个长视频基准上，其表现与 Qwen3 VL 和 Gemini 3 Flash 相当。该模型证明了稀疏注意力可同时兼顾长上下文和深度理解，是多模态领域的重要进展。

AI模型多模态模型稀疏注意力开源/仓库视频理解 KwaiKeye

推荐理由：做视频理解或多模态应用的开发者，终于有了一个长上下文和深度理解兼得的开源模型，建议直接去 Hugging Face 下载试试。

14:50

14:50

歸藏(guizang.ai)@op7418

精选76°

MiniMax 正式发布大版本模型升级 MiniMax M3，核心亮点包括标配 1M 超长上下文、采用新的 MSA（MoE with Segment-wise Attention）稀疏注意力架构，以及从训练起就融合了文本、图片、视频和桌面操作的原生多模态能力。MSA 架构在 100 万上下文下每 token 计算量仅为上一代的约 1/20，大幅提升可落地性。API 价格同步更新，小于 512k 的 API 限时五折（7 天）。模型权重和技术报告将在约 10 天后开源。

AI模型 MiniMax M3 长上下文稀疏注意力多模态 API

推荐理由：MiniMax M3 把长上下文、稀疏注意力和多模态融合做到了一个模型里，而且计算效率大幅提升，做 Agent 开发、多模态应用或长文档处理的团队可以直接用 API 试试，价格也很友好。

5月27日

08:36

08:36

berryxia@berryxia

83°

MiniMax AI工程负责人Skyler Miao预告了下一代模型M3的发布，并透露其核心架构：基于GQA的动态块稀疏注意力。该技术通过轻量索引分支快速筛选相关token块，仅对关键块执行稀疏注意力计算，大幅降低算力需求。在1M token上下文下，M3的预填充速度比M2快9.7倍，解码速度快15.6倍。这使得百万token级别的Agent任务从理论走向实用，长上下文处理变得又快又省。M3的发布将为长上下文模型赛道增添有力竞争者。

AI模型 MiniMax M3 长上下文稀疏注意力 Agent

推荐理由：MiniMax M3用动态稀疏注意力把1M上下文的算力成本打下来了，做长上下文Agent的开发者可以直接关注，这可能是让百万token任务真正落地的关键突破。