KwaiKeye 开源 Keye VL 2.0-30B-A3B：30B 参数、3B 活跃，视频理解逆直觉提升

精选理由

做视频理解或多模态应用的开发者，终于有了一个长上下文和深度理解兼得的开源模型，建议直接去 Hugging Face 下载试试。

AI 摘要

KwaiKeye 在 Hugging Face 开源了多模态模型 Keye VL 2.0-30B-A3B，总参数 30B 但活跃参数仅 3B，采用 Apache 2.0 协议。模型通过 DeepSeek 稀疏注意力实现 256K 上下文，视频理解能力随输入帧数增加而准确率上升，打破长视频导致模型迷失的直觉。在多个长视频基准上，其表现与 Qwen3 VL 和 Gemini 3 Flash 相当。该模型证明了稀疏注意力可同时兼顾长上下文和深度理解，是多模态领域的重要进展。

AI 翻译 · 中文

berryxia刚刚在Hugging Face刷新模型时，看到KwaiKeye放出了Keye VL 2.0-30B-A3B。这个多模态模型总参数30B，活跃参数只有3B，Apache 2.0完全开源。它直接用DeepSeek Sparse Attention实现了256K上下文。最有意思的是视频理解部分的表现。你喂给它的帧数越多，模型准确率反而稳步上升。这和我们以前觉得长视频容易让模型迷失的直觉完全相反。它在多个长视频基准上已经和Qwen3…

查看原推