精选理由
做视频理解或多模态应用的开发者,终于有了一个长上下文和深度理解兼得的开源模型,建议直接去 Hugging Face 下载试试。
KwaiKeye 在 Hugging Face 开源了多模态模型 Keye VL 2.0-30B-A3B,总参数 30B 但活跃参数仅 3B,采用 Apache 2.0 协议。模型通过 DeepSeek 稀疏注意力实现 256K 上下文,视频理解能力随输入帧数增加而准确率上升,打破长视频导致模型迷失的直觉。在多个长视频基准上,其表现与 Qwen3 VL 和 Gemini 3 Flash 相当。该模型证明了稀疏注意力可同时兼顾长上下文和深度理解,是多模态领域的重要进展。
AI 翻译 · 中文
KwaiKeye 在 Hugging Face 开源了多模态模型 Keye VL 2.0-30B-A3B,总参数 30B 但活跃参数仅 3B,采用 Apache 2.0 协议。模型通过 DeepSeek 稀疏注意力实现 256K 上下文,视频理解能力随输入帧数增加而准确率上升,打破长视频导致模型迷失的直觉。在多个长视频基准上,其表现与 Qwen3 VL 和 Gemini 3 Flash 相当。该模型证明了稀疏注意力可同时兼顾长上下文和深度理解,是多模态领域的重要进展。
刚刚在Hugging Face刷新模型时,看到KwaiKeye放出了Keye VL 2.0-30B-A3B。 这个多模态模型总参数30B,活跃参数只有3B,Apache 2.0完全开源。 它直接用DeepSeek Sparse Attention实现了256K上下文。 最有意思的是视频理解部分的表现。 你喂给它的帧数越多,模型准确率反而稳步上升。 这和我们以前觉得长视频容易让模型迷失的直觉完全相反。 它在多个长视频基准上已经和Qwen3…