vbench·general

VBench

别名
首次出现
2026-05-22
最近出现
2026-06-01
累计提及
11
§ 01综述

VBench 是一个视频生成基准测试,用于评估文本到视频(T2V)和多模态视频生成模型的质量。近期,随着多篇研究论文的发布,视频生成领域取得了显著进展,这些工作在不同方向上推动了模型性能的提升,并可能对 VBench 等评估标准产生影响。

  • Lumos-Nexus 中,研究者提出了高效频率桥接方法,实现了统一视频生成模型,通过频率域操作改善了跨模态融合,可能提升在 VBench 上的评分(Lumos-Nexus:高效频率桥接实现视频统一模型)。
  • VideoMLA 引入低秩潜变量 KV 缓存,支持分钟级自回归视频扩散,大幅延长了视频长度,这对 VBench 中长视频生成子任务具有重要意义(VideoMLA:低秩潜变量KV缓存实现分钟级自回归视频扩散)。
  • 字节跳动开源的 Lance 模型以 3B 参数实现了统一理解和生成,轻量级设计可能平衡效率与质量,在 VBench 测评中或有良好表现(字节跳动开源轻量多模态模型Lance,3B参数统一理解与生成)。
  • RefDecoder 利用参考注意力增强解码器,提高了生成视频的时序一致性,直接针对视频质量关键指标(RefDecoder:用参考注意力增强视频生成解码器)。
  • OmniNFT 提出多模态联合音视频生成的扩散强化学习框架,同时优化视觉和音频,拓展了评估维度(OmniNFT:多模态联合音视频生成的扩散强化学习框架)。
  • 当前焦点在于这些新技术如何提升 VBench 上的各项指标,尤其是视频长度、一致性、多模态对齐等。未来观察点包括:VBench 是否需要更新子任务以涵盖音视频联合生成,以及轻量级模型是否能在保持性能的同时通过 VBench 的全面评估。

    § 02相关报道05 条在档
    1. 01
      Lumos-Nexus:高效频率桥接实现视频统一模型
      arXiv cs.AI
    2. 02
      VideoMLA:低秩潜变量KV缓存实现分钟级自回归视频扩散
      arXiv cs.AI
    3. 03
      字节跳动开源轻量多模态模型Lance,3B参数统一理解与生成
      IT之家
    4. 04
      RefDecoder:用参考注意力增强视频生成解码器
      arXiv cs.LG
    5. 05
      OmniNFT:多模态联合音视频生成的扩散强化学习框架
      arXiv cs.AI
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/VBench