VBench

§ 01综述

VBench 是一个视频生成基准测试，用于评估文本到视频（T2V）和多模态视频生成模型的质量。近期，随着多篇研究论文的发布，视频生成领域取得了显著进展，这些工作在不同方向上推动了模型性能的提升，并可能对 VBench 等评估标准产生影响。

在 Lumos-Nexus 中，研究者提出了高效频率桥接方法，实现了统一视频生成模型，通过频率域操作改善了跨模态融合，可能提升在 VBench 上的评分（Lumos-Nexus：高效频率桥接实现视频统一模型）。

VideoMLA 引入低秩潜变量 KV 缓存，支持分钟级自回归视频扩散，大幅延长了视频长度，这对 VBench 中长视频生成子任务具有重要意义（VideoMLA：低秩潜变量KV缓存实现分钟级自回归视频扩散）。

字节跳动开源的 Lance 模型以 3B 参数实现了统一理解和生成，轻量级设计可能平衡效率与质量，在 VBench 测评中或有良好表现（字节跳动开源轻量多模态模型Lance，3B参数统一理解与生成）。

RefDecoder 利用参考注意力增强解码器，提高了生成视频的时序一致性，直接针对视频质量关键指标（RefDecoder：用参考注意力增强视频生成解码器）。

OmniNFT 提出多模态联合音视频生成的扩散强化学习框架，同时优化视觉和音频，拓展了评估维度（OmniNFT：多模态联合音视频生成的扩散强化学习框架）。

当前焦点在于这些新技术如何提升 VBench 上的各项指标，尤其是视频长度、一致性、多模态对齐等。未来观察点包括：VBench 是否需要更新子任务以涵盖音视频联合生成，以及轻量级模型是否能在保持性能的同时通过 VBench 的全面评估。

§ 02相关报道05 条在档

§ 03邻近话题