Lumos-Nexus：高效频率桥接实现视频统一模型

精选理由

视频生成领域终于有了兼顾推理能力和视觉保真度的方案，做视频理解与生成统一模型的团队可以直接参考其两阶段设计，省去大量训练成本。

AI 摘要

Lumos-Nexus 是一种训练高效的统一视频生成框架，解决了将高保真生成器集成到统一训练循环中计算成本过高的问题。它采用两阶段设计：训练时仅用轻量级生成器与理解模块对齐，学习推理驱动的语义控制；推理时通过统一渐进频率桥接（UPFB）在共享潜在空间中将生成任务逐步交给高容量预训练生成器，实现从粗到细的优化，生成高保真视频而不牺牲推理质量。为填补推理驱动视频生成基准的空白，团队引入了 VR-Bench 评估模型将推断意图转化为连贯视频的能力。实验表明，Lumos-Nexus 在 VBench 上显著提升了视觉真实感和时间连贯性，在 VR-Bench 上展示了强大的推理生成性能。代码和模型已开源。

AI 翻译 · 中文

arXiv cs.AIConnector-based video unified models have demonstrated strong capability in instruction-grounded video synthesis, but integrating a large high-fidelity generator into the unified training loop is computationally prohibit…

阅读原文