DySink：动态帧汇机制提升自回归长视频生成质量

精选理由

长视频生成长期受困于静态帧汇导致的注意力坍塌问题，DySink 用检索式动态帧汇解决了这个痛点，做视频生成或自回归模型的团队可以直接参考其开源代码。

AI 摘要

自回归长视频生成通常采用有界内存流式处理，结合局部窗口和静态早期帧汇（sink）来保持长期连续性。但静态帧汇在视觉状态大幅变化后仍缓存早期帧，丢弃了可能更相关的中间历史，导致生成偏向过时内容，甚至引发注意力坍塌。DySink 提出基于检索的动态帧汇框架，维护紧凑记忆库并选择视觉相关的历史帧作为动态汇，同时引入异常检测门控抑制坍塌。实验表明，DySink 在分钟级视频上持续提升动态度指标，并实现更高时间质量。代码和模型权重将开源。

AI 翻译 · 中文

arXiv cs.AIAutoregressive long video generation often adopts bounded-memory streaming for efficiency, typically combining local windows for short-term continuity with static early-frame sinks as long-range anchors. However, this fi…

阅读原文