论文精选

DySink:动态帧汇机制提升自回归长视频生成质量

DySink: Dynamic Frame Sinks for Autoregressive Long Video Generation

精选理由

长视频生成长期受困于静态帧汇导致的注意力坍塌问题,DySink 用检索式动态帧汇解决了这个痛点,做视频生成或自回归模型的团队可以直接参考其开源代码。

AI 摘要

自回归长视频生成通常采用有界内存流式处理,结合局部窗口和静态早期帧汇(sink)来保持长期连续性。但静态帧汇在视觉状态大幅变化后仍缓存早期帧,丢弃了可能更相关的中间历史,导致生成偏向过时内容,甚至引发注意力坍塌。DySink 提出基于检索的动态帧汇框架,维护紧凑记忆库并选择视觉相关的历史帧作为动态汇,同时引入异常检测门控抑制坍塌。实验表明,DySink 在分钟级视频上持续提升动态度指标,并实现更高时间质量。代码和模型权重将开源。

AI 翻译 · 中文

自回归长视频生成通常采用有界内存流式处理,结合局部窗口和静态早期帧汇(sink)来保持长期连续性。但静态帧汇在视觉状态大幅变化后仍缓存早期帧,丢弃了可能更相关的中间历史,导致生成偏向过时内容,甚至引发注意力坍塌。DySink 提出基于检索的动态帧汇框架,维护紧凑记忆库并选择视觉相关的历史帧作为动态汇,同时引入异常检测门控抑制坍塌。实验表明,DySink 在分钟级视频上持续提升动态度指标,并实现更高时间质量。代码和模型权重将开源。

arXiv cs.AIAutoregressive long video generation often adopts bounded-memory streaming for efficiency, typically combining local windows for short-term continuity with static early-frame sinks as long-range anchors. However, this fi