6月9日
13:11
13:11arXiv cs.LG@Wayne King, Zeyue Xue, Yuxuan Bian, Jie Huang, Haoran Li, Yaowei Li, Yaofeng Su, Yuming Li, Haoyu Wang, Shiyi Zhang, Songchun Zhang, Yuwei Niu, Sihan Xu, Junhao Zhuang, Haoyang Huang, Nan Duan
Echo-Memory 是一项针对动作条件世界模型中记忆机制的受控研究。这类模型根据首帧、文本提示和相机动作序列生成多段视频,但其主要失败点往往是记忆而非局部图像合成:当相机离开再返回时,场景或关键物体可能悄然改变。现有记忆设计难以比较,因为增益与骨干网络、训练、检索和评估差异纠缠不清。Echo-Memory 固定了动作到视频的接口,仅改变历史信息的存储和读取方式,在共享的视频扩散骨干、优化器、相机动作表示、采样器和评估流程下,比较了原始上下文、基于压缩的记忆、不同读取路径的空间摘要以及状态空间循环。研究通过三分支协议(回放质量、域内循环重访和开放域返回探测)评估记忆,发现回放保真度不足以作为记住世界的代理指标。主要结论包括:原始上下文是强大的容量基线,能显著提升开放域返回性能;紧凑性不能替代容量;块状状态空间循环是最强的开放域返回机制。
推荐理由:做视频生成或世界模型研究的团队,这篇论文帮你拆解了记忆机制中容量、压缩、读取和循环四个关键维度,看完能直接指导你的模型设计。