做视频生成或世界模型研究的团队,这篇论文帮你拆解了记忆机制中容量、压缩、读取和循环四个关键维度,看完能直接指导你的模型设计。
Echo-Memory 是一项针对动作条件世界模型中记忆机制的受控研究。这类模型根据首帧、文本提示和相机动作序列生成多段视频,但其主要失败点往往是记忆而非局部图像合成:当相机离开再返回时,场景或关键物体可能悄然改变。现有记忆设计难以比较,因为增益与骨干网络、训练、检索和评估差异纠缠不清。Echo-Memory 固定了动作到视频的接口,仅改变历史信息的存储和读取方式,在共享的视频扩散骨干、优化器、相机动作表示、采样器和评估流程下,比较了原始上下文、基于压缩的记忆、不同读取路径的空间摘要以及状态空间循环。研究通过三分支协议(回放质量、域内循环重访和开放域返回探测)评估记忆,发现回放保真度不足以作为记住世界的代理指标。主要结论包括:原始上下文是强大的容量基线,能显著提升开放域返回性能;紧凑性不能替代容量;块状状态空间循环是最强的开放域返回机制。
Echo-Memory 是一项针对动作条件世界模型中记忆机制的受控研究。这类模型根据首帧、文本提示和相机动作序列生成多段视频,但其主要失败点往往是记忆而非局部图像合成:当相机离开再返回时,场景或关键物体可能悄然改变。现有记忆设计难以比较,因为增益与骨干网络、训练、检索和评估差异纠缠不清。Echo-Memory 固定了动作到视频的接口,仅改变历史信息的存储和读取方式,在共享的视频扩散骨干、优化器、相机动作表示、采样器和评估流程下,比较了原始上下文、基于压缩的记忆、不同读取路径的空间摘要以及状态空间循环。研究通过三分支协议(回放质量、域内循环重访和开放域返回探测)评估记忆,发现回放保真度不足以作为记住世界的代理指标。主要结论包括:原始上下文是强大的容量基线,能显著提升开放域返回性能;紧凑性不能替代容量;块状状态空间循环是最强的开放域返回机制。
We present \textbf{Echo-Memory}, a controlled study of memory mechanisms in action-conditioned world models. These models generate multi-segment videos from a first frame, text prompt, and camera-action sequence, but the…