6月17日
6月16日
6月15日
6月12日
09:25
09:25arXiv cs.AI@Jiwen Liu, Shujuan Li, Zhixue Fang, Xiaohan Li, Yan Zhou, Zijie Meng, Zhimin Zhang, Yawen Luo, Guoxin Zhang, Yu-Shen Liu, Pengfei Wan
OmniDirector 提出了一种通用相机运动表示方法,将相机参数编码为网格运动视频,从而支持多镜头视频生成。该框架在百万级相机网格-视频对上训练,能够协调角色、动作和相机,提供导演级别的控制。它设计了一种分层提示扩展代理,通过理解信号关系系统描述相机运动和视觉内容,实现不同控制信号的和谐集成。实验表明,OmniDirector 在复杂相机运动克隆任务上表现优异,解决了现有方法依赖配对数据且性能不佳的问题。
推荐理由:做视频生成和相机运动控制的团队终于有了一个无需配对数据就能克隆多镜头相机运动的方案——OmniDirector 用网格运动视频统一了相机表示,直接在百万级数据上训练,效果比依赖合成配对数据的方法好很多,做视频编辑和影视制作的开发者值得关注。
6月10日
6月9日
13:11
13:11arXiv cs.LG@Wayne King, Zeyue Xue, Yuxuan Bian, Jie Huang, Haoran Li, Yaowei Li, Yaofeng Su, Yuming Li, Haoyu Wang, Shiyi Zhang, Songchun Zhang, Yuwei Niu, Sihan Xu, Junhao Zhuang, Haoyang Huang, Nan Duan
Echo-Memory 是一项针对动作条件世界模型中记忆机制的受控研究。这类模型根据首帧、文本提示和相机动作序列生成多段视频,但其主要失败点往往是记忆而非局部图像合成:当相机离开再返回时,场景或关键物体可能悄然改变。现有记忆设计难以比较,因为增益与骨干网络、训练、检索和评估差异纠缠不清。Echo-Memory 固定了动作到视频的接口,仅改变历史信息的存储和读取方式,在共享的视频扩散骨干、优化器、相机动作表示、采样器和评估流程下,比较了原始上下文、基于压缩的记忆、不同读取路径的空间摘要以及状态空间循环。研究通过三分支协议(回放质量、域内循环重访和开放域返回探测)评估记忆,发现回放保真度不足以作为记住世界的代理指标。主要结论包括:原始上下文是强大的容量基线,能显著提升开放域返回性能;紧凑性不能替代容量;块状状态空间循环是最强的开放域返回机制。
推荐理由:做视频生成或世界模型研究的团队,这篇论文帮你拆解了记忆机制中容量、压缩、读取和循环四个关键维度,看完能直接指导你的模型设计。
6月5日