09:25
arXiv cs.AI@Jiwen Liu, Shujuan Li, Zhixue Fang, Xiaohan Li, Yan Zhou, Zijie Meng, Zhimin Zhang, Yawen Luo, Guoxin Zhang, Yu-Shen Liu, Pengfei Wan OmniDirector 提出了一种通用相机运动表示方法,将相机参数编码为网格运动视频,从而支持多镜头视频生成。该框架在百万级相机网格-视频对上训练,能够协调角色、动作和相机,提供导演级别的控制。它设计了一种分层提示扩展代理,通过理解信号关系系统描述相机运动和视觉内容,实现不同控制信号的和谐集成。实验表明,OmniDirector 在复杂相机运动克隆任务上表现优异,解决了现有方法依赖配对数据且性能不佳的问题。
推荐理由:做视频生成和相机运动控制的团队终于有了一个无需配对数据就能克隆多镜头相机运动的方案——OmniDirector 用网格运动视频统一了相机表示,直接在百万级数据上训练,效果比依赖合成配对数据的方法好很多,做视频编辑和影视制作的开发者值得关注。