精选理由
做3D场景理解或自动摄影的团队,PhotoFlow 把语言指令到相机参数的全流程打通了,可以直接用它的闭环搜索思路提升自己的渲染管线。
PhotoFlow 提出了一种基于智能体的虚拟摄影框架,能够在无预设相机位姿或参考图像的情况下,根据语言指令在3D场景中自动选择相机参数并渲染照片。该框架包含导演、评审和反思三个模块,通过闭环搜索优化拍摄效果。同时发布了 VPhotoBench 基准,包含47个场景和141个语言条件摄影任务。实验表明,PhotoFlow 在六轮渲染预算下,成功率和质量对齐指标均优于现有方法。这是首个将语言条件虚拟摄影作为可执行智能体任务的工作。
AI 翻译 · 中文
PhotoFlow 提出了一种基于智能体的虚拟摄影框架,能够在无预设相机位姿或参考图像的情况下,根据语言指令在3D场景中自动选择相机参数并渲染照片。该框架包含导演、评审和反思三个模块,通过闭环搜索优化拍摄效果。同时发布了 VPhotoBench 基准,包含47个场景和141个语言条件摄影任务。实验表明,PhotoFlow 在六轮渲染预算下,成功率和质量对齐指标均优于现有方法。这是首个将语言条件虚拟摄影作为可执行智能体任务的工作。
Virtual photography asks an agent to enter a prepared 3D scene with no preselected camera pose or reference image, infer a suitable shot from scene information and a language intent, choose executable camera parameters, …