论文精选

PhotoFlow:智能体实现3D虚拟摄影任务

PhotoFlow: Agentic 3D Virtual Photography Missions

精选理由

做3D场景理解或自动摄影的团队,PhotoFlow 把语言指令到相机参数的全流程打通了,可以直接用它的闭环搜索思路提升自己的渲染管线。

AI 摘要

PhotoFlow 提出了一种基于智能体的虚拟摄影框架,能够在无预设相机位姿或参考图像的情况下,根据语言指令在3D场景中自动选择相机参数并渲染照片。该框架包含导演、评审和反思三个模块,通过闭环搜索优化拍摄效果。同时发布了 VPhotoBench 基准,包含47个场景和141个语言条件摄影任务。实验表明,PhotoFlow 在六轮渲染预算下,成功率和质量对齐指标均优于现有方法。这是首个将语言条件虚拟摄影作为可执行智能体任务的工作。

AI 翻译 · 中文

PhotoFlow 提出了一种基于智能体的虚拟摄影框架,能够在无预设相机位姿或参考图像的情况下,根据语言指令在3D场景中自动选择相机参数并渲染照片。该框架包含导演、评审和反思三个模块,通过闭环搜索优化拍摄效果。同时发布了 VPhotoBench 基准,包含47个场景和141个语言条件摄影任务。实验表明,PhotoFlow 在六轮渲染预算下,成功率和质量对齐指标均优于现有方法。这是首个将语言条件虚拟摄影作为可执行智能体任务的工作。

arXiv cs.AIVirtual photography asks an agent to enter a prepared 3D scene with no preselected camera pose or reference image, infer a suitable shot from scene information and a language intent, choose executable camera parameters,