PhotoFlow：智能体实现3D虚拟摄影任务

精选理由

做3D场景理解或自动摄影的团队，PhotoFlow 把语言指令到相机参数的全流程打通了，可以直接用它的闭环搜索思路提升自己的渲染管线。

AI 摘要

PhotoFlow 提出了一种基于智能体的虚拟摄影框架，能够在无预设相机位姿或参考图像的情况下，根据语言指令在3D场景中自动选择相机参数并渲染照片。该框架包含导演、评审和反思三个模块，通过闭环搜索优化拍摄效果。同时发布了 VPhotoBench 基准，包含47个场景和141个语言条件摄影任务。实验表明，PhotoFlow 在六轮渲染预算下，成功率和质量对齐指标均优于现有方法。这是首个将语言条件虚拟摄影作为可执行智能体任务的工作。

AI 翻译 · 中文

arXiv cs.AIVirtual photography asks an agent to enter a prepared 3D scene with no preselected camera pose or reference image, infer a suitable shot from scene information and a language intent, choose executable camera parameters, …

阅读原文