11:18arXiv cs.AI@Jiarui Guo, Haojia Wei, Yiming Zhang, Yifei Liu, Yuning Gong, Hongjie Zhang, Xue Yang, Zhihang Zhong精选PhotoFlow 提出了一种基于智能体的虚拟摄影框架,能够在无预设相机位姿或参考图像的情况下,根据语言指令在3D场景中自动选择相机参数并渲染照片。该框架包含导演、评审和反思三个模块,通过闭环搜索优化拍摄效果。同时发布了 VPhotoBench 基准,包含47个场景和141个语言条件摄影任务。实验表明,PhotoFlow 在六轮渲染预算下,成功率和质量对齐指标均优于现有方法。这是首个将语言条件虚拟摄影作为可执行智能体任务的工作。论文智能体3D场景理解虚拟摄影视觉语言模型闭环搜索推荐理由:做3D场景理解或自动摄影的团队,PhotoFlow 把语言指令到相机参数的全流程打通了,可以直接用它的闭环搜索思路提升自己的渲染管线。原文