10:18arXiv cs.LG@Ulrich Prestel, Stefan Andreas Baumann, Nick Stracke, Björn Ommer精选RayDer 提出了一种统一的、前馈式 Transformer 架构,将相机估计、场景重建和渲染整合到一个主干网络中,将自监督新视角合成(NVS)转化为一个定义良好的单模型缩放问题。通过引入最小动态状态作为干扰因素,它吸收了视频中的时变内容,从而能够在无约束的真实世界视频上稳定训练。RayDer 将静态场景 NVS 作为目标任务,动态内容仅作为可扩展的监督信号,而非像动态场景(4D)NVS 那样进行重建。实验表明,RayDer 在数据和计算量上表现出清晰的幂律缩放行为,并在多个基准测试中取得了与有监督方法相媲美的零样本开放集性能。论文新视角合成自监督学习Transformer场景重建RayDer推荐理由:RayDer 解决了自监督 NVS 难以规模化的问题,做 3D 视觉和场景重建的研究者可以关注其简洁的缩放规律和零样本能力,值得在真实视频数据上试试。原文