全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月1日

10:18

10:18

arXiv cs.LG@Ulrich Prestel, Stefan Andreas Baumann, Nick Stracke, Björn Ommer

精选

RayDer 提出了一种统一的、前馈式 Transformer 架构，将相机估计、场景重建和渲染整合到一个主干网络中，将自监督新视角合成（NVS）转化为一个定义良好的单模型缩放问题。通过引入最小动态状态作为干扰因素，它吸收了视频中的时变内容，从而能够在无约束的真实世界视频上稳定训练。RayDer 将静态场景 NVS 作为目标任务，动态内容仅作为可扩展的监督信号，而非像动态场景（4D）NVS 那样进行重建。实验表明，RayDer 在数据和计算量上表现出清晰的幂律缩放行为，并在多个基准测试中取得了与有监督方法相媲美的零样本开放集性能。

论文新视角合成自监督学习 Transformer 场景重建 RayDer

推荐理由：RayDer 解决了自监督 NVS 难以规模化的问题，做 3D 视觉和场景重建的研究者可以关注其简洁的缩放规律和零样本能力，值得在真实视频数据上试试。