OneCanvas: 全景重投影的3D场景理解

精选理由

OneCanvas用全景投影做3D理解，训练少10倍，在SQA3D上SOTA，适合机器人和具身AI。

AI 摘要

OneCanvas将多视角patch特征投影到等距柱状全景画布，并添加3D坐标的位置嵌入。无需复杂几何编码器或大量训练预算。在SQA3D和VSI-Bench上达到SOTA准确率，在SPBench上泛化到分布外数据。训练计算量比最强竞争方法少一个数量级。

AI 翻译 · 中文

arXiv cs.LGExisting approaches to 3D scene understanding in Vision-Language Models (VLMs) either rely on complex, model-specific geometry encoders or large training budgets in pursuit of spatial reasoning. Instead, OneCanvas aggreg…

阅读原文