OneCanvas: 全景重投影的3D场景理解

OneCanvas: 3D Scene Understanding via Panoramic Reprojection

精选理由

OneCanvas用全景投影做3D理解,训练少10倍,在SQA3D上SOTA,适合机器人和具身AI。

AI 摘要

OneCanvas将多视角patch特征投影到等距柱状全景画布,并添加3D坐标的位置嵌入。无需复杂几何编码器或大量训练预算。在SQA3D和VSI-Bench上达到SOTA准确率,在SPBench上泛化到分布外数据。训练计算量比最强竞争方法少一个数量级。

AI 翻译 · 中文

OneCanvas将多视角patch特征投影到等距柱状全景画布,并添加3D坐标的位置嵌入。无需复杂几何编码器或大量训练预算。在SQA3D和VSI-Bench上达到SOTA准确率,在SPBench上泛化到分布外数据。训练计算量比最强竞争方法少一个数量级。

arXiv cs.LGExisting approaches to 3D scene understanding in Vision-Language Models (VLMs) either rely on complex, model-specific geometry encoders or large training budgets in pursuit of spatial reasoning. Instead, OneCanvas aggreg