精选理由
OneCanvas用全景投影做3D理解,训练少10倍,在SQA3D上SOTA,适合机器人和具身AI。
OneCanvas将多视角patch特征投影到等距柱状全景画布,并添加3D坐标的位置嵌入。无需复杂几何编码器或大量训练预算。在SQA3D和VSI-Bench上达到SOTA准确率,在SPBench上泛化到分布外数据。训练计算量比最强竞争方法少一个数量级。
AI 翻译 · 中文
OneCanvas将多视角patch特征投影到等距柱状全景画布,并添加3D坐标的位置嵌入。无需复杂几何编码器或大量训练预算。在SQA3D和VSI-Bench上达到SOTA准确率,在SPBench上泛化到分布外数据。训练计算量比最强竞争方法少一个数量级。
Existing approaches to 3D scene understanding in Vision-Language Models (VLMs) either rely on complex, model-specific geometry encoders or large training budgets in pursuit of spatial reasoning. Instead, OneCanvas aggreg…