Good Token Hunting：视觉几何Transformer的令牌选择指南

精选理由

做3D重建或视觉Transformer的开发者，这篇论文用两阶段令牌选择解决了计算瓶颈，85%的加速效果值得直接参考实现。

AI 摘要

视觉几何Transformer在多视图3D重建中表现出色，但全局注意力层导致计算成本随输入序列长度二次增长，限制了可扩展性和效率。本文提出一种简单通用的策略：限制每个查询在全局注意力中交互的键/值令牌数量。通过两阶段框架实现有效令牌选择：帧间选择基于多样性策略确保场景覆盖，帧内选择利用注意力熵指导层感知稀疏化。实验表明，该方法在500张图像场景下加速超过85%，同时保持甚至提升基线性能，为视觉几何Transformer的未来应用提供了关键优化思路。

AI 翻译 · 中文

arXiv cs.AIVisual geometry transformers have become powerful architectures for multi-view 3D reconstruction, enabling joint prediction of multiple 3D attributes in a feed-forward manner. However, their computational cost grows quad…

阅读原文