论文精选

Good Token Hunting:视觉几何Transformer的令牌选择指南

Good Token Hunting: A Hitchhiker's Guide to Token Selection for Visual Geometry Transformers

精选理由

做3D重建或视觉Transformer的开发者,这篇论文用两阶段令牌选择解决了计算瓶颈,85%的加速效果值得直接参考实现。

AI 摘要

视觉几何Transformer在多视图3D重建中表现出色,但全局注意力层导致计算成本随输入序列长度二次增长,限制了可扩展性和效率。本文提出一种简单通用的策略:限制每个查询在全局注意力中交互的键/值令牌数量。通过两阶段框架实现有效令牌选择:帧间选择基于多样性策略确保场景覆盖,帧内选择利用注意力熵指导层感知稀疏化。实验表明,该方法在500张图像场景下加速超过85%,同时保持甚至提升基线性能,为视觉几何Transformer的未来应用提供了关键优化思路。

AI 翻译 · 中文

视觉几何Transformer在多视图3D重建中表现出色,但全局注意力层导致计算成本随输入序列长度二次增长,限制了可扩展性和效率。本文提出一种简单通用的策略:限制每个查询在全局注意力中交互的键/值令牌数量。通过两阶段框架实现有效令牌选择:帧间选择基于多样性策略确保场景覆盖,帧内选择利用注意力熵指导层感知稀疏化。实验表明,该方法在500张图像场景下加速超过85%,同时保持甚至提升基线性能,为视觉几何Transformer的未来应用提供了关键优化思路。

arXiv cs.AIVisual geometry transformers have become powerful architectures for multi-view 3D reconstruction, enabling joint prediction of multiple 3D attributes in a feed-forward manner. However, their computational cost grows quad