精选理由
做3D重建或视觉Transformer的开发者,这篇论文用两阶段令牌选择解决了计算瓶颈,85%的加速效果值得直接参考实现。
视觉几何Transformer在多视图3D重建中表现出色,但全局注意力层导致计算成本随输入序列长度二次增长,限制了可扩展性和效率。本文提出一种简单通用的策略:限制每个查询在全局注意力中交互的键/值令牌数量。通过两阶段框架实现有效令牌选择:帧间选择基于多样性策略确保场景覆盖,帧内选择利用注意力熵指导层感知稀疏化。实验表明,该方法在500张图像场景下加速超过85%,同时保持甚至提升基线性能,为视觉几何Transformer的未来应用提供了关键优化思路。
AI 翻译 · 中文
视觉几何Transformer在多视图3D重建中表现出色,但全局注意力层导致计算成本随输入序列长度二次增长,限制了可扩展性和效率。本文提出一种简单通用的策略:限制每个查询在全局注意力中交互的键/值令牌数量。通过两阶段框架实现有效令牌选择:帧间选择基于多样性策略确保场景覆盖,帧内选择利用注意力熵指导层感知稀疏化。实验表明,该方法在500张图像场景下加速超过85%,同时保持甚至提升基线性能,为视觉几何Transformer的未来应用提供了关键优化思路。
Visual geometry transformers have become powerful architectures for multi-view 3D reconstruction, enabling joint prediction of multiple 3D attributes in a feed-forward manner. However, their computational cost grows quad…