03:07NVIDIA AI@NVIDIAAI72°NVIDIA 研究团队的 CVPR2026 论文 LocateAnything 在 HuggingFace 上成为趋势第一。该模型是一种视觉语言检测模型,创新性地并行解码边界框,而非传统的一次一个坐标。在 1.38 亿高质量样本上训练,显著提升了定位精度和吞吐量,适用于 AI 智能体和机器人等需要快速精准视觉定位的场景。项目页面已公开。论文视觉检测边界框预测NVIDIACVPR2026HuggingFace4 个信源在谈推荐理由:做视觉检测或机器人感知的团队,LocateAnything 的并行解码思路能直接提升实时性,值得点开看看项目页。原文