精选理由
DIRECT 解决了具身规划中测试时计算资源浪费的问题,做机器人部署和 VLM 应用的团队可以直接参考其路由策略,在降低成本的同时保持性能。
DIRECT 是一个路由框架,利用多模态场景上下文为每个提示分配测试时计算资源,以改善成功-成本帕累托前沿。研究发现,在链式思维深度、模型大小和记忆历史三个缩放轴上,测试时计算并非均匀杠杆,不同轴带来不同能力增益。在 VLABench 和 RoboMME 上的实验表明,DIRECT 在物理 Franka 机械臂上匹配或超越更强模型的成功率,同时平均延迟降低高达 65%。该工作揭示了朴素缩放测试时计算的浪费性,为具身代理的部署提供了更高效的方案。
AI 翻译 · 中文
DIRECT 是一个路由框架,利用多模态场景上下文为每个提示分配测试时计算资源,以改善成功-成本帕累托前沿。研究发现,在链式思维深度、模型大小和记忆历史三个缩放轴上,测试时计算并非均匀杠杆,不同轴带来不同能力增益。在 VLABench 和 RoboMME 上的实验表明,DIRECT 在物理 Franka 机械臂上匹配或超越更强模型的成功率,同时平均延迟降低高达 65%。该工作揭示了朴素缩放测试时计算的浪费性,为具身代理的部署提供了更高效的方案。
Vision-Language Models (VLMs) are increasingly deployed as high-level planners for embodied agents, with an emerging strategy of scaling test-time compute to improve capability. However, we observe that doing so increase…