AI模型精选

PearlVLA: 渐进式潜在空间具身动作规划细化

PearlVLA: Progressive Embodied Action-Plan Refinement in Latent Space

精选理由

这篇论文提出了PearlVLA,把动作规划放到了潜在空间里,比传统文本链式推理延迟更低,在LIBERO上刷了SOTA,做具身智能的可以看看。

AI 摘要

PearlVLA提出一种将动作规划调度到VLM潜在空间的新框架,通过将元查询表示分为视觉定位分支和迭代潜在规划分支,利用冻结的潜在世界模型生成未来观测,并经过K轮细化后并行解码动作块。在LIBERO基准上,PearlVLA达到了现有方法中的最佳性能,证明了潜在空间推理在降低延迟的同时提升规划质量的有效性。

AI 翻译 · 中文

PearlVLA提出一种将动作规划调度到VLM潜在空间的新框架,通过将元查询表示分为视觉定位分支和迭代潜在规划分支,利用冻结的潜在世界模型生成未来观测,并经过K轮细化后并行解码动作块。在LIBERO基准上,PearlVLA达到了现有方法中的最佳性能,证明了潜在空间推理在降低延迟的同时提升规划质量的有效性。

arXiv cs.AICurrent Vision-Language-Action (VLA) models face a trade-off between efficient action generation and explicit deliberation. Directly decoding actions from vision-language backbone representations enables low-latency cont