全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

12:29

12:29

arXiv cs.AI@Taishan Li, Jiwen Zhang, Siyuan Wang, Xuanjing Huang, Zhongyu Wei

精选

现有视觉-语言-动作（VLA）模型在标准操作基准上表现优异，但大多假设任务相关物体完全可见，这在现实场景中常因遮挡而失效。研究者提出LIBERO-Occ，一个基于LIBERO的遮挡扩展基准，发现当前最先进的VLA模型在遮挡下性能显著下降。为解决此问题，他们提出视角想象（VIM）方法，从遮挡的主视角生成互补视角，并基于观测和想象证据联合预测动作。VIM无需额外部署摄像头即可提升模型在多种任务、遮挡类型和严重程度下的鲁棒性。该基准和代码已开源。

论文 VLA模型遮挡鲁棒性视角想象机器人操作 LIBERO-Occ

推荐理由：做机器人操作或VLA模型研究的团队，终于有了专门评估遮挡鲁棒性的基准和解决方案——VIM用视角想象补全感知，无需加摄像头就能提升性能，值得一试。