精选 AI 资讯 · AI 热点

6月17日

09:37

arXiv cs.AI@Bochen Yang, Lianlei Shan

精选

PearlVLA提出一种将动作规划调度到VLM潜在空间的新框架，通过将元查询表示分为视觉定位分支和迭代潜在规划分支，利用冻结的潜在世界模型生成未来观测，并经过K轮细化后并行解码动作块。在LIBERO基准上，PearlVLA达到了现有方法中的最佳性能，证明了潜在空间推理在降低延迟的同时提升规划质量的有效性。

AI模型 PearlVLA VLA模型具身智能 LIBERO 动作规划

推荐理由：这篇论文提出了PearlVLA，把动作规划放到了潜在空间里，比传统文本链式推理延迟更低，在LIBERO上刷了SOTA，做具身智能的可以看看。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

12:33

arXiv cs.AI@Chuanke Pang, Junyi Huang, Zhijun Zhao, Yaobing Wang, Kun Xu, Xilun Ding

精选

VLA模型在机器人操作中展现出强大的零样本泛化能力，但现有预训练管线几乎都局限于低自由度平行夹爪。将语义先验迁移到高自由度灵巧手面临严重的形态鸿沟，直接端到端微调会导致空间推理灾难性遗忘和动作流形坍塌。本文提出InDex框架，通过跨形态语义继承，将预训练的1-DoF平行抓取输出重新用作连续的宏观虚拟抓取意图代理，并采用两阶段解耦学习架构：第一阶段参数高效对齐VLA骨干以预测连续手臂轨迹和标量抓取意图；第二阶段冻结空间骨干，利用意图条件去噪扩散头解码多指末端执行器的细粒度关节动作。在多种多阶段、高接触灵巧操作任务上的仿真基准测试表明，InDex能以极少的演示数据掌握复杂技能，显著优于整体微调基线，同时保留原始VLA先验的鲁棒空间泛化能力。

论文 VLA模型灵巧操作形态鸿沟意图条件微调机器人操作

推荐理由：机器人操作研究者终于有了解决灵巧手形态鸿沟的实用方案——InDex用意图条件微调避免了灾难性遗忘，做灵巧操作或VLA模型迁移的团队可以直接参考其两阶段架构。

原文

10:05

arXiv cs.LG@Hyun Joe Jeong, Gokul Swamy, Andrea Bajcsy

精选

该研究提出一种框架，通过交互式搜索语言序列来提升视觉-语言-动作（VLA）模型的闭环任务性能，并蒸馏为测试时的语言反馈策略（LFP）。同时学习一个改进头，预测何时语言引导能提升性能，并通过保形化处理防止有害干预。该方法适用于任意冻结的预训练VLA模型，无需访问原始训练数据或微调。在模拟和硬件实验中，该策略分别将基础VLA性能提升24.7%和65.0%，且在视觉和语义扰动下具有强无害性保证。

论文 VLA模型语言引导机器人控制保形预测安全干预

推荐理由：机器人开发者终于有了一个无需重新训练就能安全引导VLA模型的方法——通过语言反馈策略提升任务成功率，同时避免有害行为。做机器人控制或人机交互的团队可以直接在现有模型上尝试，值得关注。

原文

6月10日

12:29

arXiv cs.AI@Taishan Li, Jiwen Zhang, Siyuan Wang, Xuanjing Huang, Zhongyu Wei

精选

现有视觉-语言-动作（VLA）模型在标准操作基准上表现优异，但大多假设任务相关物体完全可见，这在现实场景中常因遮挡而失效。研究者提出LIBERO-Occ，一个基于LIBERO的遮挡扩展基准，发现当前最先进的VLA模型在遮挡下性能显著下降。为解决此问题，他们提出视角想象（VIM）方法，从遮挡的主视角生成互补视角，并基于观测和想象证据联合预测动作。VIM无需额外部署摄像头即可提升模型在多种任务、遮挡类型和严重程度下的鲁棒性。该基准和代码已开源。

论文 VLA模型遮挡鲁棒性视角想象机器人操作 LIBERO-Occ

推荐理由：做机器人操作或VLA模型研究的团队，终于有了专门评估遮挡鲁棒性的基准和解决方案——VIM用视角想象补全感知，无需加摄像头就能提升性能，值得一试。

原文

6月9日

12:30

arXiv cs.LG@Seongbin Park, Fan Zhang, Baharan Mirzasoleiman, Shahriar Talebi, Nader Sehatbakhsh

精选

VLA模型在机器人操作任务中表现出色，但无法保证避免与任务无关物体的碰撞。现有安全过滤器通过查询VLM来识别障碍物，但速度太慢，无法在控制循环中实时运行。研究发现，VLA模型中的少数注意力头能可靠定位策略意图接近的目标物体。利用这些注意力头，可以在无需训练的情况下，每步获取活动目标，将场景其余部分视为障碍物，并输入控制障碍函数过滤器。结合轻量级实时目标跟踪器，该方法能有效避免非静态障碍物的碰撞，在动态场景中比使用模拟器特权状态的Oracle方法平均提升43%。

论文 VLA模型安全过滤器注意力机制控制障碍函数机器人操作

推荐理由：做机器人安全控制的团队终于有了一个轻量级方案——VLA模型自带的注意力头就能当安全过滤器用，无需额外训练或重模型，动态场景效果还更好，值得点开看实现细节。

原文

09:47

arXiv cs.AI@Yuan Zhang, Shiqi Zhang, Yedong Shen, Shuai Dong, Jiajun Deng, Xin Zhang, Yuxuan Gao, Jiajia Wu, Xin Nie, Zhiyuan Cheng, Jianmin Ji, Yanyong Zhang, Xingyi Zhang, Jia Pan

精选72°

GEAR-VLA 是一种新型视觉-语言-动作（VLA）框架，旨在解决现有 VLA 模型在真实部署中面对未见物体、背景变化和不同机器人本体时的泛化问题。它通过粗到细的动作学习、语义对齐的 3D 特征融合以及本体规范化，学习统一的几何感知动作表征。在 LIBERO、零样本 LIBERO-Plus 和 RoboTwin 2.0 上达到最先进性能，在 AgileX 上成功率 85.9%，在未见本体 LDT-01 上达 81.0%，在 212 个未见物体的通用抓取基准上达 90.1%。代码和模型将开源。

论文机器人操作 VLA模型泛化 3D视觉开源/仓库

推荐理由：GEAR-VLA 解决了机器人操作中跨本体、跨场景泛化的核心痛点，做机器人操作研究的团队可以直接参考其粗到细动作学习与 3D 对齐方法，值得关注其开源代码。

原文

6月1日

13:05

13:05IT之家（博客/媒体）

精选76°

英伟达发布 Alpamayo 2 Super，一款 320 亿参数的视觉-语言-动作（VLA）开源模型，专为 L4 自动驾驶研发设计。该模型具备类人感知、推理与行动能力，支持全车环视感知和元动作输出，可免去企业从零搭建核心基础设施。英伟达同步推出 AlpaGym 闭环强化学习平台、OmniDreams 世界模型等工具，打通从数据采集到车载部署的全流程。模型定位为教师模型，可通过知识蒸馏部署在 DRIVE AGX Thor 芯片上，已获比亚迪、吉利等车企采用。推理代码预计夏季开源。

AI模型英伟达 Alpamayo 2 Super 自动驾驶开源模型 VLA模型

推荐理由：英伟达把自动驾驶模型参数翻了三倍，还开源了全套工具链，做 L4 研发的团队可以直接省掉从零搭建的环节，建议关注夏季开源代码。

原文

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月28日

11:58

arXiv cs.LG@Xinyu Wang, Mingze Li, Sicheng Lyu, Dongxiu Liu, Kaicheng Yang, Ziyu Zhao, Yufei Cui, Xiao-Wen Chang, Peng Lu

精选

Ω-QVLA是首个无需训练的后训练量化框架，能将视觉-语言-动作模型的语言骨干和扩散动作头统一压缩至W4A4精度，打破此前认为动作头必须混合精度的认知。它通过复合SVD-Hadamard旋转均衡权重能量并分散激活异常值，结合逐步骤的DiT激活缩放量化吸收去噪步间的动态范围漂移。在LIBERO基准上，Pi 0.5和GR00T N1.5经量化后任务成功率分别达98.0%和87.8%，与FP16参考值持平或略优，静态内存占用降低71.3%。真实机器人操作实验也验证了其流畅精准的控制能力。代码已开源。

论文量化 VLA模型 Pi 0.5 GR00T N1.5 内存压缩

推荐理由：做机器人或边缘部署VLA模型的团队终于有了统一量化方案——内存省71%且性能不降，Pi 0.5和GR00T N1.5用户可以直接用代码复现。

原文

5月27日

10:34

arXiv cs.AI@Xintong Hu, Xuhong Huang, Jinyu Zhang, Yutong Yao, Yuchong Sun, Qiuyue Wang, Mingsheng Li, Sicheng Xie, Yitao Liu, Junhao Chen, Yixuan Chen, Yingming Zheng, Shuai Bai, Tao Yu

精选72°

现有机器人数据集通常只提供粗粒度的目标级语言描述，缺乏执行细节（如活动臂、接近方向、接触区域），限制了策略的可操控性。FineVLA 提出了一个开放框架，包括数据构建工具、细粒度数据集 FineVLA-Data（47,159 条轨迹）、基准测试、专用 VLM 标注器和可操控策略。实验表明，细粒度监督不仅不牺牲目标级成功率，还能提升 1.4-8.1 个百分点，且与粗粒度指令互补，最佳混合比例（FG:Raw=1:2 至 1:1）在仿真和真实场景中均取得最高性能。细粒度监督在姿态、颜色和接近方向等关键因素上带来最大真实世界增益，建议用细粒度语言补充目标级指令。

论文 VLA模型细粒度指令机器人策略数据集可操控性

推荐理由：做机器人策略学习和 VLA 模型的研究者终于有了可用的细粒度数据框架——FineVLA 不仅开源了 47K 条验证轨迹和基准，还证明了细粒度指令能显著提升操控精度，做双臂操作或仿真迁移的团队可以直接用。

原文

5月15日

11:13