全部 AI 动态 · AI 热点

6月26日

10:52

arXiv cs.AI@Junhao Shi, Zezheng Huai, Siyin Wang, Jia Chen, Yubang Wang, Zhaoye Fei, Hechang Chen, Jingjing Gong, Xipeng Qiu, Yu-Gang Jiang

OmniAct 提出了一个分层异步架构，将多模态语义规划器、基于事件边界压缩的自适应分层记忆和异步视觉抢占引擎模块化集成，以解决持久自主机器人的跨域工具调用与物理故障恢复问题。在40个真实世界长期任务中，使用两个机器人平台协调四个IoT设备，OmniAct在所有复杂度级别上端到端成功率一致提升，累积超过10万交互token时保持接近线性的token消耗，并让中等规模开源模型达到闭源模型性能。

AI模型 OmniAct 具身智能多模态机器人 IoT交互

推荐理由：他们搞了个新架构，让机器人能自己协调API、物联网和物理动作，干活出错还能自己恢复，20个任务里成功率都比之前高，而且省钱省token。

原文

6月25日

10:59

arXiv cs.AI@Shuyi Zhang, Yunfan Lou, Hongyang Cheng, Yichen Guo, Chuyao Fu, Yaoxu Lyu, Xiaojie Zhang, Haoran Li, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang

FORCE是一个三阶段框架，通过价值校准热身和自蒸馏来稳定VLA模型的强化学习微调。它解决了Q函数不稳定导致的初期遗忘和低质量探索数据导致的策略更新低效问题。在模拟和真实任务上，FORCE取得了79%的绝对成功率提升，比此前RL方法高出10%，同时训练速度加快32.5%。该框架无需人工干预即可实现稳健性能。

AI模型 FORCE VLA 强化学习机器人

推荐理由：新框架FORCE让机器人学动作更快更稳，成功率飙升79%，比现有RL方法还快32.5%，不用人插手。

原文

6月24日

11:58

arXiv cs.LG@Maggie Wang, Lars Osterberg, Stephen Tian, Ola Shorinwa, Jiajun Wu, Mac Schwager

InSight框架通过将VLA模型在原始动作层面变得可操控，从而解锁自主技能获取能力。该框架包含自动分割管道，利用VLM计划分解和末端执行器姿态将演示分割成带标签的原始动作，以及VLM引导的数据飞轮，自动识别缺失原始动作并尝试演示。在模拟和真实世界操作任务中（包括方块翻转、抽屉关闭、清扫、扭转、倒水）评估，无需任何人工演示即可学习这些技能。学到的原始动作可组合执行新颖的长周期任务，无需额外人工演示。

论文 InSight VLA 操作技能自主学习机器人

推荐理由：这篇论文提出了InSight框架，让机器人通过VLA模型自己学新技能，不用人教，就能搞定方块翻转、倒水这些操作，很有实用性。

原文

6月23日

13:33

arXiv cs.LG@Mingi Choi, Gunhee Kim, Jisoo Kim, Taeksoo Kim, Taeyun Ha, Jongbin Lim, Hanbyul Joo

AutoDex是一个自动化真实世界数据收集系统，用于灵巧抓取。它利用20个摄像头在严重手-物遮挡下定位物体，执行碰撞监控的运动，标记抓取成功或失败，并主动重置物体。在100个不同物体上使用Allegro和Inspire手收集了3,593次抓取试验。与遥操作相比，处理500次轨迹只需10.3小时（遥操作49.4小时），吞吐量提升4.8倍。从AutoDex验证数据库检索的抓取成功率为76%，而仅模拟验证为34%。

论文 AutoDex 灵巧抓取机器人多视角感知自动化数据收集

推荐理由：AutoDex自动搞定灵巧抓取数据收集，比遥操作快4.8倍，成功率碾压纯模拟验证

原文

13:02

arXiv cs.AI@Ulas Berk Karli, Tesca Fitzgerald

论文提出RECALL方法，用于视觉-语言-动作（VLA）模型的主动持续学习。与被动模仿学习相比，不确定性引导的数据收集使微调效率提升30%以上。但仅训练恢复数据会导致灾难性遗忘，在OpenVLA模型上丢失20%的旧任务性能。评估了重放混合和弹性权重巩固（EWC）两种持续学习技术，发现可塑性与记忆保留之间存在权衡。实验在3个机器人操作任务上进行，表明不确定性引导的恢复演示能提升适应效率，但如何平衡新旧知识仍是开放挑战。

论文 VLA RECALL 主动学习持续学习机器人

推荐理由：这篇论文研究了怎么让机器人在学新任务时不忘旧技能，用不确定性主动挑数据微调VLA模型，比被动收集更高效，还试了两种防遗忘方法，挺实在的。

原文

6月17日

10:46

arXiv cs.AI@Mingtong Zhang, Dhruv Shah

论文提出了VERITAS框架，将预训练通用机器人策略作为“生成器”，搭配无梯度的“视觉验证器”在推理时评估动作。该框架无需额外训练即可提升策略性能，优于原通用策略。使用验证的自主轨迹进行微调后，策略性能持续提升，且效率与专家演示相当，无需人工干预。实验表明推理时验证是一种实用且可扩展的部署改进机制。

论文 VERITAS 机器人推理时验证策略改进自主学习

推荐理由：这篇论文展示了如何用视觉验证器让机器人策略在推理时自我改进，无需额外训练，效率堪比专家演示，值得关注。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月15日

11:12

arXiv cs.AI@Hongzhan Yu, Chenghao Li, Ruipeng Zhang, Henrik Christensen, Sicun Gao

生成式动力学模型用于机器人规划，但需可靠检测策略导致的分布外(OOD)转换。现有方法将动力学视为固定并附加后验支持代理，但当动力学对关键动作选择局部不敏感时可能失败。本文提出支持条件控制敏感性正则化，在训练区域促进对控制输入的敏感响应，同时限制弱经验支持下的不稳定外推。在视觉避障、操作和真实机器人导航实验中，该方法提升了OOD检测和闭环规划安全性。

论文 Sensitivity Shaping Latent Modeling OOD检测机器人动力学模型

推荐理由：新正则化法让机器人更安全

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

10:53

arXiv cs.AI@Zhao-Heng Yin, Guanya Shi, Pieter Abbeel, C. Karen Liu

Mana 提出了一种将灵巧操作视为动画问题的 sim-to-real 框架，解决了铰接工具操作中协调内部自由度与接触交互的难题。该框架通过粗到细的流水线，将程序化生成的关键帧转化为操作轨迹，结合运动规划与强化学习实现零样本迁移。数据生成几乎全自动，每个工具仅需不到一分钟的鼠标点击指定功能属性。在四种不同铰接工具上，Mana 实现了零样本的 sim-to-real 抓取与手内操作，展示了可扩展的灵巧操作方案。

论文灵巧操作铰接工具 sim-to-real 强化学习机器人

推荐理由：铰接工具操作是机器人灵巧操作的硬骨头，Mana 用动画思路解决了数据生成和迁移难题，做机器人操作或 sim-to-real 的团队可以直接参考其零样本迁移方法。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

11:04

arXiv cs.AI@Adam Wei, Nicholas Pfaff, Thomas Cohn, Arif Kerem Dayı, Constantinos Daskalakis, Giannis Daras, Russ Tedrake

精选72°

机器人领域的高质量任务数据昂贵且难以收集，而次优数据（低质量或分布外演示）却大量存在。现有方法在同时训练两类数据时，常无法区分次优样本中的有用和有害特征。Ambient Diffusion Policy 通过引入噪声依赖的数据使用策略，仅在高和低扩散时间步利用次优数据，从而提取有用特征。该方法基于机器人动作数据的频谱幂律分布，利用全局到局部层次和局部性两个性质。在六项任务上，针对四种次优数据（噪声轨迹、仿真到现实差距、任务不匹配、大规模数据混合），该方法均有效，并在 Open X-Embodiment 数据集上比现有方法提升高达33%。

论文机器人模仿学习扩散策略次优数据 Open X-Embodiment

推荐理由：机器人团队终于有了一个能高效利用次优数据的实用方法——Ambient Diffusion Policy 解决了低质量数据难以训练的问题，做机器人模仿学习的开发者可以直接在现有数据集上尝试，有望大幅降低数据收集成本。

原文

11:02

arXiv cs.AI@Ria Doshi, Tian Gao, Annie Chen, Chelsea Finn, Jeannette Bohg

多机器人协作在移动场景中面临扩展性差和部分可观测性问题。CHORUS框架利用预训练视觉-语言-动作（VLA）模型的视觉运动先验，使每个机器人仅依赖自身局部观测和身份提示即可独立运行，无需推理时通信或显式对齐。在移动测量、图书交接和洗衣篮搬运等真实实验中，CHORUS相比从零训练的分散模型提升64%性能，对队友行为的反应性提高40%，并超越集中式基线。该工作表明，共享VLA骨干网络足以实现去中心化多机器人协作，无需为每个机器人单独训练策略。

论文多机器人协作 VLA模型去中心化机器人预训练

推荐理由：多机器人协作的扩展性难题被VLA模型破解了——做机器人集群部署的团队可以直接参考CHORUS的零通信方案，省去复杂的对齐和通信模块。

原文

6月9日

10:40

arXiv cs.AI@Mohamed Sayed, Wolfram Burgard, Tanja Katharina Kaiser

精选

该研究提出一种基于多智能体强化学习的方法，解决多机器人系统协同运输任意形状、质量分布不均物体时的队形控制问题。传统方法将任务分解为队形控制、协同导航和避障三个子问题，但难以应对真实物体的复杂几何与质量分布。新方法让机器人自主在物体下方定位以支撑重量，同时避开障碍物形成平衡队形。实验表明，该方法在不同环境和机器人数量下均能生成可靠策略，并泛化到复杂场景。

论文多智能体强化学习协同运输队形控制机器人避障

推荐理由：做多机器人协同运输的团队终于有了能处理真实物体形状和质量分布的方案——不用再手工设计队形，机器人能自主适应。做物流、仓储或服务机器人的开发者值得关注。

原文

10:25

arXiv cs.AI@Haizhou Ge, Yufei Jia, Yue Li, Zhixing Chen, Lu Shi, Lei Han, Guyue Zhou, Ruqi Huang

精选

机器人探索操作中，一次看似失败的尝试（如拉锁住的抽屉）往往揭示了完成任务的关键前提条件。本文形式化定义了探索操作轨迹问答（EMT-QA）任务：给定同步视频和本体感知数据，预测最小成功动作链。现有VLM和具身多模态大模型无法可靠地从原始数据中恢复该链条。作者提出闭环轨迹蒸馏（Closed-Loop Trace Distillation）方法，通过每个任务的编码代理检查标注轨迹，蒸馏出一行自然语言提示（DRH）。在三个模拟器和两个真实机器人任务上，DRH将链条预测准确率提升0.38-0.47，且DRH本身可作为一次性程序化分类器的唯一规范。

论文探索操作轨迹问答 VLM 蒸馏提示机器人

推荐理由：机器人操作中失败尝试常被忽略，但本文证明它们才是关键线索——做具身智能或机器人规划的团队，可以用蒸馏出的单行提示直接提升VLM的轨迹理解能力，值得在仿真和真实场景中试试。

原文

5月29日

11:06

arXiv cs.AI@Chunru Lin, Hongxin Zhang, Fenghao Yu, Zhehuan Chen, Thomas L. Griffiths, Yejin Choi, David Held, Chuang Gan

RoboWits 是一个双手机器人基准测试，旨在系统评估机器人在意外条件下的认知推理、创造性工具使用和鲁棒性。研究团队提出了一个多智能体协作框架，自动生成包含几何、材料和装配推理的 30 个种子任务和 208 个变异任务。测试发现，预训练的视觉-语言-动作模型（VLA）在种子任务上表现尚可，但在变异任务上表现脆弱，无法应对需要推理和策略适应的操作场景。这表明当前机器人策略在创造性问题解决方面存在显著差距。

论文机器人基准测试认知推理视觉-语言-动作模型创造性问题解决

推荐理由：机器人研究者终于有了一个专门测试认知推理和意外应对的基准——RoboWits 揭示了 VLA 模型在变异任务上的脆弱性，做机器人操作和具身智能的团队值得关注这个评估框架。

原文

5月28日

12:02

arXiv cs.LG@Krishnam Gupta

精选72°

研究发现视觉-语言-动作（VLA）模型在电机指令层面存在根本性、可预测的失败差异。通过对 VQ-BeT、Diffusion Policy 和 ACT 三种架构在 PushT 和 ALOHA 14-DOF 双臂操作任务上进行 450 次评估，发现方向反转率是通用失败预测指标（AUROC 最高 0.93），而急动度监控仅对离散令牌架构有效，速度监控在连续架构中几乎无效（AUROC 仅 0.41-0.52）。研究强调架构匹配的监控选择至关重要，并开源了 SafeContract 工具包。

论文 VLA 机器人动作监控失败预测 SafeContract

推荐理由：做机器人 VLA 部署的团队注意了——不同架构的失败模式完全不同，用错监控等于白费功夫。建议直接看方向反转率这个通用指标，并试试 SafeContract 工具包。

原文

11:26

arXiv cs.AI@Jiahe Pan, Stelian Coros, Jitendra Malik, Toru Lin

精选

该研究提出了一种基于物理原理的触觉表示方法——压力中心（CoP），用于解决仿真到现实（sim-to-real）迁移中触觉信息丢失的问题。传统方法常将触觉数据简化为粗糙的低维特征，而CoP保留了密集的接触信息，同时保持对仿真到现实迁移的鲁棒性。研究还提出了一种基于可导动力学的传感器校准方案，无需真实力测量即可估计触觉传感器方向。在盲操作任务（如插销入孔和球平衡）中，基于CoP的策略在五指手上实现了零样本仿真到现实迁移，性能优于二进制接触和原始触觉基线。分析表明，CoP策略能编码物体质量等任务相关物理属性，作为控制的副产品涌现。

论文灵巧操作仿真到现实触觉表示压力中心机器人

推荐理由：这项研究解决了灵巧操作中触觉信息从仿真到现实迁移的瓶颈，做机器人灵巧操作或触觉感知的团队可以直接参考其CoP表示方法，零样本迁移效果值得一试。

原文

5月19日

11:36

arXiv cs.AI@Giorgia Modi, Davide Buoso, Giuseppe Averta, Daniele De Martini

精选

本文提出利用固定外部RGB摄像头作为通用先验地图（CPMs），为主动3D场景图（3DSG）生成提供初始语义和几何先验。系统通过前馈3D重建模型统一处理所有摄像头（机载和外部）的RGB观测，无需硬件修改。基于部分场景图的主动语义探索框架引导机器人前往语义不确定性高的区域，逐步完善先验。实验表明，仅使用一个外部摄像头即可将初始物体召回率提升最多79%，并显著提高后续主动探索的效率。

论文 3D场景图主动探索先验地图 RGB重建机器人

推荐理由：做机器人自主探索和3D场景理解的团队，这个RGB-only方案无需额外硬件就能大幅提升初始场景图质量，值得在现有系统中尝试集成外部摄像头作为先验。

原文

10:08

arXiv cs.AI@Xinchen Jin, Aditya Chatterjee, Pranav Kumar, Rohan Paleja

精选

本文提出一种事件锚定的可解释性方法，将稀疏自编码器（SAE）的特征分析与机器人行为事件（如末端执行器关键帧）对齐，而非依赖文本上下文。该方法通过视觉、状态和时间线索聚类任务内的关键帧，将SAE特征与行为事件关联，并可选地通过VLM注释提供语义背景。实验在两种仿真架构和真实机器人上验证，事件锚定排序对OpenVLA产生最强因果效应，并迁移到π₀.5的连续动作块。研究同时指出SAE作为干预基础存在稀疏性和不完美性，干预效果因架构和干预位置而异，激进干预会暴露安全性和可解释性限制。代码已开源。

论文稀疏自编码器 VLA策略可解释性机器人行为事件

推荐理由：做机器人VLA策略可解释性的研究者终于有了一个行为锚定的分析框架——事件锚定SAE直接关联动作与行为事件，比纯文本分析更贴近闭环控制，建议做机器人学习或可解释AI的团队点开看看。

原文

5月18日

10:39

arXiv cs.LG@Vaidehi Bagaria, Nikshep Grampurohit, Pulkit Verma

精选

该论文发现GRPO算法在VLA策略强化学习中，梯度计算占78%时间，而大部分计算浪费在策略已掌握的阶段。为此提出概率性分块掩码（PCM），通过成功-失败动作方差识别关键阶段，仅对少量分块进行梯度更新。PCM无需额外奖励模型，在LIBERO基准上保持相同成功率的同时，实现2.38倍加速、4.8倍梯度更新加速和60%峰值内存降低。

论文强化学习 VLA策略 GRPO 梯度加速机器人

推荐理由：做VLA机器人强化学习的团队终于有了省算力的方案——PCM直接替换GRPO就能省60%内存、快2倍多，效果还不打折，建议做后训练优化的点开看看。

原文

5月15日

11:13

arXiv cs.LG@Zhuohang Li, Liqun Huang, Wei Xu, Zhengming Zhu, Nie Lin, Xiao Ma, Xinjun Sheng, Ruoshi Wen

精选

Vision-Language-Action (VLA) 模型在灵巧操作中容易因高维动作空间和接触丰富的动力学产生累积误差。现有交互式模仿学习（IIL）在接管时存在人机指令不匹配，导致机器人手部“手势跳跃”。Hand-in-the-Loop (HandITL) 提出一种无缝干预方法，将人类纠正意图与自主策略执行融合，避免手势跳跃。实验表明，相比直接遥操作接管，HandITL 减少接管抖动 99.8%，降低抓取失败率 87.5%，平均完成时间缩短 19.1%。在三个长时灵巧任务上，用 HandITL 收集的干预数据训练的策略平均性能提升 19%。

论文灵巧操作 VLA模型人机交互干预学习机器人

推荐理由：灵巧操作是机器人领域的硬骨头，HandITL 解决了人机干预时的“手势跳跃”痛点，做机器人操作或 VLA 模型微调的团队可以直接参考实验方法，减少训练数据收集中的噪声。

原文