全部 AI 动态 · AI 热点

6月26日

10:53

arXiv cs.AI@Wen Ye, Peiyan Li, Tingyu Yuan, Yuan Xu, Xiangnan Wu, Chaoyang Zhao, Jing Liu, Nianfeng Liu, Yan Huang, Liang Wang

E-TTS是一个模块化、即插即用的具身测试时缩放框架，通过历史感知的迭代精炼和视觉语言验证器，统一了机器人操作中的推理和动作缩放。它采用推理-动作联合采样和成对评分，并引入历史缓冲区存储上下文，用于推理和动作验证器评估候选。与常规开环TTS不同，E-TTS在采样中引入反馈生成，形成闭环迭代精炼机制。实验在4个基准、6个环境、3个实体和4个基础VLA模型上进行，模拟场景提升33.14%，真实场景提升26.62%，无需额外数据收集或重新训练。

AI模型 E-TTS 机器人操作测试时缩放视觉语言动作模型具身智能

推荐理由：E-TTS团队搞了个新框架，不用重新训练就把机器人操作成功率在模拟中提33%，真实场景提26%，挺实用的。

原文

6月25日

11:08

arXiv cs.AI@Dong Jing, Tianqi Zhang, Jiaqi Liu, Jinman Zhao, Zelong Sun, Li Erran Li, Zhiwu Lu, Mingyu Ding

本文提出在两阶段框架中预训练动作模块，在VLA训练前注入运动先验。阶段1使用基于流匹配的轻量级编解码器，仅从无条件动作轨迹学习跨实体时间运动结构，无需处理视觉或语言token。阶段2通过解码器重用和早期潜在蒸馏，将学习到的先验迁移至VLA训练，同时保留端到端优化。在13个仿真和真实世界的跨实体任务中，该方法比无先验的VLA训练收敛更快、成功率更高，尤其数据稀缺时表现更优。扩展阶段1的动作数据能提升下游VLA性能的泛化性。

论文 Cross-embodiment VLA模型机器人操作动作先验流匹配

推荐理由：这篇论文教VLA模型在正式训练前先学动作规律，用的是流匹配，13个任务上效果比直接训练好，数据少时尤其明显。

原文

6月19日

10:12

arXiv cs.AI@Gia-Binh Nguyen, Trong-Bao Ho, Thien-Loc Ha, Khoa Vo, Philip Lund Møller, Quang T. Nguyen, Long Dinh, Tuan Dam, Vu Duong, Tung M. Luu, Trung Le, Tran Nguyen Le, Minh Vu, An Thai Le, Ngan Le, Daniel Sonntag, James Zou, Jan Peters, Duy M. H. Nguyen, Ngo Anh Vien

VLA模型（如pi_0、GR00T-N1.5）参数规模达数十亿，微调计算成本高。本文通过中心核对齐（Centered Kernel Alignment）识别冗余层，无需训练即可移除最多50%的层。在LIBERO、RoboCasa、SimplerEnv三个模拟基准和10个真实操作任务、4种机器人本体上验证，压缩后模型性能与完整模型相当。微调时间减少40-50%，实时推理速度提升达30%。结果表明VLA模型实际所需层数远少于现有架构。

论文 VLA pi_0 GR00T-N1.5 模型压缩机器人操作

推荐理由：这篇论文发现VLA模型很多层是冗余的，用他们的方法可以白嫖50%层数，微调快一半，推理快30%，效果不降。搞机器人微调的可以试试。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月15日

11:11

arXiv cs.AI@Zihao Li, Ranpeng Qiu, Yincong Chen, Guoqiang Ren, Weiming Zhi

该论文提出TRACE，一种针对延迟证据视觉运动模仿任务的记忆框架。TRACE使用路径签名（path signatures）作为轨迹条件键，从固定大小潜在记忆中写入和检索早期可见的视觉证据。在真实世界长时操作任务中，TRACE相比短历史基线（1-step history）和循环记忆（GRU）提升了分支选择准确率。实验显示TRACE在视觉模糊分支点任务上的成功率超过基线方法15-30%。

论文 TRACE path signatures delayed-evidence 模仿学习机器人操作

推荐理由：用路径签名记住消失的视觉线索

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

10:09

arXiv cs.AI@Baochang Ren, Xinjie Liu, Xi Chen, Yanshuo Liu, Chenxi Li, Daqi Gao, Zeqin Su, Jintao Xing, Zirui Xue, Rui Li, Xiangyu Zhao, Shuofei Qiao, Minting Pan, Wangmeng Zuo, Lei Bai, Dongzhan Zhou, Ningyu Zhang, Huajun Chen

现有AI能读文献、写假设、规划实验方案，但实际动手操作仍需人类。LabVLA提出将视觉-语言-动作模型（VLA）应用于科学实验室场景，解决现有模型只在家庭和桌面场景训练、无法处理实验室仪器和透明液体等特殊问题。研究团队构建了RoboGenesis仿真数据引擎，生成实验室专用训练数据，并设计了LabVLA模型，采用两阶段训练：先用FAST动作标记预训练让模型具备动作感知能力，再用流匹配后训练附加动作专家模块。在LabUtopia基准测试中，LabVLA在分布内和分布外场景下均取得最高平均成功率。这项工作为机器人自主执行科学实验提供了可行路径。

论文 VLA模型科学实验室机器人操作仿真数据引擎 LabVLA

推荐理由：做机器人操作或科学自动化的团队终于有了实验室场景的专用VLA方案——LabVLA解决了数据稀缺和模型适配两大瓶颈，在仿真基准上表现领先，值得关注其后续实物部署进展。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

12:33

arXiv cs.AI@Chuanke Pang, Junyi Huang, Zhijun Zhao, Yaobing Wang, Kun Xu, Xilun Ding

精选

VLA模型在机器人操作中展现出强大的零样本泛化能力，但现有预训练管线几乎都局限于低自由度平行夹爪。将语义先验迁移到高自由度灵巧手面临严重的形态鸿沟，直接端到端微调会导致空间推理灾难性遗忘和动作流形坍塌。本文提出InDex框架，通过跨形态语义继承，将预训练的1-DoF平行抓取输出重新用作连续的宏观虚拟抓取意图代理，并采用两阶段解耦学习架构：第一阶段参数高效对齐VLA骨干以预测连续手臂轨迹和标量抓取意图；第二阶段冻结空间骨干，利用意图条件去噪扩散头解码多指末端执行器的细粒度关节动作。在多种多阶段、高接触灵巧操作任务上的仿真基准测试表明，InDex能以极少的演示数据掌握复杂技能，显著优于整体微调基线，同时保留原始VLA先验的鲁棒空间泛化能力。

论文 VLA模型灵巧操作形态鸿沟意图条件微调机器人操作

推荐理由：机器人操作研究者终于有了解决灵巧手形态鸿沟的实用方案——InDex用意图条件微调避免了灾难性遗忘，做灵巧操作或VLA模型迁移的团队可以直接参考其两阶段架构。

原文

12:03

arXiv cs.LG@Haoyuan Deng, Yitong Gao, Yudong Lin, Haichao Liu, Zhenyu Wu, Ziwei Wang

精选

真实世界机器人操作中，人类在环强化学习（HiL-RL）依赖频繁人工纠正，成本高且难以扩展。UniIntervene 提出一种智能体干预模型，能自动检测无效探索并引导策略回到高价值状态，大幅减少人工干预。它通过未来条件动作价值估计和时序价值风险评判器，在价值停滞或下降时触发干预，并从记忆库中检索高价值恢复目标生成纠正动作。在多种真实操作任务中，UniIntervene 将平均成功率提升 8.6%，同时减少 57% 的人工干预。这项研究为降低 HiL-RL 部署成本、提升可扩展性提供了新思路。

论文强化学习人机协作机器人操作智能体干预 UniIntervene

推荐理由：做机器人强化学习或人机协作的团队，终于有了减少人工干预的自动化方案——UniIntervene 用价值感知的智能体干预替代频繁人工纠正，成功率还更高，值得在真实场景中一试。

原文

11:29

arXiv cs.AI@Steven Oh, Jason Jingzhou Liu, Tony Tao, Philip Han, Kenneth Shaw, Satoshi Funabashi, Ruslan Salakhutdinov, Deepak Pathak

精选

本文提出NEXT方法，通过数据驱动的方式仅用10分钟自由运动数据训练1分钟，即可估计机械臂外部关节力矩，无需专用力传感器。结合FIRST重采样训练策略，在行为克隆中提升接触任务表现，五个长时任务中任务进度提升超17%。该方法让低成本机械臂也能实现力反馈遥操作和策略学习，无需额外硬件。代码和视频已开源。

论文力感知机器人操作行为克隆低成本硬件 NEXT

推荐理由：做机器人操作研究的团队终于有了低成本力感知方案——NEXT仅需10分钟数据就能替代昂贵传感器，FIRST让行为克隆在接触任务中提升17%进度，建议做遥操作或灵巧操作的开发者直接试。

原文

6月10日

12:29

arXiv cs.AI@Taishan Li, Jiwen Zhang, Siyuan Wang, Xuanjing Huang, Zhongyu Wei

精选

现有视觉-语言-动作（VLA）模型在标准操作基准上表现优异，但大多假设任务相关物体完全可见，这在现实场景中常因遮挡而失效。研究者提出LIBERO-Occ，一个基于LIBERO的遮挡扩展基准，发现当前最先进的VLA模型在遮挡下性能显著下降。为解决此问题，他们提出视角想象（VIM）方法，从遮挡的主视角生成互补视角，并基于观测和想象证据联合预测动作。VIM无需额外部署摄像头即可提升模型在多种任务、遮挡类型和严重程度下的鲁棒性。该基准和代码已开源。

论文 VLA模型遮挡鲁棒性视角想象机器人操作 LIBERO-Occ

推荐理由：做机器人操作或VLA模型研究的团队，终于有了专门评估遮挡鲁棒性的基准和解决方案——VIM用视角想象补全感知，无需加摄像头就能提升性能，值得一试。

原文

6月9日

12:33

arXiv cs.LG@Quinn Pfeifer, Ethan Pronovost, Paarth Shah, Khimya Khetarpal, Siddhartha Srinivasa, Abhishek Gupta

精选

华盛顿大学团队提出 DARP（差异感知检索策略），一种半参数检索式模仿学习方法，通过重用在推理时的训练数据来缓解行为克隆的分布外泛化问题。DARP 不学习全局策略，而是基于专家演示的 k 近邻、对应动作及邻居与查询状态的相对距离向量来预测动作。该方法无需额外数据收集、在线专家反馈或任务特定知识，在连续控制和机器人操作等任务上比标准行为克隆提升 15-46%。代码和演示已开源。

论文模仿学习行为克隆检索增强机器人操作 DARP

推荐理由：DARP 用检索替代全局映射，解决了行为克隆在部署时误差累积的痛点，做机器人学习和模仿学习的开发者可以直接参考其开源代码。

原文

12:30

arXiv cs.LG@Seongbin Park, Fan Zhang, Baharan Mirzasoleiman, Shahriar Talebi, Nader Sehatbakhsh

精选

VLA模型在机器人操作任务中表现出色，但无法保证避免与任务无关物体的碰撞。现有安全过滤器通过查询VLM来识别障碍物，但速度太慢，无法在控制循环中实时运行。研究发现，VLA模型中的少数注意力头能可靠定位策略意图接近的目标物体。利用这些注意力头，可以在无需训练的情况下，每步获取活动目标，将场景其余部分视为障碍物，并输入控制障碍函数过滤器。结合轻量级实时目标跟踪器，该方法能有效避免非静态障碍物的碰撞，在动态场景中比使用模拟器特权状态的Oracle方法平均提升43%。

论文 VLA模型安全过滤器注意力机制控制障碍函数机器人操作

推荐理由：做机器人安全控制的团队终于有了一个轻量级方案——VLA模型自带的注意力头就能当安全过滤器用，无需额外训练或重模型，动态场景效果还更好，值得点开看实现细节。

原文

11:57

arXiv cs.AI@Boshu Lei, Kostas Daniilidis, Antonio Loquercio

精选

本文提出 RLDT（Reinforcement Learning with Density Transport），一种在线强化学习算法，用于微调连续控制问题中的流匹配策略。核心思想是将策略改进视为动作密度向高奖励区域的传输，与流匹配模型的传输公式自然对齐。RLDT 使用 Stein 变分梯度下降（SVGD）从最大熵 RL 目标构建传输场，然后微调预训练的流匹配策略以对齐该场。通过预期目标估计近似中间去噪步骤的动作，避免了不稳定的反向传播。实验表明，RLDT 在奖励质量和收敛速度上优于基线，适用于密集/稀疏奖励及基于状态/视觉的长期机器人操作任务。

论文强化学习流匹配密度传输连续控制机器人操作

推荐理由：RLDT 解决了流匹配策略在强化学习中难以微调的痛点，做连续控制或机器人操作的团队可以直接参考其密度传输思路，比蒸馏或近似分布的方法更高效。

原文

10:55

arXiv cs.AI@Haodi Hu, Chung-Ta Huang, Jing Liu, Ye Wang, Kei Suzuki, Matthew Brand, Toshiaki Koike-Akino

精选

ReCoVLA 提出一种故障条件残差恢复框架，保持预训练 VLA 策略冻结，利用外部 VLM 推断故障模式和恢复阶段，并编译结构化奖励。该方法将高层故障理解与低层控制解耦，支持不同 VLA 策略。在短程、长程和接触密集操作任务中，ReCoVLA 平均成功率从基线 36.7% 提升至 66.7%，物理零样本迁移实验达 61.7%。

论文 VLA策略故障恢复奖励编译零样本迁移机器人操作

推荐理由：做机器人操作策略的团队终于有了一个不重新训练就能处理故障的方案——ReCoVLA 用 VLM 做奖励选择器，零样本迁移到真实环境。做 VLA 策略部署的开发者可以直接参考这个框架。

原文

09:47

arXiv cs.AI@Yuan Zhang, Shiqi Zhang, Yedong Shen, Shuai Dong, Jiajun Deng, Xin Zhang, Yuxuan Gao, Jiajia Wu, Xin Nie, Zhiyuan Cheng, Jianmin Ji, Yanyong Zhang, Xingyi Zhang, Jia Pan

精选72°

GEAR-VLA 是一种新型视觉-语言-动作（VLA）框架，旨在解决现有 VLA 模型在真实部署中面对未见物体、背景变化和不同机器人本体时的泛化问题。它通过粗到细的动作学习、语义对齐的 3D 特征融合以及本体规范化，学习统一的几何感知动作表征。在 LIBERO、零样本 LIBERO-Plus 和 RoboTwin 2.0 上达到最先进性能，在 AgileX 上成功率 85.9%，在未见本体 LDT-01 上达 81.0%，在 212 个未见物体的通用抓取基准上达 90.1%。代码和模型将开源。

论文机器人操作 VLA模型泛化 3D视觉开源/仓库

推荐理由：GEAR-VLA 解决了机器人操作中跨本体、跨场景泛化的核心痛点，做机器人操作研究的团队可以直接参考其粗到细动作学习与 3D 对齐方法，值得关注其开源代码。

原文

6月5日

12:17