全部 AI 动态 · AI 热点

6月26日

11:35

arXiv cs.AI@Ilia Larchenko

该解决方案在ICRA 2026的LeHome Challenge双手机器人叠衣比赛中获得线上62支队伍第一名、线下决赛第二名。核心是将视觉-语言-动作(VLA)策略与强化学习循环结合，使同一网络既预测动作又预测成功率和未来量。方法组合了AWR+RECAP用于流匹配VLA，通过HuggingFace Hub实现异步分布式训练/部署管线，并采用Thompson采样优化推理时超参数。模拟到现实的迁移使用相机对齐工具、数据增强和DAgger式人类干预数据采集。

论文 LeHome Challenge ICRA 2026 VLA 强化学习机器人叠衣

推荐理由：一个靠强化学习微调VLA在叠衣服任务上拿第一的方案，工程细节丰富，从训练到部署都有具体做法。

原文

6月25日

10:59

arXiv cs.AI@Shuyi Zhang, Yunfan Lou, Hongyang Cheng, Yichen Guo, Chuyao Fu, Yaoxu Lyu, Xiaojie Zhang, Haoran Li, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang

FORCE是一个三阶段框架，通过价值校准热身和自蒸馏来稳定VLA模型的强化学习微调。它解决了Q函数不稳定导致的初期遗忘和低质量探索数据导致的策略更新低效问题。在模拟和真实任务上，FORCE取得了79%的绝对成功率提升，比此前RL方法高出10%，同时训练速度加快32.5%。该框架无需人工干预即可实现稳健性能。

AI模型 FORCE VLA 强化学习机器人

推荐理由：新框架FORCE让机器人学动作更快更稳，成功率飙升79%，比现有RL方法还快32.5%，不用人插手。

原文

6月24日

11:58

arXiv cs.LG@Maggie Wang, Lars Osterberg, Stephen Tian, Ola Shorinwa, Jiajun Wu, Mac Schwager

InSight框架通过将VLA模型在原始动作层面变得可操控，从而解锁自主技能获取能力。该框架包含自动分割管道，利用VLM计划分解和末端执行器姿态将演示分割成带标签的原始动作，以及VLM引导的数据飞轮，自动识别缺失原始动作并尝试演示。在模拟和真实世界操作任务中（包括方块翻转、抽屉关闭、清扫、扭转、倒水）评估，无需任何人工演示即可学习这些技能。学到的原始动作可组合执行新颖的长周期任务，无需额外人工演示。

论文 InSight VLA 操作技能自主学习机器人

推荐理由：这篇论文提出了InSight框架，让机器人通过VLA模型自己学新技能，不用人教，就能搞定方块翻转、倒水这些操作，很有实用性。

原文

6月23日

13:02

arXiv cs.AI@Ulas Berk Karli, Tesca Fitzgerald

论文提出RECALL方法，用于视觉-语言-动作（VLA）模型的主动持续学习。与被动模仿学习相比，不确定性引导的数据收集使微调效率提升30%以上。但仅训练恢复数据会导致灾难性遗忘，在OpenVLA模型上丢失20%的旧任务性能。评估了重放混合和弹性权重巩固（EWC）两种持续学习技术，发现可塑性与记忆保留之间存在权衡。实验在3个机器人操作任务上进行，表明不确定性引导的恢复演示能提升适应效率，但如何平衡新旧知识仍是开放挑战。

论文 VLA RECALL 主动学习持续学习机器人

推荐理由：这篇论文研究了怎么让机器人在学新任务时不忘旧技能，用不确定性主动挑数据微调VLA模型，比被动收集更高效，还试了两种防遗忘方法，挺实在的。

原文

6月19日

10:12

arXiv cs.AI@Gia-Binh Nguyen, Trong-Bao Ho, Thien-Loc Ha, Khoa Vo, Philip Lund Møller, Quang T. Nguyen, Long Dinh, Tuan Dam, Vu Duong, Tung M. Luu, Trung Le, Tran Nguyen Le, Minh Vu, An Thai Le, Ngan Le, Daniel Sonntag, James Zou, Jan Peters, Duy M. H. Nguyen, Ngo Anh Vien

VLA模型（如pi_0、GR00T-N1.5）参数规模达数十亿，微调计算成本高。本文通过中心核对齐（Centered Kernel Alignment）识别冗余层，无需训练即可移除最多50%的层。在LIBERO、RoboCasa、SimplerEnv三个模拟基准和10个真实操作任务、4种机器人本体上验证，压缩后模型性能与完整模型相当。微调时间减少40-50%，实时推理速度提升达30%。结果表明VLA模型实际所需层数远少于现有架构。

论文 VLA pi_0 GR00T-N1.5 模型压缩机器人操作

推荐理由：这篇论文发现VLA模型很多层是冗余的，用他们的方法可以白嫖50%层数，微调快一半，推理快30%，效果不降。搞机器人微调的可以试试。

原文

6月18日

10:57

arXiv cs.LG@Nikita Kachaev, Andrey Moskalenko, Matvey Skripkin, Nikita Kurlaev, Daria Pugacheva, Albina Burlova, Mikhail Kolosov, Denis Shepelev, Andrey Kuznetsov, Elena Tutubalina, Aleksandr I. Panov, Alexey K. Kovalev, Vlad Shakhuro

论文提出 Act2Answer 协议，通过让智能体在桌面场景中执行物体放置动作来选择答案，从而在动作层面评估 7 个 VLA 模型和 9 个 VLM 基线在常识与知识任务上的表现。研究发现，VLA 在简单概念上表现扎实，但在丰富语义类别上相比源 VLM 出现更大差距。实验还表明，VQA 联合训练有助于提升知识保留，而答案相关信息在 VLA 中层达到峰值，上层则衰减。

论文 VLA VLM Act2Answer 常识推理多模态

推荐理由：想知道微调后的机器人模型到底还记不记得常识？这篇论文用动作答题的方式测了7个VLA，发现简单概念还行，复杂知识掉得厉害。

原文

09:51