08:16宝玉@dotey精选76°NVIDIA GEAR 实验室联合 CMU、UC Berkeley 发布 ENPIRE 系统,让 AI 编程 agent 在真实物理世界中自主重置场景、判断成败、改进策略并迭代代码,无需人类干预。系统在 pin 脚插入、穿扎带、剪扎带、插 GPU 等高精度任务上达到 99% 成功率(pass@8 标准)。测试了 OpenAI Codex(搭配 GPT-5.5)、Anthropic Claude Code(搭配 Opus 4.7)和月之暗面 Kimi Code(搭配 Kimi K2.6)三个 agent。项目还发现物理 scaling law:8 台机器人并行探索比 1 台或 4 台的研究推进速度快得多。所有代码将开源。AI模型ENPIRENVIDIA GEAR机器人操控智能体开源模型10 个信源在谈推荐理由:NVIDIA 和 CMU 搞了个能自己跑实验的机器人系统,AI agent 操控真实机器人干活,成功率99%,还开源了。原文
10:08arXiv cs.LG@Balázs Gyenes, Emiliyan Gospodinov, Jan Frieling, Enrico Krohmer, Nicolas Schreiber, Xiaogang Jia, Niklas Freymuth, Gerhard Neumann精选该研究提出将点云从笛卡尔空间映射到高维傅里叶空间,以解决神经网络在模仿学习中难以学习高频空间特征的问题。在 RoboCasa 和 ManiSkill3 基准测试以及真实机器人实验中,傅里叶特征显著提升了基于点云的策略在精细操控任务上的表现。该方法简单、鲁棒,且适用于多种编码器架构,有望成为点云模仿学习的通用工具。论文模仿学习机器人操控点云傅里叶特征高频空间推荐理由:做机器人操控和模仿学习的团队值得关注——傅里叶特征解决了神经网络对低频偏好的固有问题,让你在点云策略上直接获得高精度提升,代码和视频已开源,可以直接上手试。原文
13:07arXiv cs.AI@Jisong Cai, Long Ling, Shiwei Chu, Zhongshan Liu, Jiayue Kang, Zhixuan Liang, Wenjie Xu, Yinan Mao, Weinan Zhang, Xiaokang Yang, Ru Ying, Ran Zheng, Yao MuAHA-WAM是一种基于双扩散Transformer(DiT)架构的异步世界-动作模型,用于机器人操控。它通过将世界预测和动作执行解耦到不同时间分辨率,解决了传统模型在近端帧建模上的冗余问题。视频DiT作为低频世界规划器,维护滚动键值记忆并编码长期场景演化;动作DiT作为高频执行器,通过层间联合注意力查询世界上下文。实验在RoboTwin和真实世界任务中达到92.80%和78.3%的成功率,闭环控制频率达24.17 Hz,速度提升4.59倍,且无需机器人数据预训练。论文机器人操控世界模型扩散Transformer异步架构RoboTwin推荐理由:机器人操控研究者终于有了一个能高效解耦世界建模与动作执行的方案——AHA-WAM在速度和成功率上双赢,做具身智能的团队可以直接参考其异步架构设计。原文
12:19arXiv: OpenAI@Hikmet Simsir, Ozgur S. Oguz精选论文提出 Lagrangian Perturbation Diffusion Steering (LP-DS),一种轻量级方法,通过优化冻结生成式策略的噪声空间扰动来提升性能,无需更新大型动作解码器。LP-DS 使用拉格朗日信任域目标,在提升下游价值的同时约束与潜在先验的偏差。在 RoboMimic、OpenAI Gym 和 Adroit 等基准测试中,LP-DS 在样本效率、成功率和回报上均有提升,回报比先前基线提高最多 25%。该方法还适用于流匹配骨干、大型视觉-语言-动作模型,并在真实 Franka 机器人上验证了有效性。论文扩散模型强化学习机器人操控策略微调信任域优化1 个信源在谈推荐理由:做机器人操控或强化学习的团队,终于有了一个不更新大模型也能微调扩散策略的轻量方案——LP-DS 在保持动作多样性的同时提升回报,建议试试看能否解决你的分布偏移问题。原文
11:50arXiv cs.AI@Jin Shi, Brady Zhang, Yishun Lu精选VLA-AD提出一种蒸馏框架,利用视觉语言模型作为离线语义监督器,将大型VLA教师模型(如OpenVLA-7B)压缩为轻量级学生策略(158M参数),模型大小减少44倍,推理速度提升3.28倍(12.5 Hz on RTX 4090),性能仅下降0.27%。该方法不仅模仿底层动作,还引入任务阶段锚点和多帧操作方向描述等高层语义信号,仅在训练时使用,测试时学生策略独立运行。在LIBERO基准测试中,VLA-AD对π0.5-4B教师也有效,学生策略在部分任务上甚至超越教师。额外分析表明,语义引导使学生对教师动作噪声(如高频夹爪误操作)更鲁棒。论文VLA策略模型蒸馏机器人操控视觉语言模型推理加速推荐理由:做机器人策略部署的团队终于有了实用的模型压缩方案——VLA-AD用VLM离线语义信号替代在线大模型,7B教师变158M学生,速度3倍提升且性能几乎无损,做实时闭环控制的开发者可以直接参考。原文