全部 AI 动态 · AI 热点

6月29日

10:11

arXiv cs.AI@Dihong Huang, Zhenyu Wei, Zhuxiu Xu, Yunchao Yao, Sikai Li, Mingyu Ding

DexCompose提出一种角色感知残差组合框架，通过显式手指级动作所有权解决多任务操作中的动作冲突。在16个复合任务（4项物体保持技能与4项下游交互）上测试，平均复合成功率达77.4%。该方法训练两个不对称残差模块：一个用于维持已有技能状态，另一个在新任务分配的子空间中调整下游策略。结果表明，结构化动作所有权与双重残差是超越传统策略链的灵巧技能组合方向。

论文 DexCompose 灵巧操作多任务机器人策略重用

推荐理由：想用一只机械手同时完成多个操作任务？DexCompose通过手指级分工和残差模块，在16项任务中达到77.4%成功率，解决了策略冲突问题。

原文

6月23日

13:18

arXiv cs.AI@Sikai Li, Shuning Li, Zhenyu Wei, Yunchao Yao, Chenran Li, Mingyu Ding

CoorDex是一个学习管线，将高维全身和灵巧手控制转换为协调的潜在残差控制，使Unitree G1人形机器人搭配20-DoF WUJI手能在移动中执行灵巧操作。它从模拟全身和手部演示训练特权运动跟踪教师，蒸馏为潜在先验，再用残差强化学习训练协调策略。该方法实现了非停止的瓶子抓取搬运、移动中打开冰箱门和立方体旋转。消融实验表明，联合空间PPO、联合空间手控制和整体潜在预测在同一奖励预算下均失败。

AI模型 CoorDex Unitree G1 人形机器人灵巧操作全身控制

推荐理由：CoorDex让人形机器人在行走时用灵巧手完成开冰箱、抓瓶子的连续操作，不再需要走走停停，和之前的笨拙模式完全不一样。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

10:53

arXiv cs.AI@Zhao-Heng Yin, Guanya Shi, Pieter Abbeel, C. Karen Liu

Mana 提出了一种将灵巧操作视为动画问题的 sim-to-real 框架，解决了铰接工具操作中协调内部自由度与接触交互的难题。该框架通过粗到细的流水线，将程序化生成的关键帧转化为操作轨迹，结合运动规划与强化学习实现零样本迁移。数据生成几乎全自动，每个工具仅需不到一分钟的鼠标点击指定功能属性。在四种不同铰接工具上，Mana 实现了零样本的 sim-to-real 抓取与手内操作，展示了可扩展的灵巧操作方案。

论文灵巧操作铰接工具 sim-to-real 强化学习机器人

推荐理由：铰接工具操作是机器人灵巧操作的硬骨头，Mana 用动画思路解决了数据生成和迁移难题，做机器人操作或 sim-to-real 的团队可以直接参考其零样本迁移方法。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

12:33

arXiv cs.AI@Chuanke Pang, Junyi Huang, Zhijun Zhao, Yaobing Wang, Kun Xu, Xilun Ding

精选

VLA模型在机器人操作中展现出强大的零样本泛化能力，但现有预训练管线几乎都局限于低自由度平行夹爪。将语义先验迁移到高自由度灵巧手面临严重的形态鸿沟，直接端到端微调会导致空间推理灾难性遗忘和动作流形坍塌。本文提出InDex框架，通过跨形态语义继承，将预训练的1-DoF平行抓取输出重新用作连续的宏观虚拟抓取意图代理，并采用两阶段解耦学习架构：第一阶段参数高效对齐VLA骨干以预测连续手臂轨迹和标量抓取意图；第二阶段冻结空间骨干，利用意图条件去噪扩散头解码多指末端执行器的细粒度关节动作。在多种多阶段、高接触灵巧操作任务上的仿真基准测试表明，InDex能以极少的演示数据掌握复杂技能，显著优于整体微调基线，同时保留原始VLA先验的鲁棒空间泛化能力。

论文 VLA模型灵巧操作形态鸿沟意图条件微调机器人操作

推荐理由：机器人操作研究者终于有了解决灵巧手形态鸿沟的实用方案——InDex用意图条件微调避免了灾难性遗忘，做灵巧操作或VLA模型迁移的团队可以直接参考其两阶段架构。

原文

5月28日

11:26

arXiv cs.AI@Jiahe Pan, Stelian Coros, Jitendra Malik, Toru Lin

精选

该研究提出了一种基于物理原理的触觉表示方法——压力中心（CoP），用于解决仿真到现实（sim-to-real）迁移中触觉信息丢失的问题。传统方法常将触觉数据简化为粗糙的低维特征，而CoP保留了密集的接触信息，同时保持对仿真到现实迁移的鲁棒性。研究还提出了一种基于可导动力学的传感器校准方案，无需真实力测量即可估计触觉传感器方向。在盲操作任务（如插销入孔和球平衡）中，基于CoP的策略在五指手上实现了零样本仿真到现实迁移，性能优于二进制接触和原始触觉基线。分析表明，CoP策略能编码物体质量等任务相关物理属性，作为控制的副产品涌现。

论文灵巧操作仿真到现实触觉表示压力中心机器人

推荐理由：这项研究解决了灵巧操作中触觉信息从仿真到现实迁移的瓶颈，做机器人灵巧操作或触觉感知的团队可以直接参考其CoP表示方法，零样本迁移效果值得一试。

原文

5月19日

14:27

arXiv cs.AI@Feng Chen, Tianzhe Chu, Li Sun, Pei Zhou, Zhuxiu Xu, Shenghua Gao, Yuexiang Zhai, Yanchao Yang, Yi Ma

精选

DexHoldem 是一个基于 ShadowHand 灵巧手系统的真实世界基准测试，围绕德州扑克操作任务设计。它提供了 1470 个遥操作演示、14 种操作原语、标准化物理策略基准和智能体感知基准。实验显示，π0.5 在原始执行上完成率最高（61.2%），而 Opus 4.7 在感知准确率上领先（34.3%），但整体闭环部署中感知与策略错误会累积。该工作旨在评估灵巧操作、智能体感知和具身决策路由的协同能力。

论文灵巧操作具身智能基准测试德州扑克 ShadowHand

推荐理由：灵巧操作与决策感知的闭环评估是具身智能的硬骨头，做机器人操作或具身智能的团队值得看看这个新基准怎么暴露真实部署中的累积错误。

原文

5月15日

11:13

arXiv cs.LG@Zhuohang Li, Liqun Huang, Wei Xu, Zhengming Zhu, Nie Lin, Xiao Ma, Xinjun Sheng, Ruoshi Wen

精选

Vision-Language-Action (VLA) 模型在灵巧操作中容易因高维动作空间和接触丰富的动力学产生累积误差。现有交互式模仿学习（IIL）在接管时存在人机指令不匹配，导致机器人手部“手势跳跃”。Hand-in-the-Loop (HandITL) 提出一种无缝干预方法，将人类纠正意图与自主策略执行融合，避免手势跳跃。实验表明，相比直接遥操作接管，HandITL 减少接管抖动 99.8%，降低抓取失败率 87.5%，平均完成时间缩短 19.1%。在三个长时灵巧任务上，用 HandITL 收集的干预数据训练的策略平均性能提升 19%。

论文灵巧操作 VLA模型人机交互干预学习机器人

推荐理由：灵巧操作是机器人领域的硬骨头，HandITL 解决了人机干预时的“手势跳跃”痛点，做机器人操作或 VLA 模型微调的团队可以直接参考实验方法，减少训练数据收集中的噪声。

原文