精选 AI 资讯 · AI 热点

6月19日

00:02

Gary Marcus@GaryMarcus

精选

Gary Marcus引用Matei Zaharia的研究，神经符号系统在机器人领域击败当前最优方法。该方法采用AI驱动的搜索（类似GEPA的方法），让AI生成AI与代码的混合体。Zaharia认为这类系统效率很高，并在其他应用中也观察到类似效果。该成果展示了神经符号系统在控制与规划方面的优势。

AI模型 Neurosymbolic Systems GEPA Robotics AI Search 机器人

推荐理由：Gary Marcus分享了Matei Zaharia的神经符号系统研究，用AI搜索在机器人上打败了现有最优方案，值得搞机器人或符号推理的人关注。

原文

6月18日

03:06

Jim Fan@DrJimFan

精选76°

Jim Fan揭秘了物理自动研究系统ENPIRE的设计内幕。安全采用两层硬编码：硬运动学限制立即触发任务失败并自动重置，以及扭矩限制柔性夹爪防止碰撞损坏。奖励函数通过收集成功/失败演示、用计算机视觉分类器编码并冻结在Gym环境中，防止智能体篡改。系统遥测定义了Mean Robot Utilization（MRU）、Mean Token Utilization（MTU）和GPU利用率三个实时指标，并基于Tokens-to-Success和Time-to-Success评估预算效率。

AI模型 ENPIRE 物理自动研究安全机制机器人奖励函数

推荐理由：Jim Fan讲了他们怎么让8个机器人通宵自动做实验，还防止奖励被篡改，资源利用率指标也很实用。

原文

00:55

00:55Hugging Face: Blog（博客/媒体）

精选

Strands Agents与LeRobot结合，实现了从Hugging Face Hub加载预训练模型并直接部署到真实机器人硬件。该系统支持多种机器人平台，如Aloha和Franka，并提供了从仿真到现实的无缝映射接口。用户无需编写底层驱动即可运行来自Hub的模型，显著降低了机器人研究的硬件部署门槛。该方案已在Amazon实验室的多个机器人上测试成功，推动了开源机器人生态的发展。

AI产品 Strands Agents LeRobot Hugging Face Hub 机器人模型部署

推荐理由：想把你训练好的机器人模型直接跑上真实硬件？Hugging Face联合Amazon推出了Strands Agents，连接LeRobot，一键部署，省掉底层驱动烦恼。

原文

6月17日

23:33

23:33IT之家（博客/媒体）

精选

领益智造在北京亦庄的具身智能机器人超级工厂近日规模投用，是京津冀首个万台级工厂。该工厂覆盖从核心零部件到整机组装的全链条制造，采用力觉+视觉双引导精密装配，换型时间小于15分钟。整机环形吊轨测试线可同时承载6-12台机器人，动态验证性能边界，较传统线体节能约25%。工厂全站自研MES、WMS、QMS系统，实现全流程数字化追溯，可在24小时内完成质量闭环优化。规划年产能逐步爬坡，预计2030年达到50万台套。

行业领益智造具身智能机器人京津冀机器人智能体

推荐理由：领益智造在北京开了家能年产50万台具身机器人的大工厂，从零件到整机全包，还有自动测试线，想了解机器人量产进展的可以看。

原文

01:58

Jim Fan@jimfan

精选72°

ENPIRE赋予8个Codex智能体机器人集群和GPU资源，自主完成高精度物理任务。系统能独立绑扎带、整理细针、安装GPU。实验显示8台机器人并行探索比少量效率显著提升。NVIDIA GEAR实验室已实现机器人彻夜自主改进。团队计划开源全部代码。

AI产品 ENPIRE Codex NVIDIA 智能体机器人

推荐理由：NVIDIA让8个AI智能体自己控制机器人干活，还能绑扎带装显卡，而且要开源，你可以在家搭机器人实验室了！

原文

6月12日

13:15

Physical Intelligence@physical_int

精选

Physical Intelligence 开发了一种强化学习（RL）方法，用于在数小时甚至数分钟内微调其模型以执行精确任务。该方法不训练整个模型，而是向最新模型 π-0.6 添加一个“RL token”输出，由小型 actor 和 critic 网络使用，通过 RL 快速学习。这大幅降低了模型微调的时间和计算成本，适用于机器人等需要快速适应新任务的场景。该技术有望加速 AI 在物理世界中的应用部署。

AI模型强化学习微调 π-0.6 机器人 Physical Intelligence

推荐理由：Physical Intelligence 的 RL 微调方法解决了模型适应新任务耗时长的痛点，做机器人或物理 AI 的团队可以大幅缩短部署周期，值得关注。

原文

13:14

Physical Intelligence@physical_int

精选

Physical Intelligence 为其机器人模型开发了一套记忆系统，结合了短期视觉记忆和长期语义记忆。该系统使机器人能够执行复杂的长任务，如清理厨房或从头制作烤奶酪三明治。这一突破解决了机器人长期任务执行中的记忆瓶颈，提升了自主性和实用性。

AI模型机器人记忆系统 Physical Intelligence 长期任务视觉记忆

推荐理由：机器人团队终于有了实用的记忆方案——短期视觉+长期语义让机器人能完成厨房清理、做三明治等长任务，做机器人开发的建议点开看看。

原文

12:05

Allen AI (Ai2)@allen_ai

精选

Allen AI 宣布其机器人基础模型 MolmoAct 2 在不到一个月内被下载超过 40 万次。现在他们开源了完整的代码和训练数据，允许开发者进行微调或在此基础上构建。这标志着机器人领域的一个重要开放资源，降低了进入门槛。

AI模型机器人开源/仓库基础模型微调 Allen AI

推荐理由：机器人开发者终于有了一个完全开源的基础模型可用，MolmoAct 2 的完整代码和数据让你可以直接微调或构建自己的机器人应用，值得立即尝试。

原文

00:35

NVIDIA AI@NVIDIAAI

精选

NVIDIA 发布了 Cosmos 3，这是一个专为机器人和物理 AI 设计的基础模型平台。该平台旨在加速机器人感知、规划和交互能力的开发，通过提供预训练模型和工具链，降低物理 AI 应用的门槛。Cosmos 3 支持多模态输入，能够生成高保真的物理世界模拟，帮助开发者更快地训练和部署机器人系统。这一发布标志着 NVIDIA 在物理 AI 领域的重要布局，有望推动机器人技术从实验室走向实际应用。

AI产品机器人物理AI NVIDIA 基础模型仿真

推荐理由：NVIDIA Cosmos 3 为机器人开发者提供了现成的物理 AI 基础模型，省去了从零训练的时间和成本，做机器人感知或仿真的团队可以直接上手试试。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

11:04

arXiv cs.AI@Adam Wei, Nicholas Pfaff, Thomas Cohn, Arif Kerem Dayı, Constantinos Daskalakis, Giannis Daras, Russ Tedrake

精选72°

机器人领域的高质量任务数据昂贵且难以收集，而次优数据（低质量或分布外演示）却大量存在。现有方法在同时训练两类数据时，常无法区分次优样本中的有用和有害特征。Ambient Diffusion Policy 通过引入噪声依赖的数据使用策略，仅在高和低扩散时间步利用次优数据，从而提取有用特征。该方法基于机器人动作数据的频谱幂律分布，利用全局到局部层次和局部性两个性质。在六项任务上，针对四种次优数据（噪声轨迹、仿真到现实差距、任务不匹配、大规模数据混合），该方法均有效，并在 Open X-Embodiment 数据集上比现有方法提升高达33%。

论文机器人模仿学习扩散策略次优数据 Open X-Embodiment

推荐理由：机器人团队终于有了一个能高效利用次优数据的实用方法——Ambient Diffusion Policy 解决了低质量数据难以训练的问题，做机器人模仿学习的开发者可以直接在现有数据集上尝试，有望大幅降低数据收集成本。

原文

6月9日

10:40

arXiv cs.AI@Mohamed Sayed, Wolfram Burgard, Tanja Katharina Kaiser

精选

该研究提出一种基于多智能体强化学习的方法，解决多机器人系统协同运输任意形状、质量分布不均物体时的队形控制问题。传统方法将任务分解为队形控制、协同导航和避障三个子问题，但难以应对真实物体的复杂几何与质量分布。新方法让机器人自主在物体下方定位以支撑重量，同时避开障碍物形成平衡队形。实验表明，该方法在不同环境和机器人数量下均能生成可靠策略，并泛化到复杂场景。

论文多智能体强化学习协同运输队形控制机器人避障

推荐理由：做多机器人协同运输的团队终于有了能处理真实物体形状和质量分布的方案——不用再手工设计队形，机器人能自主适应。做物流、仓储或服务机器人的开发者值得关注。

原文

10:25

arXiv cs.AI@Haizhou Ge, Yufei Jia, Yue Li, Zhixing Chen, Lu Shi, Lei Han, Guyue Zhou, Ruqi Huang

精选

机器人探索操作中，一次看似失败的尝试（如拉锁住的抽屉）往往揭示了完成任务的关键前提条件。本文形式化定义了探索操作轨迹问答（EMT-QA）任务：给定同步视频和本体感知数据，预测最小成功动作链。现有VLM和具身多模态大模型无法可靠地从原始数据中恢复该链条。作者提出闭环轨迹蒸馏（Closed-Loop Trace Distillation）方法，通过每个任务的编码代理检查标注轨迹，蒸馏出一行自然语言提示（DRH）。在三个模拟器和两个真实机器人任务上，DRH将链条预测准确率提升0.38-0.47，且DRH本身可作为一次性程序化分类器的唯一规范。

论文探索操作轨迹问答 VLM 蒸馏提示机器人

推荐理由：机器人操作中失败尝试常被忽略，但本文证明它们才是关键线索——做具身智能或机器人规划的团队，可以用蒸馏出的单行提示直接提升VLM的轨迹理解能力，值得在仿真和真实场景中试试。

原文

6月8日

11:21

11:21IT之家（博客/媒体）

精选

英伟达与LG集团宣布合作打造人工智能工厂，整合英伟达的全栈AI平台与LG在消费电子、机器人、车载零部件等领域的优势。合作覆盖机器人仿真训练、自动驾驶、数据中心冷却、GPU云服务及大模型优化，旨在推动物理AI在制造、物流和家庭场景的落地。LG将采用英伟达Isaac Sim、GR00T模型和Cosmos世界模型，加速机器人研发与数据生成。双方还计划建设自主化制造生态，打造全球智能工厂标杆。

行业英伟达 LG集团 AI工厂机器人自动驾驶

推荐理由：英伟达与LG的深度合作打通了从AI模型训练到机器人部署的全链条，做智能制造、机器人或自动驾驶的团队可以直接参考其技术路径，值得关注。

原文

6月2日

09:44

Pandaily@contact@pandaily.com (Pandaily)

精选

阿里巴巴通义千问团队正式推出Qwen-VLA，这是其首个面向具身智能的视觉-语言-动作模型，标志着阿里进入物理世界AI竞赛。该模型整合了视觉理解、语言推理和动作执行能力，旨在让机器人或智能体在真实环境中完成复杂任务。Qwen-VLA的发布意味着阿里在AI领域的布局从纯数字世界扩展到物理交互，与特斯拉、英伟达等公司形成竞争。此举可能加速具身智能在工业、服务等场景的落地。

AI模型具身智能视觉-语言-动作模型阿里千问 Qwen-VLA 机器人

推荐理由：阿里千问首次将大模型能力延伸到物理世界，做机器人或具身智能的开发者值得关注——Qwen-VLA可能降低机器人编程门槛，让AI直接驱动动作执行。

原文

6月1日

16:59

Decoder@Matthias Bastian

精选72°

OpenAI 在关闭机器人部门五年后，重新组建机器人团队，该团队源自世界模拟研究项目。CEO Sam Altman 的长期目标是让每个人拥有能做任何事的个人机器人，短期内机器人将用于基础设施建设。此举标志着 OpenAI 在机器人领域的战略回归，从基础设施应用逐步推进到个人化服务，可能重塑机器人行业格局。

AI产品 OpenAI 机器人基础设施个人机器人战略回归

推荐理由：OpenAI 重返机器人赛道，从基建场景切入，做硬件或 AI 集成的开发者值得关注——这可能是未来个人机器人生态的起点。

原文

15:06

NVIDIA AI@NVIDIAAI

精选

NVIDIA AI 发布了一个基于数十亿跨模态样本训练的多模态预训练模型，旨在为开发者提供强大的基础模型，用于构建物理AI系统。该模型能显著减少所需的数据量和训练成本，使开发者能够更高效地开发机器人、自动驾驶等物理AI应用。NVIDIA 在技术博客中详细介绍了该模型的架构和性能优势。

AI模型 NVIDIA 多模态模型预训练模型物理AI 机器人

推荐理由：做物理AI（如机器人、自动驾驶）的开发者终于有了一个强大的预训练基础，能大幅降低数据收集和训练成本，建议直接查看技术博客了解细节。

原文

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月30日

17:27

marktechpost@Michal Sutter

精选72°

Genesis AI 于 2026 年 5 月 27 日发布了 Genesis World 1.0，这是一个包含物理、渲染、编译和工具四个组件的仿真平台。该平台在仿真与真实机器人部署之间实现了 0.8996 的皮尔逊相关系数，并将策略评估时间从超过 200 小时缩短至不到 0.5 小时。这一突破使得机器人基础模型的规模化评估成为可能，显著降低了研发成本和时间。

AI产品机器人仿真平台基础模型 Genesis AI 策略评估

推荐理由：机器人研究者终于有了一个高保真、超高效的仿真评估平台——Genesis World 1.0 将评估时间从 200 小时压缩到半小时，做机器人基础模型和策略训练的团队可以直接用起来，大幅加速迭代。

原文

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月28日

15:38

pandaily@contact@pandaily.com (Pandaily)

精选

Fortsense Technologies 正在开发单芯片 RGBD 空间相机，该相机融合了色彩和深度感知能力，旨在替代自动驾驶汽车和机器人中传统的摄像头加激光雷达组合。这种单芯片方案有望降低系统复杂性和成本，同时提升感知的实时性和准确性。预计该产品将在 2026 年 5 月左右推出，为物理 AI 应用提供更高效的视觉解决方案。

AI产品 Fortsense RGBD 相机自动驾驶机器人物理 AI

推荐理由：Fortsense 的单芯片 RGBD 相机有望简化自动驾驶和机器人的感知系统，降低硬件成本，做自动驾驶或机器人开发的团队值得关注这一进展。

原文

12:02

arXiv cs.LG@Krishnam Gupta

精选72°

研究发现视觉-语言-动作（VLA）模型在电机指令层面存在根本性、可预测的失败差异。通过对 VQ-BeT、Diffusion Policy 和 ACT 三种架构在 PushT 和 ALOHA 14-DOF 双臂操作任务上进行 450 次评估，发现方向反转率是通用失败预测指标（AUROC 最高 0.93），而急动度监控仅对离散令牌架构有效，速度监控在连续架构中几乎无效（AUROC 仅 0.41-0.52）。研究强调架构匹配的监控选择至关重要，并开源了 SafeContract 工具包。

论文 VLA 机器人动作监控失败预测 SafeContract

推荐理由：做机器人 VLA 部署的团队注意了——不同架构的失败模式完全不同，用错监控等于白费功夫。建议直接看方向反转率这个通用指标，并试试 SafeContract 工具包。

原文

11:26

arXiv cs.AI@Jiahe Pan, Stelian Coros, Jitendra Malik, Toru Lin

精选

该研究提出了一种基于物理原理的触觉表示方法——压力中心（CoP），用于解决仿真到现实（sim-to-real）迁移中触觉信息丢失的问题。传统方法常将触觉数据简化为粗糙的低维特征，而CoP保留了密集的接触信息，同时保持对仿真到现实迁移的鲁棒性。研究还提出了一种基于可导动力学的传感器校准方案，无需真实力测量即可估计触觉传感器方向。在盲操作任务（如插销入孔和球平衡）中，基于CoP的策略在五指手上实现了零样本仿真到现实迁移，性能优于二进制接触和原始触觉基线。分析表明，CoP策略能编码物体质量等任务相关物理属性，作为控制的副产品涌现。

论文灵巧操作仿真到现实触觉表示压力中心机器人

推荐理由：这项研究解决了灵巧操作中触觉信息从仿真到现实迁移的瓶颈，做机器人灵巧操作或触觉感知的团队可以直接参考其CoP表示方法，零样本迁移效果值得一试。

原文

5月27日

10:59

10:59IT之家（博客/媒体）

精选

Hugging Face 于 5 月 21 日发布 LeRobot Humanoid 双足机器人项目，面向机器人开发者和研究人员，起步价 2500 美元。该项目非成品，需自行组装，旨在提供可理解、可维修、可加装传感器的开源平台。硬件部分大量使用 3D 打印件和现成元件，软件部分提供校准、控制工具并支持仿真。团队鼓励先在仿真中训练动作，再在真实机体上测试，数据可反哺仿真环境。后续计划加入上半身集成和更高级行为。

AI产品机器人开源/仓库 3D 打印仿真 Hugging Face

推荐理由：Hugging Face 把双足机器人的门槛从几十万降到 2500 美元，做机器人研究的团队和学生可以直接用开源方案动手组装和训练，省去从零搭建的麻烦。

原文

5月24日

14:13

14:13IT之家（博客/媒体）

精选

深开鸿在开源鸿蒙智能物联网生态大会上发布了 M-Robots OS 2.0，这是全国首个基于开源鸿蒙的机器人操作系统。该系统具备多机实时协同、多硬件形态兼容、AI 原生等四大核心能力，支持 20 KB 到 X GB 的灵活部署。M-Robots OS 2.0 实现了中断响应时延≤1μs、任务切换时延≤1μs，本体间音视频时延低至 4 毫秒，相比 Fast-DDS 降低 42%。系统兼容 ROS1/ROS2、Dora-rs 等中间件，应用迁移成本降低 80%。项目已捐赠给开放原子开源基金会，设立 16 个专业 SIG 工作组。

AI产品开源/仓库机器人操作系统鸿蒙 M-Robots OS

推荐理由：国产机器人系统新选择，时延低至微秒级

原文

5月23日

15:00

15:00IT之家（博客/媒体）

精选

智元发布新一代二阶段Motion-Between运控基座模型BFM-2，旨在让机器人具备类似“肌肉记忆”的自主运动能力。该模型能在任意状态（静态、预设动作或随机输入）下，让机器人自主进行高稳定性的动作插值和动态任务闭环。演示视频显示，搭载BFM-2的机器人被打倒在地后能快速站起并自我平衡。这为具身智能提供了更可靠的运动底座，提升了机器人在复杂环境中的适应性和鲁棒性。

AI模型机器人运动控制基座模型具身智能智元

推荐理由：做机器人运动控制的团队终于有了更可靠的基座模型——BFM-2解决了机器人在任意状态下自主恢复和动态平衡的痛点，做具身智能或机器人开发的值得关注。

原文

5月21日

07:59

Y Combinator@ycombinator

精选

General Instinct 公司成功将前沿 AI 模型部署到 Jetson、移动 NPU 和 ARM CPU 等受限边缘硬件上，使机器人及物理 AI 团队能够在离线环境下运行低延迟模型。这一突破解决了边缘设备算力不足的痛点，让 AI 模型在资源受限的场景中也能高效推理。该技术由 Bill Jiao 和 Guanming 领导，已获得 Y Combinator 支持。

AI产品边缘计算机器人 AI模型部署 Jetson ARM CPU

推荐理由：做机器人或边缘 AI 的开发者终于有了靠谱的离线推理方案——General Instinct 让 Jetson 和 ARM 设备也能跑前沿模型，建议做嵌入式 AI 的团队点开看看。

原文

5月19日

13:02

Lenny Rachitsky@lennysan

精选

前OpenAI、Apple、Meta机器人专家Caitlin Kalinowski分享了七大关键洞察：AI前沿正从数字转向物理，因为键盘交互的AI即将饱和；未来两年战争领域的变化将超过消费电子；硬件行业面临内存危机，可能阻碍机器人革命；VR技术为机器人和战争奠定了基础；人形机器人被过度炒作，专用机器人才是未来；供应链独立是国家安全问题；构建安全机器人的最大挑战在于那些不易察觉的设计决策。

行业机器人硬件供应链人形机器人 AI物理化内存危机

推荐理由：做机器人、硬件或AI硬件的从业者，这篇帮你提前看到行业天花板和供应链风险，建议囤内存、关注专用机器人方向。

原文

11:36

arXiv cs.AI@Giorgia Modi, Davide Buoso, Giuseppe Averta, Daniele De Martini

精选

本文提出利用固定外部RGB摄像头作为通用先验地图（CPMs），为主动3D场景图（3DSG）生成提供初始语义和几何先验。系统通过前馈3D重建模型统一处理所有摄像头（机载和外部）的RGB观测，无需硬件修改。基于部分场景图的主动语义探索框架引导机器人前往语义不确定性高的区域，逐步完善先验。实验表明，仅使用一个外部摄像头即可将初始物体召回率提升最多79%，并显著提高后续主动探索的效率。

论文 3D场景图主动探索先验地图 RGB重建机器人

推荐理由：做机器人自主探索和3D场景理解的团队，这个RGB-only方案无需额外硬件就能大幅提升初始场景图质量，值得在现有系统中尝试集成外部摄像头作为先验。

原文

10:08

arXiv cs.AI@Xinchen Jin, Aditya Chatterjee, Pranav Kumar, Rohan Paleja

精选

本文提出一种事件锚定的可解释性方法，将稀疏自编码器（SAE）的特征分析与机器人行为事件（如末端执行器关键帧）对齐，而非依赖文本上下文。该方法通过视觉、状态和时间线索聚类任务内的关键帧，将SAE特征与行为事件关联，并可选地通过VLM注释提供语义背景。实验在两种仿真架构和真实机器人上验证，事件锚定排序对OpenVLA产生最强因果效应，并迁移到π₀.5的连续动作块。研究同时指出SAE作为干预基础存在稀疏性和不完美性，干预效果因架构和干预位置而异，激进干预会暴露安全性和可解释性限制。代码已开源。

论文稀疏自编码器 VLA策略可解释性机器人行为事件

推荐理由：做机器人VLA策略可解释性的研究者终于有了一个行为锚定的分析框架——事件锚定SAE直接关联动作与行为事件，比纯文本分析更贴近闭环控制，建议做机器人学习或可解释AI的团队点开看看。

原文

5月18日

10:39

arXiv cs.LG@Vaidehi Bagaria, Nikshep Grampurohit, Pulkit Verma

精选

该论文发现GRPO算法在VLA策略强化学习中，梯度计算占78%时间，而大部分计算浪费在策略已掌握的阶段。为此提出概率性分块掩码（PCM），通过成功-失败动作方差识别关键阶段，仅对少量分块进行梯度更新。PCM无需额外奖励模型，在LIBERO基准上保持相同成功率的同时，实现2.38倍加速、4.8倍梯度更新加速和60%峰值内存降低。

论文强化学习 VLA策略 GRPO 梯度加速机器人

推荐理由：做VLA机器人强化学习的团队终于有了省算力的方案——PCM直接替换GRPO就能省60%内存、快2倍多，效果还不打折，建议做后训练优化的点开看看。

原文

5月15日

11:13

arXiv cs.LG@Zhuohang Li, Liqun Huang, Wei Xu, Zhengming Zhu, Nie Lin, Xiao Ma, Xinjun Sheng, Ruoshi Wen

精选

Vision-Language-Action (VLA) 模型在灵巧操作中容易因高维动作空间和接触丰富的动力学产生累积误差。现有交互式模仿学习（IIL）在接管时存在人机指令不匹配，导致机器人手部“手势跳跃”。Hand-in-the-Loop (HandITL) 提出一种无缝干预方法，将人类纠正意图与自主策略执行融合，避免手势跳跃。实验表明，相比直接遥操作接管，HandITL 减少接管抖动 99.8%，降低抓取失败率 87.5%，平均完成时间缩短 19.1%。在三个长时灵巧任务上，用 HandITL 收集的干预数据训练的策略平均性能提升 19%。

论文灵巧操作 VLA模型人机交互干预学习机器人

推荐理由：灵巧操作是机器人领域的硬骨头，HandITL 解决了人机干预时的“手势跳跃”痛点，做机器人操作或 VLA 模型微调的团队可以直接参考实验方法，减少训练数据收集中的噪声。

原文