精选 AI 资讯 · AI 热点

AITOP

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

12:33

官方账号arXiv cs.AI@Chuanke Pang, Junyi Huang, Zhijun Zhao, Yaobing Wang, Kun Xu, Xilun Ding

精选

VLA模型在机器人操作中展现出强大的零样本泛化能力，但现有预训练管线几乎都局限于低自由度平行夹爪。将语义先验迁移到高自由度灵巧手面临严重的形态鸿沟，直接端到端微调会导致空间推理灾难性遗忘和动作流形坍塌。本文提出InDex框架，通过跨形态语义继承，将预训练的1-DoF平行抓取输出重新用作连续的宏观虚拟抓取意图代理，并采用两阶段解耦学习架构：第一阶段参数高效对齐VLA骨干以预测连续手臂轨迹和标量抓取意图；第二阶段冻结空间骨干，利用意图条件去噪扩散头解码多指末端执行器的细粒度关节动作。在多种多阶段、高接触灵巧操作任务上的仿真基准测试表明，InDex能以极少的演示数据掌握复杂技能，显著优于整体微调基线，同时保留原始VLA先验的鲁棒空间泛化能力。

论文 VLA模型灵巧操作形态鸿沟意图条件微调机器人操作

推荐理由：机器人操作研究者终于有了解决灵巧手形态鸿沟的实用方案——InDex用意图条件微调避免了灾难性遗忘，做灵巧操作或VLA模型迁移的团队可以直接参考其两阶段架构。

原文

12:03

官方账号arXiv cs.LG@Haoyuan Deng, Yitong Gao, Yudong Lin, Haichao Liu, Zhenyu Wu, Ziwei Wang

精选

真实世界机器人操作中，人类在环强化学习（HiL-RL）依赖频繁人工纠正，成本高且难以扩展。UniIntervene 提出一种智能体干预模型，能自动检测无效探索并引导策略回到高价值状态，大幅减少人工干预。它通过未来条件动作价值估计和时序价值风险评判器，在价值停滞或下降时触发干预，并从记忆库中检索高价值恢复目标生成纠正动作。在多种真实操作任务中，UniIntervene 将平均成功率提升 8.6%，同时减少 57% 的人工干预。这项研究为降低 HiL-RL 部署成本、提升可扩展性提供了新思路。

论文强化学习人机协作机器人操作智能体干预 UniIntervene

推荐理由：做机器人强化学习或人机协作的团队，终于有了减少人工干预的自动化方案——UniIntervene 用价值感知的智能体干预替代频繁人工纠正，成功率还更高，值得在真实场景中一试。

原文

11:29

官方账号arXiv cs.AI@Steven Oh, Jason Jingzhou Liu, Tony Tao, Philip Han, Kenneth Shaw, Satoshi Funabashi, Ruslan Salakhutdinov, Deepak Pathak

精选

本文提出NEXT方法，通过数据驱动的方式仅用10分钟自由运动数据训练1分钟，即可估计机械臂外部关节力矩，无需专用力传感器。结合FIRST重采样训练策略，在行为克隆中提升接触任务表现，五个长时任务中任务进度提升超17%。该方法让低成本机械臂也能实现力反馈遥操作和策略学习，无需额外硬件。代码和视频已开源。

论文力感知机器人操作行为克隆低成本硬件 NEXT

推荐理由：做机器人操作研究的团队终于有了低成本力感知方案——NEXT仅需10分钟数据就能替代昂贵传感器，FIRST让行为克隆在接触任务中提升17%进度，建议做遥操作或灵巧操作的开发者直接试。

原文

6月10日

12:29

官方账号arXiv cs.AI@Taishan Li, Jiwen Zhang, Siyuan Wang, Xuanjing Huang, Zhongyu Wei

精选

现有视觉-语言-动作（VLA）模型在标准操作基准上表现优异，但大多假设任务相关物体完全可见，这在现实场景中常因遮挡而失效。研究者提出LIBERO-Occ，一个基于LIBERO的遮挡扩展基准，发现当前最先进的VLA模型在遮挡下性能显著下降。为解决此问题，他们提出视角想象（VIM）方法，从遮挡的主视角生成互补视角，并基于观测和想象证据联合预测动作。VIM无需额外部署摄像头即可提升模型在多种任务、遮挡类型和严重程度下的鲁棒性。该基准和代码已开源。

论文 VLA模型遮挡鲁棒性视角想象机器人操作 LIBERO-Occ

推荐理由：做机器人操作或VLA模型研究的团队，终于有了专门评估遮挡鲁棒性的基准和解决方案——VIM用视角想象补全感知，无需加摄像头就能提升性能，值得一试。

原文

6月9日

12:33

官方账号arXiv cs.LG@Quinn Pfeifer, Ethan Pronovost, Paarth Shah, Khimya Khetarpal, Siddhartha Srinivasa, Abhishek Gupta

精选

华盛顿大学团队提出 DARP（差异感知检索策略），一种半参数检索式模仿学习方法，通过重用在推理时的训练数据来缓解行为克隆的分布外泛化问题。DARP 不学习全局策略，而是基于专家演示的 k 近邻、对应动作及邻居与查询状态的相对距离向量来预测动作。该方法无需额外数据收集、在线专家反馈或任务特定知识，在连续控制和机器人操作等任务上比标准行为克隆提升 15-46%。代码和演示已开源。

论文模仿学习行为克隆检索增强机器人操作 DARP

推荐理由：DARP 用检索替代全局映射，解决了行为克隆在部署时误差累积的痛点，做机器人学习和模仿学习的开发者可以直接参考其开源代码。

原文

12:30

官方账号arXiv cs.LG@Seongbin Park, Fan Zhang, Baharan Mirzasoleiman, Shahriar Talebi, Nader Sehatbakhsh

精选

VLA模型在机器人操作任务中表现出色，但无法保证避免与任务无关物体的碰撞。现有安全过滤器通过查询VLM来识别障碍物，但速度太慢，无法在控制循环中实时运行。研究发现，VLA模型中的少数注意力头能可靠定位策略意图接近的目标物体。利用这些注意力头，可以在无需训练的情况下，每步获取活动目标，将场景其余部分视为障碍物，并输入控制障碍函数过滤器。结合轻量级实时目标跟踪器，该方法能有效避免非静态障碍物的碰撞，在动态场景中比使用模拟器特权状态的Oracle方法平均提升43%。

论文 VLA模型安全过滤器注意力机制控制障碍函数机器人操作

推荐理由：做机器人安全控制的团队终于有了一个轻量级方案——VLA模型自带的注意力头就能当安全过滤器用，无需额外训练或重模型，动态场景效果还更好，值得点开看实现细节。

原文

11:57

官方账号arXiv cs.AI@Boshu Lei, Kostas Daniilidis, Antonio Loquercio

精选

本文提出 RLDT（Reinforcement Learning with Density Transport），一种在线强化学习算法，用于微调连续控制问题中的流匹配策略。核心思想是将策略改进视为动作密度向高奖励区域的传输，与流匹配模型的传输公式自然对齐。RLDT 使用 Stein 变分梯度下降（SVGD）从最大熵 RL 目标构建传输场，然后微调预训练的流匹配策略以对齐该场。通过预期目标估计近似中间去噪步骤的动作，避免了不稳定的反向传播。实验表明，RLDT 在奖励质量和收敛速度上优于基线，适用于密集/稀疏奖励及基于状态/视觉的长期机器人操作任务。

论文强化学习流匹配密度传输连续控制机器人操作

推荐理由：RLDT 解决了流匹配策略在强化学习中难以微调的痛点，做连续控制或机器人操作的团队可以直接参考其密度传输思路，比蒸馏或近似分布的方法更高效。

原文

10:55

官方账号arXiv cs.AI@Haodi Hu, Chung-Ta Huang, Jing Liu, Ye Wang, Kei Suzuki, Matthew Brand, Toshiaki Koike-Akino

精选

ReCoVLA 提出一种故障条件残差恢复框架，保持预训练 VLA 策略冻结，利用外部 VLM 推断故障模式和恢复阶段，并编译结构化奖励。该方法将高层故障理解与低层控制解耦，支持不同 VLA 策略。在短程、长程和接触密集操作任务中，ReCoVLA 平均成功率从基线 36.7% 提升至 66.7%，物理零样本迁移实验达 61.7%。

论文 VLA策略故障恢复奖励编译零样本迁移机器人操作

推荐理由：做机器人操作策略的团队终于有了一个不重新训练就能处理故障的方案——ReCoVLA 用 VLM 做奖励选择器，零样本迁移到真实环境。做 VLA 策略部署的开发者可以直接参考这个框架。

原文

09:47

官方账号arXiv cs.AI@Yuan Zhang, Shiqi Zhang, Yedong Shen, Shuai Dong, Jiajun Deng, Xin Zhang, Yuxuan Gao, Jiajia Wu, Xin Nie, Zhiyuan Cheng, Jianmin Ji, Yanyong Zhang, Xingyi Zhang, Jia Pan

精选72°

GEAR-VLA 是一种新型视觉-语言-动作（VLA）框架，旨在解决现有 VLA 模型在真实部署中面对未见物体、背景变化和不同机器人本体时的泛化问题。它通过粗到细的动作学习、语义对齐的 3D 特征融合以及本体规范化，学习统一的几何感知动作表征。在 LIBERO、零样本 LIBERO-Plus 和 RoboTwin 2.0 上达到最先进性能，在 AgileX 上成功率 85.9%，在未见本体 LDT-01 上达 81.0%，在 212 个未见物体的通用抓取基准上达 90.1%。代码和模型将开源。

论文机器人操作 VLA模型泛化 3D视觉开源/仓库

推荐理由：GEAR-VLA 解决了机器人操作中跨本体、跨场景泛化的核心痛点，做机器人操作研究的团队可以直接参考其粗到细动作学习与 3D 对齐方法，值得关注其开源代码。

原文

6月5日

12:17

官方账号arXiv cs.AI@Dong Jing, Jingchen Nie, Tianqi Zhang, Jiaqi Liu, Huaxiu Yao, Zhiwu Lu, Mingyu Ding

精选

现有视觉-语言-动作模型（VLA）只能以训练数据中的固定速度执行任务，无法在低风险阶段快速移动、高风险阶段慢速精确操作。TempoVLA 提出了一种速度可控的解决方案，通过可变速度轨迹增强（VSTA）和模型侧条件机制，让单一 VLA 模型能够根据显式速度条件调整执行速度。实验表明，TempoVLA 在仿真和真实任务中实现了双向灵活速度控制，且 VSTA 通过更好的数据利用提升了默认速度下的性能。与大型多模态模型结合后，TempoVLA 还能实现动态速度控制，在低风险阶段加速、高风险阶段减速。这项工作解决了机器人操作中速度自适应这一关键痛点。

论文 VLA 速度控制机器人操作轨迹增强动态调速

推荐理由：做机器人操作或 VLA 研究的团队终于有了一个能按需调速的方案——TempoVLA 让单一模型同时覆盖快速移动和慢速精确操作，值得关注其动态速度控制的实际效果。

原文

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月21日

12:27

官方账号arXiv cs.LG@Elle Miller, Jayaram Reddy, Ayush Deshmukh, Trevor McInroe, David Abel, Oisin Mac Aodha, Sethu Vijayakumar

精选72°

机器人触觉强化学习（RL）研究因碎片化和过度关注饱和的定向任务而受阻。roto 2.0 是一个 GPU 并行化的基准测试，覆盖四种不同机器人形态（16-24 自由度），专注于仅依赖本体感觉和触觉的“盲”操作，无需状态信息或知识蒸馏。其盲代理在 10 秒内完成 13 次 Baoding 球旋转，速度比当前最先进水平快一个数量级。通过开源环境和调优基线，该工作降低了入门门槛，让研究者能聚焦核心算法挑战。

论文触觉感知强化学习机器人操作基准测试 GPU并行

推荐理由：触觉 RL 终于有了标准化的 GPU 并行基准，做机器人操作和强化学习的团队可以直接用 roto 2.0 测试算法，不用再花时间调环境——盲操速度提升 10 倍的结果值得点开看看。

原文

11:11

官方账号arXiv cs.AI@Riley Zilka, Sergey Khlynovskiy, Allie Wang, Martin Jagersand

精选

HITL-D 是一种结合人类操作与扩散模型的新型共享控制框架，专门针对多步骤、插入和精细操作任务。它通过场景点云和末端执行器笛卡尔位置，自主更新末端执行器方向，减少操纵杆控制轴数，降低操作者认知负荷。12 人用户研究表明，相比传统遥操作，HITL-D 将任务完成时间平均缩短 40%，感知工作负荷降低 37%，并在独立性、直观性和信心等主观评分上显著提升。该工作首次将扩散策略引入人机共享控制，为复杂操作任务的人机协作提供了新范式。

论文扩散模型人机协同共享控制遥操作机器人操作

推荐理由：做机器人遥操作或人机协作研究的团队，HITL-D 用扩散模型把操作者的认知负担砍掉近四成，值得在精细操作场景里试试。

原文