全部 AI 动态 · AI 热点

6月25日

11:08

11:08

arXiv cs.AI@Dong Jing, Tianqi Zhang, Jiaqi Liu, Jinman Zhao, Zelong Sun, Li Erran Li, Zhiwu Lu, Mingyu Ding

本文提出在两阶段框架中预训练动作模块，在VLA训练前注入运动先验。阶段1使用基于流匹配的轻量级编解码器，仅从无条件动作轨迹学习跨实体时间运动结构，无需处理视觉或语言token。阶段2通过解码器重用和早期潜在蒸馏，将学习到的先验迁移至VLA训练，同时保留端到端优化。在13个仿真和真实世界的跨实体任务中，该方法比无先验的VLA训练收敛更快、成功率更高，尤其数据稀缺时表现更优。扩展阶段1的动作数据能提升下游VLA性能的泛化性。

论文 Cross-embodiment VLA模型机器人操作动作先验流匹配

推荐理由：这篇论文教VLA模型在正式训练前先学动作规律，用的是流匹配，13个任务上效果比直接训练好，数据少时尤其明显。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？