AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:动作先验×
6月25日
11:08
11:08arXiv cs.AI@Dong Jing, Tianqi Zhang, Jiaqi Liu, Jinman Zhao, Zelong Sun, Li Erran Li, Zhiwu Lu, Mingyu Ding
本文提出在两阶段框架中预训练动作模块,在VLA训练前注入运动先验。阶段1使用基于流匹配的轻量级编解码器,仅从无条件动作轨迹学习跨实体时间运动结构,无需处理视觉或语言token。阶段2通过解码器重用和早期潜在蒸馏,将学习到的先验迁移至VLA训练,同时保留端到端优化。在13个仿真和真实世界的跨实体任务中,该方法比无先验的VLA训练收敛更快、成功率更高,尤其数据稀缺时表现更优。扩展阶段1的动作数据能提升下游VLA性能的泛化性。
论文Cross-embodimentVLA模型机器人操作动作先验流匹配

推荐理由:这篇论文教VLA模型在正式训练前先学动作规律,用的是流匹配,13个任务上效果比直接训练好,数据少时尤其明显。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
精选全部日报登录