AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
精选
过去 24 小时,从 662 条中筛出 45 条
全部模型产品行业论文技巧
标签:VLA×
6月18日
09:51
09:51berryxia@berryxia
精选
当前Physical AI的VLA模型仅在统计相关性上学习,桌子高2cm即失败。UCSD黄碧薇教授在CVPR 2026发布Causal World Models框架,让AI从模仿动作进化到理解因果。她创立的Aether AI获得2000万美元融资,成为全球首个因果世界模型公司。与杨立昆AMI(融10亿美元)和李飞飞World Labs(10亿美元)等不同,Aether AI不卷规模而卷因果结构。
AI模型Causal World ModelsAether AIVLA因果模型具身智能

推荐理由:黄碧薇教授不堆数据,教AI理解物理因果。Aether AI刚融资2000万美元,可能改变具身智能的游戏规则。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月5日
12:17
12:17arXiv cs.AI@Dong Jing, Jingchen Nie, Tianqi Zhang, Jiaqi Liu, Huaxiu Yao, Zhiwu Lu, Mingyu Ding
精选
现有视觉-语言-动作模型(VLA)只能以训练数据中的固定速度执行任务,无法在低风险阶段快速移动、高风险阶段慢速精确操作。TempoVLA 提出了一种速度可控的解决方案,通过可变速度轨迹增强(VSTA)和模型侧条件机制,让单一 VLA 模型能够根据显式速度条件调整执行速度。实验表明,TempoVLA 在仿真和真实任务中实现了双向灵活速度控制,且 VSTA 通过更好的数据利用提升了默认速度下的性能。与大型多模态模型结合后,TempoVLA 还能实现动态速度控制,在低风险阶段加速、高风险阶段减速。这项工作解决了机器人操作中速度自适应这一关键痛点。
论文VLA速度控制机器人操作轨迹增强动态调速

推荐理由:做机器人操作或 VLA 研究的团队终于有了一个能按需调速的方案——TempoVLA 让单一模型同时覆盖快速移动和慢速精确操作,值得关注其动态速度控制的实际效果。
原文
6月1日
00:09
AITOP6月1日 00:09
OpenAI 发起“Codex for Open Source”:免费赠送 6 个月 Pro 订阅,开源维护者能否迎来 AI 变革?
5月29日
08:02
AITOP5月29日 08:02
Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?
5月28日
12:02
12:02arXiv cs.LG@Krishnam Gupta
精选72°
研究发现视觉-语言-动作(VLA)模型在电机指令层面存在根本性、可预测的失败差异。通过对 VQ-BeT、Diffusion Policy 和 ACT 三种架构在 PushT 和 ALOHA 14-DOF 双臂操作任务上进行 450 次评估,发现方向反转率是通用失败预测指标(AUROC 最高 0.93),而急动度监控仅对离散令牌架构有效,速度监控在连续架构中几乎无效(AUROC 仅 0.41-0.52)。研究强调架构匹配的监控选择至关重要,并开源了 SafeContract 工具包。
论文VLA机器人动作监控失败预测SafeContract

推荐理由:做机器人 VLA 部署的团队注意了——不同架构的失败模式完全不同,用错监控等于白费功夫。建议直接看方向反转率这个通用指标,并试试 SafeContract 工具包。
原文
5月21日
11:19
11:19arXiv cs.AI@Abhinaw Priyadershi, Jelena Frtunikj
精选
该研究系统评估了自动驾驶视觉-语言-动作模型(VLA)在传感器退化下的鲁棒性,对Alpamayo R1(10B参数)在1996个场景中施加8种扰动(高斯噪声、光照极端、雾霾),进行约18000次推理测试。结果发现,因果链(CoC)解释的一致性高精度指示轨迹可靠性:扰动后CoC变化时,轨迹偏差飙升5.3倍(21.8米 vs 4.1米),相关系数达0.99。启用CoC生成平均提升轨迹精度11.8%(p<0.0001)。研究建议将推理一致性作为规划安全定量代理,推动基于推理的运行时监控。
论文自动驾驶VLA推理鲁棒性因果链传感器扰动

推荐理由:自动驾驶安全团队终于有了可量化的推理可靠性指标——CoC一致性比直接测轨迹更早暴露风险,做VLA部署或安全验证的开发者值得关注这个监控思路。
原文
5月19日
09:54
09:54arXiv cs.AI@Nicanor Mayumu, Xiaoheng Deng, Patrick Mukala
精选
该研究首次系统评估了视觉-语言-动作(VLA)驾驶模型在推理忠实性方面的表现,分析了 Alpamayo-R1-10B 在 100 个场景中的 300 次推理。结果显示,模型输出的自然语言推理与轨迹存在显著不忠实:整体推理忠实度仅 42.5%,Chain-of-Causation 匹配场景现实不到一半;在三分之一的行人相关场景中遗漏了 94 个行人;轻微视觉扰动导致 97.7% 的轨迹脆弱;推理-动作一致性仅 48.3%,其中 53.3% 的推理一致性低,37.9% 声称停止但模型继续前进。研究从信息论角度形式化了忠实性,定义了实体和动作忠实性验证标准,并提出了四组件安全架构。
论文VLA自动驾驶推理忠实性安全Chain-of-Causation

推荐理由:VLA 驾驶模型的推理不忠实问题直接关系到自动驾驶安全,做自动驾驶或具身智能的开发者值得关注——你的模型可能声称停车但实际在开。
原文
5月13日
17:17
17:17IT之家(博客/媒体)
精选70°
小米技术发布并开源了 Xiaomi OneVL 一步式潜空间语言视觉推理框架,首次将 VLA(视觉语言动作)与世界模型统一到同一框架中。该模型在多个自动驾驶基准上刷新了潜在推理方法的性能上限,同时提供语言和视觉双维度的可解释性。相比传统方法,OneVL 在精度上超越显式 CoT,在速度上对齐“仅答案”预测。小米已将模型权重、训练和推理代码全面开源。
AI模型自动驾驶VLA世界模型开源/仓库小米

推荐理由:自动驾驶研究者终于有了一个统一 VLA 与世界模型的开源方案——OneVL 在精度和速度上均优于现有方法,做端到端驾驶或世界模型开发的团队可以直接拿来用。
原文
精选全部日报登录