精选理由
自动驾驶研究者终于有了一个统一 VLA 与世界模型的开源方案——OneVL 在精度和速度上均优于现有方法,做端到端驾驶或世界模型开发的团队可以直接拿来用。
小米技术发布并开源了 Xiaomi OneVL 一步式潜空间语言视觉推理框架,首次将 VLA(视觉语言动作)与世界模型统一到同一框架中。该模型在多个自动驾驶基准上刷新了潜在推理方法的性能上限,同时提供语言和视觉双维度的可解释性。相比传统方法,OneVL 在精度上超越显式 CoT,在速度上对齐“仅答案”预测。小米已将模型权重、训练和推理代码全面开源。
AI 翻译 · 中文
小米技术发布并开源了 Xiaomi OneVL 一步式潜空间语言视觉推理框架,首次将 VLA(视觉语言动作)与世界模型统一到同一框架中。该模型在多个自动驾驶基准上刷新了潜在推理方法的性能上限,同时提供语言和视觉双维度的可解释性。相比传统方法,OneVL 在精度上超越显式 CoT,在速度上对齐“仅答案”预测。小米已将模型权重、训练和推理代码全面开源。
IT之家 5 月 13 日消息,小米技术今日正式发布并开源 Xiaomi OneVL 一步式潜空间语言视觉推理框架。 官方表示,该模型 在业内率先实现 VLA、世界模型、潜空间推理等多个技术路线的统一 ,在具备 XLA 模型强悍推理能力的基础上,大幅提升了推理的速度和精度,是行业内具备开创性的方案,在精度上超越显式 CoT、在速度上对齐“仅答案”预测的潜空间 CoT 方案。 过去,VLA 和世界模型是自动驾驶领域两条相对独立的技术路线:…