arXiv cs.AI@Jiaxin Wu, Yihao Pi, Yinling Zhang, Yuheng Li, Xueyan Zou精选58生成式视频模型常被当作隐式世界模型,但现有评估方法依赖人工判断或学习评分器,难以诊断几何错误。研究者提出PDI-Bench框架,通过分割、点跟踪和单目重建,将生成视频中的物体提升到3D世界坐标,计算尺度-深度对齐、3D运动一致性和3D结构刚性三个维度的残差。配套的PDI-Dataset覆盖多种几何约束场景,测试发现当前最先进的视频生成器存在一致的几何特定失败模式,这些模式不被常见感知指标捕获。该框架为迈向物理可信的视频生成提供了诊断信号。论文视频生成世界模型几何一致性评估框架3D重建推荐理由:视频生成模型常被当作世界模型,但几何一致性是硬伤——PDI-Bench用定量方法暴露了现有模型在3D结构上的系统性失败,做视频生成或世界模型研究的团队值得用它来诊断自己的模型。
IT之家(博客/媒体)65小米发布并开源了 Xiaomi OneVL,一个一步式潜空间语言视觉推理框架。雷军称,该模型在业内率先通过潜空间推理将 VLA(视觉语言动作模型)和世界模型统一到同一框架中。在推理和规划等主流基准上,Xiaomi OneVL 全面刷新了潜在推理方法的性能上限。该模型在精度上超越显式 CoT,速度上对齐“仅答案”预测的潜空间 CoT 方案。小米已将模型权重和训练、推理代码全面开源,邀请全球开发者探索自动驾驶大模型的可能性。AI模型自动驾驶Xiaomi OneVLVLA世界模型潜空间推理推荐理由:小米把 VLA 和世界模型统一到一套框架,解决了自动驾驶多模型协同的痛点,做自动驾驶或具身智能的开发者可以直接用开源代码试试,性能还刷新了基准。
AK@_akhaliq40本文探讨企业系统是否需要学习世界模型来推断动态行为,强调上下文在理解系统变化中的关键作用。作者认为,传统企业系统依赖规则和静态模型,但面对复杂动态环境时,学习世界模型能提升适应性和预测能力。文章通过案例说明,结合上下文信息的世界模型可以更准确地捕捉系统行为模式,从而优化决策和自动化流程。这一观点对AI在企业应用中的落地具有重要参考价值。论文世界模型企业系统上下文推断动态系统AI应用推荐理由:企业系统正从规则驱动转向智能决策,学习世界模型是提升系统动态适应性的关键。做企业级AI应用或系统架构的开发者,值得关注这一前沿思路。
IT之家(博客/媒体)精选70小米技术发布并开源了 Xiaomi OneVL 一步式潜空间语言视觉推理框架,首次将 VLA(视觉语言动作)与世界模型统一到同一框架中。该模型在多个自动驾驶基准上刷新了潜在推理方法的性能上限,同时提供语言和视觉双维度的可解释性。相比传统方法,OneVL 在精度上超越显式 CoT,在速度上对齐“仅答案”预测。小米已将模型权重、训练和推理代码全面开源。AI模型自动驾驶VLA世界模型开源/仓库小米推荐理由:自动驾驶研究者终于有了一个统一 VLA 与世界模型的开源方案——OneVL 在精度和速度上均优于现有方法,做端到端驾驶或世界模型开发的团队可以直接拿来用。