精选理由
不用多相机,单视频就能重建多个物体怎么动,还能人工纠正错误。HAT-4D这个框架开源了,做Embodied AI的数据生成很方便。
HAT-4D是首个用于从单目视频中重建多个物体3D几何、时间动态和物理交互的智能体框架。它结合视觉语言模型(VLM)和多级人工反馈机制,解决深度模糊和遮挡问题,无需多相机设备。利用HAT-4D构建了MVOIK-4D基准,包含新的多维评估协议,侧重物理合理性和时间一致性。在大多数评估指标上达到SOTA,同时保持语义对齐。少量人工反馈即可显著改善交互重建质量。
AI 翻译 · 中文
HAT-4D是首个用于从单目视频中重建多个物体3D几何、时间动态和物理交互的智能体框架。它结合视觉语言模型(VLM)和多级人工反馈机制,解决深度模糊和遮挡问题,无需多相机设备。利用HAT-4D构建了MVOIK-4D基准,包含新的多维评估协议,侧重物理合理性和时间一致性。在大多数评估指标上达到SOTA,同时保持语义对齐。少量人工反馈即可显著改善交互重建质量。
Extracting dynamic 4D object interactions from massive, in-the-wild monocular videos offers a highly efficient data collection pathway for scaling Embodied AI and training VLAs. However, existing monocular 4D reconstruct…