HAT-4D:通过人机协作从单目视频重建多物体4D交互

HAT-4D: Lifting Monocular Video for 4D Multi-Object Interactions via Human-Agent Collaboration

精选理由

不用多相机,单视频就能重建多个物体怎么动,还能人工纠正错误。HAT-4D这个框架开源了,做Embodied AI的数据生成很方便。

AI 摘要

HAT-4D是首个用于从单目视频中重建多个物体3D几何、时间动态和物理交互的智能体框架。它结合视觉语言模型(VLM)和多级人工反馈机制,解决深度模糊和遮挡问题,无需多相机设备。利用HAT-4D构建了MVOIK-4D基准,包含新的多维评估协议,侧重物理合理性和时间一致性。在大多数评估指标上达到SOTA,同时保持语义对齐。少量人工反馈即可显著改善交互重建质量。

AI 翻译 · 中文

HAT-4D是首个用于从单目视频中重建多个物体3D几何、时间动态和物理交互的智能体框架。它结合视觉语言模型(VLM)和多级人工反馈机制,解决深度模糊和遮挡问题,无需多相机设备。利用HAT-4D构建了MVOIK-4D基准,包含新的多维评估协议,侧重物理合理性和时间一致性。在大多数评估指标上达到SOTA,同时保持语义对齐。少量人工反馈即可显著改善交互重建质量。

arXiv cs.AIExtracting dynamic 4D object interactions from massive, in-the-wild monocular videos offers a highly efficient data collection pathway for scaling Embodied AI and training VLAs. However, existing monocular 4D reconstruct