HAT-4D：通过人机协作从单目视频重建多物体4D交互

精选理由

不用多相机，单视频就能重建多个物体怎么动，还能人工纠正错误。HAT-4D这个框架开源了，做Embodied AI的数据生成很方便。

AI 摘要

HAT-4D是首个用于从单目视频中重建多个物体3D几何、时间动态和物理交互的智能体框架。它结合视觉语言模型（VLM）和多级人工反馈机制，解决深度模糊和遮挡问题，无需多相机设备。利用HAT-4D构建了MVOIK-4D基准，包含新的多维评估协议，侧重物理合理性和时间一致性。在大多数评估指标上达到SOTA，同时保持语义对齐。少量人工反馈即可显著改善交互重建质量。

AI 翻译 · 中文

arXiv cs.AIExtracting dynamic 4D object interactions from massive, in-the-wild monocular videos offers a highly efficient data collection pathway for scaling Embodied AI and training VLAs. However, existing monocular 4D reconstruct…

阅读原文