6月29日
10:09
10:09arXiv cs.AI@Jiaxin Li, Yuxiang Wu, Zhenkai Zhang, Xinrui Shi, Haoyuan Wang, Yichen Zhao, Su Linxiang, Chenyang Yu, Mingyu Zhang, Yifan Ding, Boran Wen, Li Zhang, Ruiyang Liu, Yong-Lu Li
HAT-4D是首个用于从单目视频中重建多个物体3D几何、时间动态和物理交互的智能体框架。它结合视觉语言模型(VLM)和多级人工反馈机制,解决深度模糊和遮挡问题,无需多相机设备。利用HAT-4D构建了MVOIK-4D基准,包含新的多维评估协议,侧重物理合理性和时间一致性。在大多数评估指标上达到SOTA,同时保持语义对齐。少量人工反馈即可显著改善交互重建质量。
推荐理由:不用多相机,单视频就能重建多个物体怎么动,还能人工纠正错误。HAT-4D这个框架开源了,做Embodied AI的数据生成很方便。
6月28日
05:49