6月29日
10:09
10:09arXiv cs.AI@Jiaxin Li, Yuxiang Wu, Zhenkai Zhang, Xinrui Shi, Haoyuan Wang, Yichen Zhao, Su Linxiang, Chenyang Yu, Mingyu Zhang, Yifan Ding, Boran Wen, Li Zhang, Ruiyang Liu, Yong-Lu Li
HAT-4D是首个用于从单目视频中重建多个物体3D几何、时间动态和物理交互的智能体框架。它结合视觉语言模型(VLM)和多级人工反馈机制,解决深度模糊和遮挡问题,无需多相机设备。利用HAT-4D构建了MVOIK-4D基准,包含新的多维评估协议,侧重物理合理性和时间一致性。在大多数评估指标上达到SOTA,同时保持语义对齐。少量人工反馈即可显著改善交互重建质量。
推荐理由:不用多相机,单视频就能重建多个物体怎么动,还能人工纠正错误。HAT-4D这个框架开源了,做Embodied AI的数据生成很方便。
6月26日
11:34
11:34arXiv cs.AI@Tinghao Wang, Yichen Guo, Rui Huang, Zheng Lu, Qizhe Zhang, Chenxi Li, Yuan Zhang, Jiajun Cao, Zhirong Shen, Yaosong Du, Guangyan Gan, Wenya Wang, Lin William Cong, Shanghang Zhang
论文提出TOPS方法,从第一原理出发构建Token最优保留集。该方法基于任务相关性、信息覆盖和语义多样性三个原则。在7个MLLM骨干(如LLaVA-NeXT)和14个基准上,TOPS优于此前方法。在LLaVA-NeXT上,去除77.8%视觉token后,7B模型保持100.0%性能,13B模型提升至100.6%。结果表明剪枝冗余token可减轻幻觉。
推荐理由:这篇论文的TOPS方法能在剪掉近八成视觉token的同时保持甚至提升模型性能,很实用。