6月17日
10:45
10:45arXiv cs.AI@Hongyuan Adam Lu, Z. L. Victor Wei, Qun Zhang, Jinrui Zeng, Bowen Cao, Lingwei Meng, Mocheng Li, Zezhong Wang, Haonan Yin, Naifu Xue, Minyu Chen, Cenyuan Zhang, Zefan Zhang, Hao Wei, Jiawei Zhou, Haoran Xu, Hao Yang, Ronglai Zuo, Tongda Xu, Yonghao Li, Jian Chen, Hebin Wang, Zeyu Gao, Yang Li, Wei Zhao, Qimin Zhong, Siqi Liu, Yumeng Zhang, Leyan Cui, Zhangyu Wang, Wai Lam
精选
Looped World Models(LoopWM)首次将循环架构引入世界建模,通过参数共享的transformer块迭代细化潜在环境状态。相比传统方法,LoopWM在参数效率上提升多达100倍,并能根据预测复杂度自动调整计算深度。该方法将迭代潜在深度确立为世界仿真的新扩展轴,独立于模型规模和训练数据规模。
推荐理由:这篇论文用循环架构解决了世界模型长程预测的计算瓶颈,参数省了100倍还能自适应深度,做仿真和规划的研究者值得看。
6月16日
11:43
11:43arXiv cs.AI@Jialei Chen, Kai Wang, Kang Chen, Shuaihang Chen, Feng Gao, Wenhao Tang, Zhiyuan Li, Weilin Liu, Zhuyu Yao, Boxun Li, Yuanbo Xu, Chao Yu
LaWAM通过潜在视觉子目标替代重建未来视频,在LIBERO基准上达到98.6%的成功率,在RoboTwin上达到91.22%,并在真实世界操作任务中取得竞争性表现。该模型每次动作块预测仅需187毫秒,延迟比像素空间世界行动模型低24倍。LaWAM的核心是潜在动作条件潜在世界模型(LaWM),利用预训练视觉基础模型的潜在空间预测未来观测特征。
推荐理由:机器人策略新框架LaWAM,不用生成视频就能预测场景变化,又快又准,成功率98.6%还低延迟,推荐做机器人控制的看看。
6月9日
13:11
13:11arXiv cs.LG@Wayne King, Zeyue Xue, Yuxuan Bian, Jie Huang, Haoran Li, Yaowei Li, Yaofeng Su, Yuming Li, Haoyu Wang, Shiyi Zhang, Songchun Zhang, Yuwei Niu, Sihan Xu, Junhao Zhuang, Haoyang Huang, Nan Duan
Echo-Memory 是一项针对动作条件世界模型中记忆机制的受控研究。这类模型根据首帧、文本提示和相机动作序列生成多段视频,但其主要失败点往往是记忆而非局部图像合成:当相机离开再返回时,场景或关键物体可能悄然改变。现有记忆设计难以比较,因为增益与骨干网络、训练、检索和评估差异纠缠不清。Echo-Memory 固定了动作到视频的接口,仅改变历史信息的存储和读取方式,在共享的视频扩散骨干、优化器、相机动作表示、采样器和评估流程下,比较了原始上下文、基于压缩的记忆、不同读取路径的空间摘要以及状态空间循环。研究通过三分支协议(回放质量、域内循环重访和开放域返回探测)评估记忆,发现回放保真度不足以作为记住世界的代理指标。主要结论包括:原始上下文是强大的容量基线,能显著提升开放域返回性能;紧凑性不能替代容量;块状状态空间循环是最强的开放域返回机制。
推荐理由:做视频生成或世界模型研究的团队,这篇论文帮你拆解了记忆机制中容量、压缩、读取和循环四个关键维度,看完能直接指导你的模型设计。
6月2日