11:43
11:43
arXiv cs.AI@Jialei Chen, Kai Wang, Kang Chen, Shuaihang Chen, Feng Gao, Wenhao Tang, Zhiyuan Li, Weilin Liu, Zhuyu Yao, Boxun Li, Yuanbo Xu, Chao Yu LaWAM通过潜在视觉子目标替代重建未来视频,在LIBERO基准上达到98.6%的成功率,在RoboTwin上达到91.22%,并在真实世界操作任务中取得竞争性表现。该模型每次动作块预测仅需187毫秒,延迟比像素空间世界行动模型低24倍。LaWAM的核心是潜在动作条件潜在世界模型(LaWM),利用预训练视觉基础模型的潜在空间预测未来观测特征。
推荐理由:机器人策略新框架LaWAM,不用生成视频就能预测场景变化,又快又准,成功率98.6%还低延迟,推荐做机器人控制的看看。
11:08
11:08
arXiv cs.LG@Patomporn Payoungkhamdee, Napat Laosaengpha, Jenta Wonglertsakul, Pittawat Taveekitworachai, Pume Tuchinda, Panjapong Poobanchuen, Ekapol Chuangsuwanich, Can Udomcharoenchaikit, Samuel Cahyawijaya, Peerat Limkonchotiwat, Sarana Nutanong 研究在多个大语言模型上分析了代码解释器推理的外在属性(关键token)和内在属性(代码认知行为)。发现较强模型的关键token和认知行为(验证、回溯、反向链)更突出。推理时添加关键token在数学、排序、优化任务上提升性能。训练时加入认知行为改进了三个模型中的两个的监督微调和强化学习效果。分析显示这些行为能减少错误回答的过度推理并提高token效率。
推荐理由:这篇论文分析了代码解释器推理的关键属性和认知行为,发现验证、回溯等能提升数学推理效率,适合关心LLM推理优化的人。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。