13:11
13:11
arXiv cs.LG@Wayne King, Zeyue Xue, Yuxuan Bian, Jie Huang, Haoran Li, Yaowei Li, Yaofeng Su, Yuming Li, Haoyu Wang, Shiyi Zhang, Songchun Zhang, Yuwei Niu, Sihan Xu, Junhao Zhuang, Haoyang Huang, Nan Duan Echo-Memory 是一项针对动作条件世界模型中记忆机制的受控研究。这类模型根据首帧、文本提示和相机动作序列生成多段视频,但其主要失败点往往是记忆而非局部图像合成:当相机离开再返回时,场景或关键物体可能悄然改变。现有记忆设计难以比较,因为增益与骨干网络、训练、检索和评估差异纠缠不清。Echo-Memory 固定了动作到视频的接口,仅改变历史信息的存储和读取方式,在共享的视频扩散骨干、优化器、相机动作表示、采样器和评估流程下,比较了原始上下文、基于压缩的记忆、不同读取路径的空间摘要以及状态空间循环。研究通过三分支协议(回放质量、域内循环重访和开放域返回探测)评估记忆,发现回放保真度不足以作为记住世界的代理指标。主要结论包括:原始上下文是强大的容量基线,能显著提升开放域返回性能;紧凑性不能替代容量;块状状态空间循环是最强的开放域返回机制。
推荐理由:做视频生成或世界模型研究的团队,这篇论文帮你拆解了记忆机制中容量、压缩、读取和循环四个关键维度,看完能直接指导你的模型设计。
13:10
13:10
arXiv cs.AI@Mingxian Lin, Shengju Qian, Yuqi Liu, Yi-Hua Huang, Yiyu Wang, Wei Huang, Yitang Li, Fan Zhang, Zeyu Hu, Lingting Zhu, Xin Wang, Xiaojuan Qi OmniGameArena 是一个基于 Unreal Engine 5 构建的实时游戏基准测试,包含 12 个新游戏,覆盖单人、PvP 和合作模式,并统一了动作接口。它解决了现有基准测试只报告单次尝试分数、缺乏统一协议评估不同 VLM 智能体的问题。该基准引入了改进动态曲线(IDC),通过反射机制让智能体在多轮迭代中自主优化技能提示,从而揭示智能体的学习能力和泛化表现。研究对 12 个 VLM 智能体进行了冷启动排行榜测试,并对 4 个顶级智能体应用了 IDC 分析。这项工作为评估和比较 VLM 游戏智能体的真实能力提供了更全面的框架。
推荐理由:做游戏 AI 或 VLM 智能体评估的团队,终于有了一个能同时看冷启动能力和学习改进曲线的统一基准,比单次分数更有参考价值,做智能体训练的值得点开。
13:07
13:07
arXiv cs.AI@Jisong Cai, Long Ling, Shiwei Chu, Zhongshan Liu, Jiayue Kang, Zhixuan Liang, Wenjie Xu, Yinan Mao, Weinan Zhang, Xiaokang Yang, Ru Ying, Ran Zheng, Yao Mu AHA-WAM是一种基于双扩散Transformer(DiT)架构的异步世界-动作模型,用于机器人操控。它通过将世界预测和动作执行解耦到不同时间分辨率,解决了传统模型在近端帧建模上的冗余问题。视频DiT作为低频世界规划器,维护滚动键值记忆并编码长期场景演化;动作DiT作为高频执行器,通过层间联合注意力查询世界上下文。实验在RoboTwin和真实世界任务中达到92.80%和78.3%的成功率,闭环控制频率达24.17 Hz,速度提升4.59倍,且无需机器人数据预训练。
推荐理由:机器人操控研究者终于有了一个能高效解耦世界建模与动作执行的方案——AHA-WAM在速度和成功率上双赢,做具身智能的团队可以直接参考其异步架构设计。
13:05
13:05
arXiv cs.AI@Avijit Ghosh, Anka Reuel, Jenny Chim, Wm. Matthew Kennedy, Srishti Yadav, Jennifer Mickel, Yanan Long, Andrew Tran, Anastassia Kornilova, Damian Stachura, Kevin Klyman, Felix Friedrich, Jeba Sania, Max Lamparth, Jan Batzner, Anoop Mishra, Eliya Habba, Yixiong Hao, Nathan Heath, Shalaleh Rismani, Usman Gohar, Andrea Loehr, David Manheim, Ruchira Dhar, Sree Harsha Nelaturu, Aarush Sinha, Leshem Choshen, Drishti Sharma, Ishan Khire, Amit Saha, Subramanyam Sahoo, Michael Hardy, Michael Alexander Riegler, Kabir Manghnani, Michelle Lin, Yanan Jiang, Yilin Huang, Asaf Yehudai, Jessica Ji, Aris Hofmann, Mubashara Akhtar, Nuno Moniz, Yacine Jernite, Stella Biderman, Zeerak Talat, Sanmi Koyejo, Mykel Kochenderfer, Irene Solaiman AI评估结果虽大量产生,但报告格式不统一,导致读者难以跨来源比较、识别遗漏或追溯证据。现有方案仅覆盖评估生命周期的片段,缺乏统一记录,且未区分不同利益相关者的需求。研究者提出了EvalCards,一个可操作的报告层,整合基准元数据、评估运行数据和模型元数据。他们从52篇论文和10次访谈中推导出报告模式,实现了四个解释信号(可复现性、文档完整性、来源与风险、分数可比性),并针对研究与非研究受众设计了阅读模式。该工具已在5816个模型、635个基准和101843个结果上部署,揭示了当前报告实践中的系统性缺陷。
推荐理由:AI评估报告混乱是行业痛点,做模型评测、写技术文档或选型决策的团队,可以直接用EvalCards统一报告格式,减少误解和重复劳动。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。