全部 AI 动态 · AI 热点

6月30日

11:16

arXiv cs.LG@Daniyel Ayupov, Artur Markov-Tsoy

研究人员发布DreamForge-World 0.1 Preview，这是一种面向实时交互的基座世界模型。系统基于LongLive 1自回归视频堆栈（衍生自Wan2.1-T2V-1.3B），并融入Matrix-Game家族的残差动作路径。该模型在单张RTX 4090上以480p分辨率达到14-15 FPS，支持键盘鼠标控制、多模态初始化、中流重提示和双视角操作。通过开源视频骨干和针对性微调，构建了高成本效益的预览系统。

AI模型 DreamForge-World LongLive Wan2.1-T2V-1.3B RTX 4090 世界模型

推荐理由：DreamForge-World 0.1 Preview让你在消费级显卡上实时操控世界模拟，支持键盘鼠标，15 FPS流畅运行，比那些需要超算的模型亲民多了。

原文

6月26日

10:40

arXiv cs.LG@Nicklas Hansen, Xiaolong Wang

该论文发现世界模型的幻觉集中在状态-动作空间的低覆盖区域，并提出轻量级数据驱动信号可检测和缓解。研究者发布了MMBench2数据集（427小时、210个任务），并训练了350M参数的世界模型。他们识别了三种幻觉模式（感知、动作边缘化、场景发散），开发了三个预测信号。覆盖率感知采样和基于好奇心的在线数据收集方法使得仅需50条真实轨迹即可微调模型适应全新环境。

论文 MMBench2 世界模型幻觉数据覆盖 OpenAI

推荐理由：这篇论文用具体数据和实验证明世界模型的幻觉本质是数据覆盖问题，还给出了实用的检测和缓解方法。

原文

6月24日

12:11

arXiv cs.AI@Yikai Lu, Yifei Wu, Xinyu Lu, Tongxin Li

该论文证明通用智能体在大型场景下不可能具备万能能力，传统最坏情况分析无法区分关键瓶颈与无关失败。作者提出结构化认证框架，将受目标条件的性能映射到智能体内部世界模型的逐项保证。他们设计了基于深度组合目标过滤特定转换的算法，并证明在该目标下的通用智能体具有误差界为O(1/n)+O(δ)的结构化世界模型。该界限在δ较小的条件下是紧的，从而允许通过定位可靠的长时规划转换来认证部署通用智能体。

论文世界模型智能体结构化认证规划

推荐理由：这篇论文从理论上解决了通用智能体部署时的可靠性问题，给出了具体的误差界限和认证方法，对智能体安全研究很有参考价值。

原文

6月23日

10:58

arXiv cs.AI@Gregory Gorbov, Artem Latyshev, Aleksandr I. Panov

本研究提出Imagine方法，结合可学习世界模型与高层、低层两种互补策略，解决强化学习中的安全探索问题。高层策略生成中间子目标，引导探索偏向安全区域；低层策略利用世界模型的想象展开减少不安全行为。在长时域高维动作空间的导航和操作任务上，该方法在成功率和约束满足方面显著优于现有安全RL基线，一致满足预设安全预算。

论文分层强化学习安全探索世界模型 Imagine Safe RL

推荐理由：这篇论文提出用世界模型加分层策略搞安全RL，在长期任务上比现有方法成功率和安全性都高不少，值得一看。

原文

6月17日

10:45

arXiv cs.AI@Hongyuan Adam Lu, Z. L. Victor Wei, Qun Zhang, Jinrui Zeng, Bowen Cao, Lingwei Meng, Mocheng Li, Zezhong Wang, Haonan Yin, Naifu Xue, Minyu Chen, Cenyuan Zhang, Zefan Zhang, Hao Wei, Jiawei Zhou, Haoran Xu, Hao Yang, Ronglai Zuo, Tongda Xu, Yonghao Li, Jian Chen, Hebin Wang, Zeyu Gao, Yang Li, Wei Zhao, Qimin Zhong, Siqi Liu, Yumeng Zhang, Leyan Cui, Zhangyu Wang, Wai Lam

精选

Looped World Models（LoopWM）首次将循环架构引入世界建模，通过参数共享的transformer块迭代细化潜在环境状态。相比传统方法，LoopWM在参数效率上提升多达100倍，并能根据预测复杂度自动调整计算深度。该方法将迭代潜在深度确立为世界仿真的新扩展轴，独立于模型规模和训练数据规模。

论文 LoopWM 世界模型循环架构参数效率

推荐理由：这篇论文用循环架构解决了世界模型长程预测的计算瓶颈，参数省了100倍还能自适应深度，做仿真和规划的研究者值得看。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:43

arXiv cs.AI@Jialei Chen, Kai Wang, Kang Chen, Shuaihang Chen, Feng Gao, Wenhao Tang, Zhiyuan Li, Weilin Liu, Zhuyu Yao, Boxun Li, Yuanbo Xu, Chao Yu

LaWAM通过潜在视觉子目标替代重建未来视频，在LIBERO基准上达到98.6%的成功率，在RoboTwin上达到91.22%，并在真实世界操作任务中取得竞争性表现。该模型每次动作块预测仅需187毫秒，延迟比像素空间世界行动模型低24倍。LaWAM的核心是潜在动作条件潜在世界模型（LaWM），利用预训练视觉基础模型的潜在空间预测未来观测特征。

AI模型 LaWAM 机器人策略世界模型潜在空间

推荐理由：机器人策略新框架LaWAM，不用生成视频就能预测场景变化，又快又准，成功率98.6%还低延迟，推荐做机器人控制的看看。

原文

10:51

arXiv: Google DeepMind@Junjian Zhang, Hao Tan, Ruonan Li, Dong Zhu, Aiping Li, Zhaoquan Gu

ARB4WM提出一个统一的评估框架，用于测试世界模型在视觉扰动下的对抗鲁棒性。该框架定义了五个白盒损失目标，涵盖策略、价值和潜在动力学三个层面。在MetaWorld和DeepMind Control Suite的20个任务上评估了四种Dreamer-style代理。结果显示，针对值估计、潜在表示和RSSM动力学的攻击与直接策略破坏同等有害，早期或频繁扰动尤其严重。代码已开源并提供使用接口。

AI模型 ARB4WM Dreamer 世界模型对抗鲁棒性连续控制

推荐理由：想检验你的世界模型扛不扛揍？ARB4WM这个新基准专门测视觉扰动下的鲁棒性，比单看动作空间全面多了。

原文

6月15日

11:12

arXiv cs.AI@Xiaoxin Lu, Ranran Haoran Zhang, Rui Zhang

SIMMER是一个基于人类策划的厨房领域符号世界模型的新基准，包含77个动作、262个独特物体和约46,800种语义真实的交互。实验在六个LLM上进行，前沿模型错误率最高仅17%，最多56%的计划包含潜在失败，其中多数导致不可逆后果。通过反事实预测模拟，潜在失败可减少72%，不可逆情况减少75%。该基准揭示了现有评估忽略的关键失败类型。

论文 SIMMER LLM 世界模型智能体规划

推荐理由：新基准暴露LLM规划隐藏盲区

原文

6月12日