全部 AI 动态 · AI 热点

6月29日

16:53

AI Will@FinanceYF5

AGI Summit SF 2026 公布第二波嘉宾，包括 Vishal Vasishth、Fan-Yun Sun、Daksh Gupta、Alberto Taiuti、Gavin Zheng、Raymond Chen、Joshua McKibben。他们将围绕世界模型、AI信任、代码安全、基础设施扩展、影响力投资等7个议题展开讨论。峰会旨在促进AGI领域的深度交流与合作。

行业 AGI Summit SF 2026 AI信任代码安全基础设施扩展世界模型

推荐理由：AGI Summit SF 2026 第二波嘉宾名单来了，7位专家聊AI信任、代码安全和基础设施，看点十足。

原文

6月27日

12:06

World Labs (李飞飞)@theworldlabs

World Labs在SIGGRAPH 2026期间举办Worlds in Action黑客马拉松，地点为洛杉矶，时间为2026年7月18日至19日。活动聚焦于使用世界模型进行游戏、VFX、AR/VR及互动体验的开发。参与者将在两天内协作构建基于世界模型的应用项目。

行业 World Labs SIGGRAPH hackathon 世界模型游戏开发

推荐理由：World Labs要在SIGGRAPH 2026搞黑客马拉松，两天用世界模型做游戏和VFX，有兴趣的可以去看看。

原文

6月26日

10:40

arXiv cs.LG@Nicklas Hansen, Xiaolong Wang

该论文发现世界模型的幻觉集中在状态-动作空间的低覆盖区域，并提出轻量级数据驱动信号可检测和缓解。研究者发布了MMBench2数据集（427小时、210个任务），并训练了350M参数的世界模型。他们识别了三种幻觉模式（感知、动作边缘化、场景发散），开发了三个预测信号。覆盖率感知采样和基于好奇心的在线数据收集方法使得仅需50条真实轨迹即可微调模型适应全新环境。

论文 MMBench2 世界模型幻觉数据覆盖 OpenAI

推荐理由：这篇论文用具体数据和实验证明世界模型的幻觉本质是数据覆盖问题，还给出了实用的检测和缓解方法。

原文

6月25日

06:28

Ate-a-Pi@svpino

精选

Tripo AI 推出 Project Eden 世界模型，与传统逐帧预测方案不同，它先构建包含几何、物体位置等真实状态的地图，再根据地图生成画面。该架构解决了传统模型遗忘问题，物体离开视线后仍存在于地图中，并支持多人/智能体共存与编辑。公司刚完成两轮近 2 亿美元融资，将在 SIGGRAPH 2026 展示。

AI模型 Tripo AI Project Eden 世界模型 3D 融资

推荐理由：Tripo AI 搞了个新世界模型 Project Eden，先建好地图再渲染，物体不会消失，还能多人同在一个世界。刚融资 2 亿美元，值得关注。

原文

02:37

AK@_akhaliq

阿里发布Qwen-AgentWorld，一个基于Qwen的语言世界模型，专为通用智能体设计。该模型旨在帮助智能体理解环境动态并做出决策。目前尚未公开具体的基准测试结果或性能数据。

AI模型 Qwen-AgentWorld Qwen 阿里智能体世界模型

推荐理由：阿里出了AgentWorld世界模型，让智能体能更好地理解环境，做Agent开发的朋友可以关注一下。

原文

00:49

berryxia@berryxia

77°

Qwen团队直接训练了一个语言世界模型Qwen-AgentWorld，核心目标是从头建模环境而非仅训练Agent行为。模型需预测终端输出、网页变化及代码执行后状态，而非单纯学习操作。利用该模型作为模拟器进行可控Sim RL，在某些任务上模拟训练的Agent性能甚至超过真实环境训练的Agent。此外，仅做环境预测的预训练能力可直接迁移到多轮Agent任务，在多个benchmark上取得显著提升，包括未见领域。Qwen开源了35B MoE版本及对应基准。

AI模型 Qwen Qwen-AgentWorld 世界模型 Agent 强化学习

推荐理由：通义千问出了个新模型，不是教Agent怎么动，而是先让模型懂环境变化。用模拟环境练出的Agent反而比真实环境练的还强，还开源了35B版，值得看看。

原文

6月24日

22:40

阿里通义 Qwen@Alibaba_Qwen

精选

Qwen发布Paradigm II，一种基于世界建模的Agent基础模型。它通过单轮环境预测直接测试于多轮工具调用任务，无需Agent强化学习或任务特定调优。在7项基准上均取得提升，域内Terminal-Bench 2.0提升6.3%、SWE-Bench提升3.4%、WideSearch提升12.8%。域外基准Claw-Eval提升11.3%、QwenClawBench提升9.7%、BFCL v4提升9.0%。世界建模将'先预测后行动'内化为可迁移的推理模式。

AI模型 Qwen Paradigm II 推理模型智能体世界模型

推荐理由：Qwen做了个新Agent模型Paradigm II，不用额外训练就在终端、编码、搜索和工具调用任务上全涨分，尤其没见过的任务也管用。

原文

22:39

阿里通义 Qwen@Alibaba_Qwen

精选71°

Qwen-AgentWorld是阿里Qwen团队发布的原生语言世界模型，在单一模型中模拟MCP、搜索、终端、SWE、Web、OS和Android共7种智能体环境。环境建模被设定为训练目标，而非后处理适配。在AgentWorldBench基准上，该模型超越Claude Opus 4.8和GPT-5.4。可控SimRL利用此世界模型作为环境进行强化学习，效果超过在真实环境中训练。仅通过预测环境的预热训练，无需智能体特定微调，预测知识即可零微调迁移至智能体任务。

AI模型 Qwen-AgentWorld 智能体世界模型模拟环境强化学习

推荐理由：阿里Qwen造了个能模拟7种环境的AgentWorld，在AgentWorldBench上干掉了Claude和GPT最新版，训练智能体不用真实环境也能更强，零微调迁移呢。

原文

16:20

pandaily@contact@pandaily.com (Pandaily)

智谱AI、生数科技、Momenta等清华关联公司正聚焦世界模型，将其视为AI下一前沿。这些公司在视频生成、机器人控制、自动驾驶三个领域探索世界模型架构。世界模型旨在模拟物理世界规律，使AI具备环境理解和因果推理能力。智谱AI已发布GLM-4系列，未来计划将世界模型融入多模态系统。

行业 Zhipu AI Shengshu Tech Momenta 世界模型自动驾驶

推荐理由：清华系三家公司分别在视频、机器人、自动驾驶搞世界模型，这波前沿玩法值得关注

原文

12:11

arXiv cs.AI@Yikai Lu, Yifei Wu, Xinyu Lu, Tongxin Li

该论文证明通用智能体在大型场景下不可能具备万能能力，传统最坏情况分析无法区分关键瓶颈与无关失败。作者提出结构化认证框架，将受目标条件的性能映射到智能体内部世界模型的逐项保证。他们设计了基于深度组合目标过滤特定转换的算法，并证明在该目标下的通用智能体具有误差界为O(1/n)+O(δ)的结构化世界模型。该界限在δ较小的条件下是紧的，从而允许通过定位可靠的长时规划转换来认证部署通用智能体。

论文世界模型智能体结构化认证规划

推荐理由：这篇论文从理论上解决了通用智能体部署时的可靠性问题，给出了具体的误差界限和认证方法，对智能体安全研究很有参考价值。

原文

6月23日

10:58

arXiv cs.AI@Gregory Gorbov, Artem Latyshev, Aleksandr I. Panov

本研究提出Imagine方法，结合可学习世界模型与高层、低层两种互补策略，解决强化学习中的安全探索问题。高层策略生成中间子目标，引导探索偏向安全区域；低层策略利用世界模型的想象展开减少不安全行为。在长时域高维动作空间的导航和操作任务上，该方法在成功率和约束满足方面显著优于现有安全RL基线，一致满足预设安全预算。

论文分层强化学习安全探索世界模型 Imagine Safe RL

推荐理由：这篇论文提出用世界模型加分层策略搞安全RL，在长期任务上比现有方法成功率和安全性都高不少，值得一看。

原文

6月18日

11:40

berryxia@berryxia

在YC访谈中，李飞飞指出世界模型需要超越平面像素和语言，捕捉3D结构和空间智能。Aether AI的因果世界模型进一步补全推理能力，使模型从学习相关性进化到理解因果关系。两条路线（3D空间表征+因果推理）结合，有望推动具身智能从模仿到思考的范式转变。

行业李飞飞空间智能因果世界模型世界模型具身智能

推荐理由：李飞飞直接点名空间智能是下一波重点，还和Aether AI的因果世界模型对上了线。看懂物理世界，AI才能真变聪明。

原文

10:30

10:30IT之家（博客/媒体）

蔚来今日推送世界模型全新版本，超70万用户可同步升级，最早4年前车主也能升级。新版本在原有「世界模型+闭环强化学习」基础上，新增监督微调训练层，形成三层框架，利用好行为数据雕刻精细行为。该版本首次在国内实现智能辅助驾驶直出方向盘和加减速踏板操作信号，替代输出采样轨迹，提升控车精准度。在无高精地图前提下，选路准确性宣称行业领先，并首个实现对潮汐车道、可变车道天空路牌的实时识别与理解。

AI产品蔚来世界模型智能驾驶端到端用户升级

推荐理由：蔚来推送新版本了，超70万用户能升，连4年前老车主都行。选路更准，还能看懂潮汐车道，控车也更细腻。

原文

02:30

Decoder@Matthias Bastian

73°

Amazon、Nvidia、AMD向世界模型初创公司Odyssey ML投资3.1亿美元，该公司估值达14.5亿美元。CIA关联基金IQT和谷歌首席科学家Jeff Dean也参与本轮融资。世界模型被业界视为语言模型后的下一个AI重点方向。

行业 Odyssey ML Amazon Nvidia AMD 世界模型

推荐理由：亚马逊、英伟达、AMD都砸钱进这家3D世界模型公司，连Jeff Dean都跟投了，看来世界模型是下一波风口。

原文

00:35

量子位@henry

71°

一家头部具身大脑公司完成数亿美元新一轮融资，投资方共15家VC。该公司坚持世界模型技术路线，半年内先后在开源、端侧和训练场三个方向发布方案。具体开源项目名称和端侧部署参数尚未披露。训练场支持与多种机器人硬件适配。该轮融资将用于扩大研发团队和加速产品落地。

行业具身智能融资世界模型开源模型端侧部署

推荐理由：一家专注具身大脑的公司又融了一大笔钱，世界模型路线，15家VC跟进。开源、端侧、训练场三连发，你可以关注它的技术方案。

原文

6月17日

23:23

23:23IT之家（博客/媒体）

阿里云6月17日发布HappyOyster 1.0（快乐生蚝1.0），支持一句话生成可实时交互的数字世界。该产品基于原生多模态架构，能推演物理因果链并保持人物与环境长程一致性。不同于传统“写prompt等渲染”的流程，用户可实时输入指令，画面即时响应。目前官网开放“实时导演”和“世界探索”两种玩法，支持虚拟男友互动、短剧剧情改写、开放世界移动等功能。2025年4月16日起开放内测，至7月17日官网可领取体验积分。

AI产品 HappyOyster 阿里云快乐生蚝世界模型实时交互

推荐理由：阿里云搞了个好玩的：一句话就能生成能边玩边改的动态世界，像游戏一样探索，还能和虚拟男友实时互动，快去体验。

原文

10:45

arXiv cs.AI@Hongyuan Adam Lu, Z. L. Victor Wei, Qun Zhang, Jinrui Zeng, Bowen Cao, Lingwei Meng, Mocheng Li, Zezhong Wang, Haonan Yin, Naifu Xue, Minyu Chen, Cenyuan Zhang, Zefan Zhang, Hao Wei, Jiawei Zhou, Haoran Xu, Hao Yang, Ronglai Zuo, Tongda Xu, Yonghao Li, Jian Chen, Hebin Wang, Zeyu Gao, Yang Li, Wei Zhao, Qimin Zhong, Siqi Liu, Yumeng Zhang, Leyan Cui, Zhangyu Wang, Wai Lam

精选

Looped World Models（LoopWM）首次将循环架构引入世界建模，通过参数共享的transformer块迭代细化潜在环境状态。相比传统方法，LoopWM在参数效率上提升多达100倍，并能根据预测复杂度自动调整计算深度。该方法将迭代潜在深度确立为世界仿真的新扩展轴，独立于模型规模和训练数据规模。

论文 LoopWM 世界模型循环架构参数效率

推荐理由：这篇论文用循环架构解决了世界模型长程预测的计算瓶颈，参数省了100倍还能自适应深度，做仿真和规划的研究者值得看。

原文

04:33

World Labs (李飞飞)@theworldlabs

World Labs联合创始人李飞飞在FastCompany采访中阐述AI愿景，强调未来AI应扎根于人类能动性、创造力和理解。她将世界模型的发展比作一场持久的模拟，一旦建立就稳定不变。该观点体现了World Labs以人为本的AI发展理念。

行业 World Labs Fei-Fei Li 世界模型人类能动性 AI未来

推荐理由：李飞飞说AI未来要围着人转，不是机器。World Labs要做持久的世界模型，挺有远见。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

11:43

arXiv cs.AI@Jialei Chen, Kai Wang, Kang Chen, Shuaihang Chen, Feng Gao, Wenhao Tang, Zhiyuan Li, Weilin Liu, Zhuyu Yao, Boxun Li, Yuanbo Xu, Chao Yu

LaWAM通过潜在视觉子目标替代重建未来视频，在LIBERO基准上达到98.6%的成功率，在RoboTwin上达到91.22%，并在真实世界操作任务中取得竞争性表现。该模型每次动作块预测仅需187毫秒，延迟比像素空间世界行动模型低24倍。LaWAM的核心是潜在动作条件潜在世界模型（LaWM），利用预训练视觉基础模型的潜在空间预测未来观测特征。

AI模型 LaWAM 机器人策略世界模型潜在空间

推荐理由：机器人策略新框架LaWAM，不用生成视频就能预测场景变化，又快又准，成功率98.6%还低延迟，推荐做机器人控制的看看。

原文

10:51

arXiv: Google DeepMind@Junjian Zhang, Hao Tan, Ruonan Li, Dong Zhu, Aiping Li, Zhaoquan Gu

ARB4WM提出一个统一的评估框架，用于测试世界模型在视觉扰动下的对抗鲁棒性。该框架定义了五个白盒损失目标，涵盖策略、价值和潜在动力学三个层面。在MetaWorld和DeepMind Control Suite的20个任务上评估了四种Dreamer-style代理。结果显示，针对值估计、潜在表示和RSSM动力学的攻击与直接策略破坏同等有害，早期或频繁扰动尤其严重。代码已开源并提供使用接口。

AI模型 ARB4WM Dreamer 世界模型对抗鲁棒性连续控制

推荐理由：想检验你的世界模型扛不扛揍？ARB4WM这个新基准专门测视觉扰动下的鲁棒性，比单看动作空间全面多了。

原文

6月15日

11:12

arXiv cs.AI@Xiaoxin Lu, Ranran Haoran Zhang, Rui Zhang

SIMMER是一个基于人类策划的厨房领域符号世界模型的新基准，包含77个动作、262个独特物体和约46,800种语义真实的交互。实验在六个LLM上进行，前沿模型错误率最高仅17%，最多56%的计划包含潜在失败，其中多数导致不可逆后果。通过反事实预测模拟，潜在失败可减少72%，不可逆情况减少75%。该基准揭示了现有评估忽略的关键失败类型。

论文 SIMMER LLM 世界模型智能体规划

推荐理由：新基准暴露LLM规划隐藏盲区

原文

6月14日

21:58

Decoder@Jonathan Kemper

精选

Mirage由微软研究院与多所大学联合开发。它直接在潜在空间存储场景信息，而非基于像素的点云。该方法将计算时间和显存需求大幅降低，同时支持长镜头下的空间一致性。模型目前无法可靠追踪跨片段的移动物体。

AI模型 Mirage Microsoft Research 视频生成世界模型潜在空间

推荐理由：视频生成空间记忆新方案

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

07:02

NVIDIA AI@NVIDIAAI

NVIDIA 宣布将参加 2026 年在洛杉矶举办的 SIGGRAPH 大会，展示神经渲染、世界模型、物理 AI 等前沿技术，并提供动手实验室。SIGGRAPH 是计算机图形学与交互技术领域的顶级会议，NVIDIA 的参与意味着其最新图形与 AI 研究成果将集中亮相。对于图形开发者、AI 研究者和游戏行业从业者来说，这是了解下一代渲染与仿真技术的重要窗口。

行业 NVIDIA SIGGRAPH 2026 神经渲染物理 AI 世界模型

推荐理由：NVIDIA 把 SIGGRAPH 当作技术风向标，做图形渲染、物理仿真或 AI 模型的团队值得关注，可以提前规划参会或跟进后续发布。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

13:03

arXiv cs.AI@Fabio Rovai

精选

论文发现一个反直觉的失败模式：即使有足够观测和干预数据，强预测器在识别反事实世界之间的耦合时也会崩溃为单点，而真实值是一个数据无法缩小的可接受区间。作者提出将世界模型建模为可接受世界上的正半定耦合核，其对角线是普通后验（预测器能恢复的），非对角线是跨世界耦合（预测器无法恢复的）。该耦合核可以被边界约束、通过逻辑结构收紧、并通过针对性约束学习来缩小差距。论文提供了完整的理论框架，并指出完全重建该核在Sly-Sun阈值以下是可处理的，以上则不可近似。

论文因果推断反事实推理世界模型耦合核不确定性

推荐理由：这篇论文戳破了“数据足够就能预测一切”的常见假设，做因果推断、反事实推理或世界模型研究的开发者会看到理论上的新边界——原来预测器天生缺失跨世界耦合信息，而WorldKernel给出了补全它的数学框架，值得细读。

原文

01:15

Yangyi@Yangyixxxx

作者认为当前AI Agent只是用新技术解决旧问题，缺乏真正的创新。他指出，从2023年到2026年，行业一直在降本增效，但并未产生新的价值场景。真正的变革需要“世界模型”改变内容模态，从而催生全新场景。作者预测世界模型可能在2027年落地，带来颠覆性变化。目前AI应用多为微创新，本质是旧世界套利，而非创造新物种。

行业 Agent 世界模型行业观察创新降本增效

推荐理由：这篇观点戳中了AI行业“降本增效”的痛点，做产品、投资的读者会反思当前Agent的局限性，值得一读。

原文

6月9日

13:11

arXiv cs.LG@Wayne King, Zeyue Xue, Yuxuan Bian, Jie Huang, Haoran Li, Yaowei Li, Yaofeng Su, Yuming Li, Haoyu Wang, Shiyi Zhang, Songchun Zhang, Yuwei Niu, Sihan Xu, Junhao Zhuang, Haoyang Huang, Nan Duan

Echo-Memory 是一项针对动作条件世界模型中记忆机制的受控研究。这类模型根据首帧、文本提示和相机动作序列生成多段视频，但其主要失败点往往是记忆而非局部图像合成：当相机离开再返回时，场景或关键物体可能悄然改变。现有记忆设计难以比较，因为增益与骨干网络、训练、检索和评估差异纠缠不清。Echo-Memory 固定了动作到视频的接口，仅改变历史信息的存储和读取方式，在共享的视频扩散骨干、优化器、相机动作表示、采样器和评估流程下，比较了原始上下文、基于压缩的记忆、不同读取路径的空间摘要以及状态空间循环。研究通过三分支协议（回放质量、域内循环重访和开放域返回探测）评估记忆，发现回放保真度不足以作为记住世界的代理指标。主要结论包括：原始上下文是强大的容量基线，能显著提升开放域返回性能；紧凑性不能替代容量；块状状态空间循环是最强的开放域返回机制。

论文世界模型记忆机制视频生成状态空间模型受控实验

推荐理由：做视频生成或世界模型研究的团队，这篇论文帮你拆解了记忆机制中容量、压缩、读取和循环四个关键维度，看完能直接指导你的模型设计。

原文

13:07

arXiv cs.AI@Jisong Cai, Long Ling, Shiwei Chu, Zhongshan Liu, Jiayue Kang, Zhixuan Liang, Wenjie Xu, Yinan Mao, Weinan Zhang, Xiaokang Yang, Ru Ying, Ran Zheng, Yao Mu

AHA-WAM是一种基于双扩散Transformer（DiT）架构的异步世界-动作模型，用于机器人操控。它通过将世界预测和动作执行解耦到不同时间分辨率，解决了传统模型在近端帧建模上的冗余问题。视频DiT作为低频世界规划器，维护滚动键值记忆并编码长期场景演化；动作DiT作为高频执行器，通过层间联合注意力查询世界上下文。实验在RoboTwin和真实世界任务中达到92.80%和78.3%的成功率，闭环控制频率达24.17 Hz，速度提升4.59倍，且无需机器人数据预训练。

论文机器人操控世界模型扩散Transformer 异步架构 RoboTwin

推荐理由：机器人操控研究者终于有了一个能高效解耦世界建模与动作执行的方案——AHA-WAM在速度和成功率上双赢，做具身智能的团队可以直接参考其异步架构设计。

原文

05:01