09:15berryxia@berryxia72°Odyssey AI 实验室发布了 Starchild-1,这是全球首个实时多模态世界模型。与以往只能生成画面的世界模型不同,Starchild-1 能同时生成真实世界的声音,实现视觉与听觉的同步融合。视频演示中,画面动态与声音实时匹配,营造出完整的场景模拟。这一突破不仅提升了视频生成的真实感,更被视为向通用世界模型迈出的关键一步,旨在让 AI 真正理解和模拟物理世界。AI模型世界模型多模态实时生成AI模拟Odyssey AI推荐理由:做 AI 模拟、游戏开发或虚拟现实的人会眼前一亮——Starchild-1 让世界模型从“只看”进化到“又看又听”,实时多模态融合直接拉高了物理模拟的真实感,值得关注它的后续开放计划。原文
04:03rohanpaul_ai@rohanpaul_ai83°Odyssey 团队推出 Agora-1,一个多智能体世界模型,解决了世界模型在多人交互场景下的核心瓶颈:保持共享现实的一致性。传统世界模型只能处理单玩家预测,而 Agora-1 支持最多 4 个人类或 AI 智能体同时在模拟世界中实时行动,模型需要追踪碰撞、时序、意图和后果。这意味着世界模型从单玩家预测器转变为共享实时环境,其真实性不再只是视觉保真度,而是当多个智能体从不同方向推动世界时,它能否保持连贯。这是对世界模型能否像游戏引擎一样服务多玩家的首次严肃测试。AI模型世界模型多智能体共享现实模拟引擎Odyssey推荐理由:做多智能体模拟或游戏引擎的开发者,Agora-1 展示了世界模型从单机到联机的关键跃迁——共享现实一致性是下一个必须攻克的难题,值得关注其技术细节。原文
08:13berryxia@berryxiaMeta AI 首席科学家、图灵奖得主 Yann LeCun 最新预测,未来 12 到 18 个月内将出现通用方法来训练分层世界模型。这些模型直接从视频和真实世界数据中学习,能够帮助机器人规划动作、辅助医疗系统决策,并解决更多物理世界中的实际问题。LeCun 认为,最终目标是将其扩展为通用世界模型,这标志着 AI 从“会聊天”走向“会做事”的关键一步。行业Yann LeCun世界模型物理世界机器人AI 预测推荐理由:LeCun 的预测直指当前大语言模型的局限——只会聊天不懂物理世界,做机器人、自动驾驶、医疗决策的团队值得关注这个从“理解语言”到“理解因果”的范式转变。原文
13:22Gary Marcus@GaryMarcus精选Gary Marcus 等学者在皇家学会《哲学汇刊 A》组织了一期关于“世界模型”的特刊,集结了 Michael Levin、David Ha、Melanie Mitchell、Joshua Tenenbaum 等顶尖研究者。特刊聚焦于当前 LLM 的局限,探讨如何通过构建世界模型实现更接近自然智能的 AI,包括因果推理、系统 2 认知和意识等核心问题。文章指出,世界模型可能是让 AI 具备可靠推理和泛化能力的关键,甚至关系到 AI 安全的未来。这一特刊标志着学界开始认真面对“超越 LLM”的硬问题。论文世界模型AGI自然智能因果推理系统2认知推荐理由:世界模型是 AI 从“鹦鹉”走向“真正理解”的关键一步,做 AI 研究或关注 AGI 路径的人,这篇特刊的阵容和问题清单值得细读。原文
01:29berryxia@berryxiaHuggingPapers 推送了一篇重磅综述《World Action Models: The Next Frontier in Embodied AI》,首次系统定义了 WAMs 概念。WAMs 是能同时预测未来世界状态并生成真实可执行动作的具身基础模型,区别于仅处理语言的传统模型。论文梳理了架构设计、数据生态和评估协议,并附有 2024-2026 年发展时间线。这标志着具身智能从“思考”迈向“行动”的关键一步。论文具身智能World Action Models综述机器人世界模型推荐理由:这篇综述系统定义了 WAMs,解决了具身智能从“想”到“做”的落地难题,做机器人、具身 Agent 或世界模型的开发者值得收藏,直接看时间线图就能把握未来方向。原文
23:43Gary Marcus@GaryMarcusGary Marcus转发并重申其多年观点:Yann LeCun指出,当前大语言模型(LLM)缺乏世界模型,无法在行动前预测后果,因此无法构建可靠的智能体系统。LeCun认为,LLM只是“行动,然后后果是别人的问题”,这并非真正的智能。这一观点引发了对当前AI系统局限性的讨论,尤其对智能体开发方向具有重要警示意义。AI模型Yann LeCun世界模型智能体LLM局限Gary Marcus推荐理由:LeCun的批评直指当前LLM智能体的核心缺陷——缺乏因果推理能力,做智能体开发的团队值得认真思考这一根本性挑战。原文
21:55向阳乔木@vista8有观点认为,AI正从被动接受训练的“宠物模式”转向主动探索世界的“幼儿模式”。宠物模式依赖明确指令和边界,而幼儿模式则允许AI自己试错、学习世界运转规律。这种转变意味着AI将具备世界模型和自主改进学习能力,可能成为未来发展的关键方向。该观点引发了对AI自主性和学习方式的讨论。行业AI进化自主改进学习世界模型宠物模式幼儿模式推荐理由:关注AI进化方向的读者值得一看——它用“宠物vs幼儿”的比喻点出了AI从被动到主动的范式转变,做AI研究或产品设计的人会从中获得启发。原文
16:16Paul Couvert@itsPaulAiNvidia 发布了名为 Cosmos 的 2.6B 参数开源世界模型,能够将单张图片、文本提示和轨迹转化为可控的虚拟世界。该模型可在单张 GPU(如 RTX 5090 或 H100)上运行,大幅降低了世界模型的使用门槛。代码和论文已分别发布在 GitHub 和 arXiv 上。该模型适用于具身 AI、机器人研究和仿真等场景,让更多研究者和开发者能够探索世界模型的应用。AI模型世界模型开源/仓库Nvidia具身AI仿真推荐理由:Nvidia 把世界模型的门槛打下来了——2.6B 参数、单 GPU 可跑、开源,做具身 AI 和机器人仿真的团队可以直接拿来用,省去从头训练的麻烦。原文
14:02Yann LeCun@ylecun73°Yann LeCun 在 Unsupervised Learning 播客中与 Jacob Effron 进行了深度对话,分享了他对 LLM 局限性的尖锐观点,以及为何与 Hinton、Bengio 在 LLM 问题上产生重大分歧。他透露了离开 Meta 的原因,并介绍了新公司 AMI 押注世界模型的战略。LeCun 还预测了 2027 年的 AI 发展,并建议博士生不要再专注于 LLM 研究。这场访谈涵盖安全讨论、FAIR 的得失以及突破性研究如何真正发生。行业LLM 局限世界模型Yann LeCunAI 安全播客访谈推荐理由:LeCun 对 LLM 的批判性观点和世界模型路线图,对 AI 研究者、博士生和关注下一代 AI 架构的人极具启发,值得花一小时听完。原文
01:10AK@_akhaliq本文探讨企业系统是否需要学习世界模型来推断动态行为,强调上下文在理解系统变化中的关键作用。作者认为,传统企业系统依赖规则和静态模型,但面对复杂动态环境时,学习世界模型能提升适应性和预测能力。文章通过案例说明,结合上下文信息的世界模型可以更准确地捕捉系统行为模式,从而优化决策和自动化流程。这一观点对AI在企业应用中的落地具有重要参考价值。论文世界模型企业系统上下文推断动态系统AI应用推荐理由:企业系统正从规则驱动转向智能决策,学习世界模型是提升系统动态适应性的关键。做企业级AI应用或系统架构的开发者,值得关注这一前沿思路。原文