近期,视频模型领域迎来多项重要进展。一方面,技术边界不断拓展,多家公司推出或更新了视频生成与编辑模型;另一方面,关于“世界模型”的定义引发了学术讨论。
- 主要进展
- 谷歌的 Gemini Omni 视频模型正式放量,该模型支持视频编辑功能,且文字连贯性表现惊人,被业界视为一次技术突破(谷歌 Gemini Omni 视频模型开始放量;谷歌新视频模型演示;Gemini Omni 视频模型炸场)。
- Higgsfield MCP 上线 Manus,支持前沿图像与视频模型,进一步丰富了可用的生成工具生态(Higgsfield MCP 上线 Manus)。
- 李飞飞近日澄清,视频模型、游戏生成和物理引擎是三种不同概念,并非所有视频模型都可称为“世界模型”,这一观点对行业认知进行了重要厘清(李飞飞澄清「世界模型」)。
当前焦点
视频模型的能力正从简单生成向精细化编辑和强语义控制演进,但“世界模型”标签的滥用可能引发过度期待。未来需关注:视频模型在实际应用中是否真能理解物理规律,以及商业化的落地场景。