Google 发布 Gemini Omni：原生多模态视频理解与生成模型

精选理由

做视频创作或 AI 内容生成的团队，终于有了一个能像聊天一样改视频的工具——多轮编辑保持一致性，不用每次重写 prompt，建议直接看官方对比。

AI 摘要

Google 在 I/O 大会上发布了 Gemini Omni，这是一个原生多模态的「理解+生成」模型，主攻视频领域。与 Veo、Sora 等传统视频生成模型不同，Omni 从底层设计为多模态，支持任意组合输入（图、文、视频、音频）产出或编辑视频。其核心差异化能力包括对话式视频编辑（多轮修改保持一致性）、结合世界知识与物理直觉的生成，以及任意参考物组合。Omni 在编辑方式、提示词要求和知识运用上全面超越现有模型，标志着视频生成进入新阶段。

AI 翻译 · 中文

shao__mengGemini Omni 来了！Google 的优势，果然还是在多模态模型吧？！ Gemini 3.0 发布时，最惊艳的就是之前 Claude 和 GPT 都没有的多模态理解能力；Nano Banana 和 Veo 在多模态生成方面也是断档的强（发布时，后来被超越了）现在 Google I/O 发布的 Gemini Omni，又是一个原生多模态的「理解 + 生成」模型，当前主攻视频，可用任意组合输入（图、文、视频、音频）产出或编辑视频。…

查看原推