Google 发布 Gemini Omni:原生多模态视频理解与生成模型

Gemini Omni 来了!Google 的优势,果然还是在多模态模型吧?! Gemini 3.0 发布时,最惊艳的就是之前 Claude 和 GPT 都没有的多模态理解能力;Nano Banan...

精选理由

做视频创作或 AI 内容生成的团队,终于有了一个能像聊天一样改视频的工具——多轮编辑保持一致性,不用每次重写 prompt,建议直接看官方对比。

AI 摘要

Google 在 I/O 大会上发布了 Gemini Omni,这是一个原生多模态的「理解+生成」模型,主攻视频领域。与 Veo、Sora 等传统视频生成模型不同,Omni 从底层设计为多模态,支持任意组合输入(图、文、视频、音频)产出或编辑视频。其核心差异化能力包括对话式视频编辑(多轮修改保持一致性)、结合世界知识与物理直觉的生成,以及任意参考物组合。Omni 在编辑方式、提示词要求和知识运用上全面超越现有模型,标志着视频生成进入新阶段。

AI 翻译 · 中文

Google 在 I/O 大会上发布了 Gemini Omni,这是一个原生多模态的「理解+生成」模型,主攻视频领域。与 Veo、Sora 等传统视频生成模型不同,Omni 从底层设计为多模态,支持任意组合输入(图、文、视频、音频)产出或编辑视频。其核心差异化能力包括对话式视频编辑(多轮修改保持一致性)、结合世界知识与物理直觉的生成,以及任意参考物组合。Omni 在编辑方式、提示词要求和知识运用上全面超越现有模型,标志着视频生成进入新阶段。

shao__mengGemini Omni 来了!Google 的优势,果然还是在多模态模型吧?! Gemini 3.0 发布时,最惊艳的就是之前 Claude 和 GPT 都没有的多模态理解能力;Nano Banana 和 Veo 在多模态生成方面也是断档的强(发布时,后来被超越了) 现在 Google I/O 发布的 Gemini Omni,又是一个原生多模态的「理解 + 生成」模型,当前主攻视频,可用任意组合输入(图、文、视频、音频)产出或编辑视频。