omni·general

Omni

别名
首次出现
2026-05-22
最近出现
2026-06-09
累计提及
194
§ 01综述

Google 于 I/O 2025 正式推出 Gemini Omni,这是一个面向多模态交互的 AI 模型,能够接受视频、图像、音频等输入,并生成文本、图像、视频等内容。随后,Gemini Omni 向全球 Plus、Pro 和 Ultra 订阅用户开放,标志着 Google 在多模态 AI 领域迈出关键一步。

  • Gemini Omni 向全球 Plus/Pro/Ultra 订阅用户开放 (Gemini App),同时 Google 修复了 Ultra 用户的配额问题,使 Omni 生成量翻倍 (rohanpaul_ai),提升了用户可及性和体验。
  • 开发者展示了 Omni 的创意应用,例如利用 5 个 Prompt 方法将 Omni 当作视频导演控制分镜 (岚叔),以及从 1896 年老火车视频到子弹头列车的原生多模态视频编辑演示 (Ethan Mollick),突出了其在视频内容生成和编辑上的潜力。
  • Google CEO Sundar Pichai 在 I/O 2025 上阐述了 Omni 的战略意义,将其与 Spark 智能体等工具并列,作为 AI 未来的核心组成部分 (The Rundown AI),同时 Google 还联合艺术家推出了 Pics、Flow Agent 等新工具 (Google AI),丰富了多模态生态。
  • 当前焦点:Gemini Omni 作为“任意输入生成任意内容”的模型,其核心能力在于打破模态壁垒,实现视频到任意格式的转换。但用户也需关注其实际应用的边界,例如视频输入的实时性、生成结果的准确性和创意控制权。未来观察点包括:Omni 在视频剪辑、广告创意、教育等领域的落地案例,以及它能否在性能上超越字节 Seedance 2.1 等竞品(据报道质量提升 20% IT之家),并成为多模态 AI 的主导平台。

    § 02相关报道10 条在档
    1. 01
      Topo-Omni:多模态深度地形模型发现脑区功能选择性
      arXiv cs.LG
    2. 02
      开源语音模型 Audio Interaction 每 0.4 秒决定是否说话
      Decoder
    3. 03
      Ideogram 发布首个开源AI图像模型 4.0,文字渲染和版面控制达开源天花板
      小互
    4. 04
      Google Gemini Omni 可改变视频视角和光照,保持物理和角色一致性
      AI Will
    5. 05
      Gemini Omni 上线数字人功能,三步克隆你的外貌和声音
      berryxia
    6. 06
      PolySpeech-100:覆盖110种语言方言的语音理解基准
      arXiv cs.AI
    7. 07
      Gemini Omni 单提示词实现屏幕到现实视频生成
      Google Gemini App
    8. 08
      Google 修复 Gemini 使用限制 Bug,配额消耗过快问题解决
      Decoder
    9. 09
      Google 修复 Gemini 使用配额问题,Ultra 用户 Omni 生成翻倍
      rohanpaul_ai
    10. 10
      Gemini Omni 向全球 Plus/Pro/Ultra 订阅用户开放
      Google Gemini App
    § 03邻近话题

    本页综述由 AITOP 基于公开报道整理。原报道版权归各自来源所有。

    /topic/Omni