Omni · AI 话题观测

§ 01综述

Omni 是近期人工智能领域中用来描述“全能型”或“多模态统一”模型与系统的术语，这类系统旨在将文本、图像、语音、视频等多种信息模态的处理能力集成于单一架构，从而实现更自然的交互与更广泛的应用。随着大模型竞争加剧，Omni 方向已成为技术创新的重要前线，各大机构纷纷推出相应的模型、服务与开源工具。

Omni近期进展

Gemini Omni Flash 预览版上线：Google 推出的 Gemini Omni Flash 预览版即将在 AI Studio 中提供，支持 4k 分辨率的图像输入和 60 秒的视频输出，进一步扩展了多模态交互能力。 Gemini Omni Flash预览版即将登陆AI Studio

vLLM-Omni 优化 TTS 模型服务：vLLM 团队详细介绍了 vLLM-Omni 对四种 TTS 模型的服务优化方案，旨在提升实时语音生成的吞吐量与响应速度，推动 Omni 系统的端到端效率。 vLLM-Omni TTS团队详解四种TTS模型服务优化

SGLang-Omni 集成语音克隆模型：SGLang 框架推出了 SGLang-Omni，集成 MOSS-TTS-Local Transformer v1.5 开源语音克隆模型，为开发者提供了更灵活的 Omni 式语音交互组件。 SGLang-Omni 集成 MOSS-TTS-Local Transformer v1.5 开源语音克隆模型

BrainJanus 实现脑视觉语言统一：研究团队发布 BrainJanus 模型，将脑信号、视觉与语言处理统一在单一架构中，支持跨模态的理解与生成，展示了 Omni 在认知科学领域的潜力。 BrainJanus：脑、视觉与语言统一模型用于理解与生成

当前焦点与观察点

Omni 相关研究今年呈现出几个关键趋势：一是多模态统一从单纯的理解向实时交互与生成演进，例如 Gemini Omni Flash 支持长视频输出，京东的 JoyAI-VL-Interaction 实现全栈开源实时视频交互；二是服务优化成为落地重点，vLLM-Omni 和 SGLang-Omni 等工作聚焦于降低推理延迟、提升模型部署效率；三是开源生态加速形成，多个 Omni 工具包（如 M* 统一运行时）实现了最高 12.5 倍的性能提升，降低了开发门槛。同时，部分评论指出当前实时语音 AI 虽能“听见”但缺乏深度“倾听”，暗示 Omni 系统在人机对话的语义理解方面仍需突破。总体而言，Omni 正从概念走向产品，但其在通用性、实时性与成本之间的平衡仍是业界持续关注的焦点。

§ 02相关报道10 条在档

§ 03邻近话题