近期,Google 围绕其 AI 助手 Gemini 展开了一系列深度集成与功能升级,标志着对话式 AI 正从单点工具向操作系统级协作平台演进。
背景:自 2023 年 Gemini 发布以来,Google 一直在将其注入搜索、邮件、文档等核心产品,但交互方式多为文本触发、被动响应。
- 近期主要进展包括:
- Gemini 3.5 系列及 Omni 多模态模型发布 — 在 Google I/O 2026 上,Google 推出了性能更强的 Gemini 3.5,并展示了拥有视觉、听觉感知能力的 Omni 模型,为更自然的语音交互奠定基础(来源)。
- Workspace 语音协作能力全面升级 — Gmail 支持语音检索邮件、语音起草回复;Google Docs 实现语音笔记整理;整体 AI Inbox 功能可自动分类、摘要邮件,并允许用户通过语音与 AI 对话式协作(来源)。
- Gemini 语音交互扩展至 YouTube 和 Docs — Sundar Pichai 确认,Gemini 的实时语音对话能力将于夏季集成至 YouTube(如视频内容问答)和 Docs(如听写与编辑)(来源)。
- Workspace 设计工具 Pics 与 AI Inbox 上线 — 新增 AI 图像生成与编辑功能;AI Inbox 可自主处理邮件,如生成回复、设置提醒(来源)。
当前焦点主要围绕两点:一是语音交互的准确性与多语言支持——Gemini 是否能在嘈杂环境、多语种混说场景下保持可靠;二是隐私与数据控制——AI 深度介入邮件、文档内容,用户对数据使用的透明度和控制权存在担忧。未来值得观察的是,这些功能是否会从企业订阅向个人用户开放,以及竞争对手(如 OpenAI、微软)是否会加速跟进类似的语音协作模式。