近期,“Live”关键词在AI领域频繁出现,主要指向实时语音交互、多模态智能体及开源生态的演进。背景方面,随着大模型能力提升,AI从离线处理转向实时、多轮对话已成为趋势。
- 主要进展包括:
- 苹果CVPR论文预热WWDC26,展示14篇AI论文,其中可能涉及实时交互技术。尽管细节未披露,但暗示苹果将加强AI在设备上的实时能力,为未来Live功能铺路。(苹果CVPR展示)
- 阿里云推出Qwen Live,强调真正的AI智能体与开源优势。Qwen Live旨在实现端到端的AI原生交互,通过语音、图文等多模态方式提供实时服务,标志着中国厂商在Live领域的布局。(Qwen Live探讨) (Qwen Live:通往AI原生之路)
- Garry Tan利用Gemini Live打造开源语音智能体GBrain v0.40.0,进一步推动实时语音智能体的开源化。该项目结合谷歌的Gemini Live模型,展示了第三方开发者如何利用现有API构建私有语音助手,降低了开发门槛。(GBrain v0.40.0)
- 谷歌大幅升级Workspace和桌面应用,将Gemini Live语音交互扩展到YouTube、Docs等,并计划今夏上线。此外,Google I/O 2026透露Gemini 3.5系列和Omni多模态模型,进一步强化实时理解与生成能力。(谷歌升级Workspace) (Gemini语音交互扩展) (Google I/O 2026)
- NVIDIA举办DGX Spark Live NYC Hack赛,展示了利用实时AI构建3D纽约建筑时间机器的应用,体现Live技术在创意编程中的潜力。(DGX Spark Live)
当前焦点在于:跨平台实时语音交互的普及(如谷歌Workspace)、开源智能体的涌现(如GBrain、Qwen Live),以及多模态融合的实时能力。未来观察点包括:主流操作系统(iOS、Android、桌面)如何整合Live功能,以及开源社区能否推动更轻量、私有的实时AI应用落地。