MiniCPM-o 4.5 实现全双工实时语音视频交互，9B 开源模型

精选理由

做多模态 AI 交互的开发者终于有了可部署的全双工开源方案——MiniCPM-o 4.5 把实时语音视频对话从概念变成 9B 模型，值得直接上手试。

AI 摘要

OpenBMB 发布 MiniCPM-o 4.5，一个 9B 参数的全双工多模态模型，能同时看、听、说。它基于 Omni-Flow 框架，将交互视为连续时间流，打破传统轮询式对话，实现实时感知与响应。该模型在语音生成质量上超越 Qwen3-Omni-30B-A3B，且支持 12GB RAM 边缘部署。这标志着 AI 交互层从“对讲机”模式迈向自然对话的关键一步。

AI 翻译 · 中文

rohanpaul_aiJust a few days back, Thinking Machines Lab (TML), showcased a way of making AI interaction continuous instead of turn-based, a Full-Duplex Time-aligned micro-turn. It's a preview of the future of a near-realtime AI voic…

查看原推