精选理由
做多模态 AI 交互的开发者终于有了可部署的全双工开源方案——MiniCPM-o 4.5 把实时语音视频对话从概念变成 9B 模型,值得直接上手试。
OpenBMB 发布 MiniCPM-o 4.5,一个 9B 参数的全双工多模态模型,能同时看、听、说。它基于 Omni-Flow 框架,将交互视为连续时间流,打破传统轮询式对话,实现实时感知与响应。该模型在语音生成质量上超越 Qwen3-Omni-30B-A3B,且支持 12GB RAM 边缘部署。这标志着 AI 交互层从“对讲机”模式迈向自然对话的关键一步。
AI 翻译 · 中文
OpenBMB 发布 MiniCPM-o 4.5,一个 9B 参数的全双工多模态模型,能同时看、听、说。它基于 Omni-Flow 框架,将交互视为连续时间流,打破传统轮询式对话,实现实时感知与响应。该模型在语音生成质量上超越 Qwen3-Omni-30B-A3B,且支持 12GB RAM 边缘部署。这标志着 AI 交互层从“对讲机”模式迈向自然对话的关键一步。
Just a few days back, Thinking Machines Lab (TML), showcased a way of making AI interaction continuous instead of turn-based, a Full-Duplex Time-aligned micro-turn. It's a preview of the future of a near-realtime AI voic…