MiniCPM-o 4.5 实现全双工实时语音视频交互,9B 开源模型

Just a few days back, Thinking Machines Lab (TML),…

精选理由

做多模态 AI 交互的开发者终于有了可部署的全双工开源方案——MiniCPM-o 4.5 把实时语音视频对话从概念变成 9B 模型,值得直接上手试。

AI 摘要

OpenBMB 发布 MiniCPM-o 4.5,一个 9B 参数的全双工多模态模型,能同时看、听、说。它基于 Omni-Flow 框架,将交互视为连续时间流,打破传统轮询式对话,实现实时感知与响应。该模型在语音生成质量上超越 Qwen3-Omni-30B-A3B,且支持 12GB RAM 边缘部署。这标志着 AI 交互层从“对讲机”模式迈向自然对话的关键一步。

AI 翻译 · 中文

OpenBMB 发布 MiniCPM-o 4.5,一个 9B 参数的全双工多模态模型,能同时看、听、说。它基于 Omni-Flow 框架,将交互视为连续时间流,打破传统轮询式对话,实现实时感知与响应。该模型在语音生成质量上超越 Qwen3-Omni-30B-A3B,且支持 12GB RAM 边缘部署。这标志着 AI 交互层从“对讲机”模式迈向自然对话的关键一步。

rohanpaul_aiJust a few days back, Thinking Machines Lab (TML), showcased a way of making AI interaction continuous instead of turn-based, a Full-Duplex Time-aligned micro-turn. It's a preview of the future of a near-realtime AI voic