14:36小互@imxiaohu豆包实时语音模型3.0 API 正式上线,支持全双工模式,可同时听和说并随时插话。采用端到端语音进语音出,无需转录,响应更快更自然。模型能精准遵循指令,例如在多人聊天中设定规则后静待话题出现再参与。支持自定义工具调用,可在实时对话中完成预定日历、发邮件、总结文档等任务,向语音 Agent 迈进。AI模型豆包实时语音模型3.0全双工语音Agent工具调用推荐理由:豆包出了3.0语音模型,能同时听说、随时插话,还能在对话里调工具办事情,比传统语音助手强一大截。原文
12:44John Schulman@johnschulman2精选Thinky 团队分享了全双工多模态模型的研究成果,该模型支持实时、自然的交互,同时不牺牲智能水平。创始人 John Schulman 指出,人机协作能力在 AI 领域常被低估,因为其评估难度高于智能或自主性。他们认为未来每个 AI 系统都将以交互模型作为面向用户的外层,持续了解用户意图并保持信息同步。这项技术有望推动 AI 从单向输出转向双向对话式协作。AI模型全双工多模态模型实时交互人机协作Thinky推荐理由:全双工交互解决了 AI 对话中“你说我听”的延迟感,做实时语音/视频助手或协作工具的团队可以直接参考——Thinky 把自然交互和智能水平平衡好了。原文
02:34rohanpaul_ai@rohanpaul_ai78°OpenBMB 发布 MiniCPM-o 4.5,一个 9B 参数的全双工多模态模型,能同时看、听、说。它基于 Omni-Flow 框架,将交互视为连续时间流,打破传统轮询式对话,实现实时感知与响应。该模型在语音生成质量上超越 Qwen3-Omni-30B-A3B,且支持 12GB RAM 边缘部署。这标志着 AI 交互层从“对讲机”模式迈向自然对话的关键一步。AI模型MiniCPM-o 4.5全双工多模态开源/仓库实时交互推荐理由:做多模态 AI 交互的开发者终于有了可部署的全双工开源方案——MiniCPM-o 4.5 把实时语音视频对话从概念变成 9B 模型,值得直接上手试。原文