18:38Together AI@togethercomputeDecagonAI 通过与 Together AI 合作,将语音代理每轮对话成本降低近6倍,同时保持实时语音所需的低延迟。他们从闭源模型迁移到微调的开源模型,实现 p95 模型延迟低于400ms。采用自定义投机解码和提示缓存技术,并在 NVIDIA Blackwell 上优化服务部署。模型更新频率达到每周甚至每日,体现了从封闭 API 到开放模型的转变。行业DecagonAITogether AINVIDIA Blackwell语音代理开源模型6 个信源在谈推荐理由:DecagonAI 把语音成本砍到原来的1/6,延迟还压到400ms以下,实时语音项目可以参考他们迁移开源模型的做法。原文