精选理由
DecagonAI 把语音成本砍到原来的1/6,延迟还压到400ms以下,实时语音项目可以参考他们迁移开源模型的做法。
DecagonAI 通过与 Together AI 合作,将语音代理每轮对话成本降低近6倍,同时保持实时语音所需的低延迟。他们从闭源模型迁移到微调的开源模型,实现 p95 模型延迟低于400ms。采用自定义投机解码和提示缓存技术,并在 NVIDIA Blackwell 上优化服务部署。模型更新频率达到每周甚至每日,体现了从封闭 API 到开放模型的转变。
AI 翻译 · 中文
DecagonAI 通过与 Together AI 合作,将语音代理每轮对话成本降低近6倍,同时保持实时语音所需的低延迟。他们从闭源模型迁移到微调的开源模型,实现 p95 模型延迟低于400ms。采用自定义投机解码和提示缓存技术,并在 NVIDIA Blackwell 上优化服务部署。模型更新频率达到每周甚至每日,体现了从封闭 API 到开放模型的转变。
.@DecagonAI cut voice agent cost per turn nearly 6x with Together AI. They moved from closed models to fine-tuned open models, while keeping latency low enough for real-time voice: → <400ms p95 model latency per turn → c…