DecagonAI 借助 Together AI 将语音代理成本降低近6倍

精选理由

DecagonAI 把语音成本砍到原来的1/6，延迟还压到400ms以下，实时语音项目可以参考他们迁移开源模型的做法。

AI 摘要

DecagonAI 通过与 Together AI 合作，将语音代理每轮对话成本降低近6倍，同时保持实时语音所需的低延迟。他们从闭源模型迁移到微调的开源模型，实现 p95 模型延迟低于400ms。采用自定义投机解码和提示缓存技术，并在 NVIDIA Blackwell 上优化服务部署。模型更新频率达到每周甚至每日，体现了从封闭 API 到开放模型的转变。

AI 翻译 · 中文

Together AI.@DecagonAI cut voice agent cost per turn nearly 6x with Together AI. They moved from closed models to fine-tuned open models, while keeping latency low enough for real-time voice: → <400ms p95 model latency per turn → c…

vLLM06-18 12:22原文
Gary Marcus06-17 14:07原文
Decoder06-17 18:21原文
pandaily06-19 10:18原文
Nous Research06-19 19:52原文
marktechpost06-19 22:51原文

查看原推