Together AI 近期动作密集,围绕推理引擎优化、开源系统、多模型支持及语音能力展开多线布局。在推理效率方面,Together AI 详解了其 API 背后的系统层优化,声称相比 Claude Opus 成本降低 76%,并开源了 OSCAR——一种注意力感知的 2-bit KV 缓存量化系统,可在长上下文 LLM 推理中实现 3 倍加速。这直接回应了当前大模型部署中对降低成本和提升长上下文处理能力的迫切需求。
模型生态上,Together AI 快速跟进最新主流模型:上线阿里 Qwen3.7-Max(支持 1M 上下文,专为智能体设计),部署 Gemma-4-31B-it-Pearl 并提供 25% 以上的价格优惠,同时集成 MiniMax Speech 2.8 Turbo 新增 600+ 声音,极大丰富了语音合成选择。此外,还发布了最快的语音转文字模型 NVIDIA Parakeet-TDT 0.6B。
开源与合作方面,Together AI 持续推动开源基础设施:除了 OSCAR 外,还支持 Trajectory Labs 在其 AI Native Cloud 上训练持续学习模型,并发布 Cursor Composer 2.5 等工具更新。
当前焦点在于:Together AI 正通过软硬结合的方式(推理引擎优化 + 开源系统 + 模型一栈式部署)抢占 AI 云服务市场,尤其强调性价比和长上下文场景。未来观察点包括其开源生态吸引力、推理成本能否持续下探,以及语音模型集成后的应用落地情况。