Together AI 近期在 AI 推理效率、多模态模型和开源基础设施方面动作密集。其战略核心是通过系统层优化降低大模型部署成本,同时快速集成市场热门模型。
最显著的进展是推理性能的突破。Together AI 开源了 OSCAR,一种注意力感知的 2-bit KV 缓存量化系统,可在不显著降低质量的情况下将长上下文 LLM 推理速度提升 3 倍(Together AI 开源 OSCAR)。其自研推理引擎在 API 调用中实现了比 Claude Opus 低 76% 的成本(Together AI 推理引擎),并详细公布了背后的系统层优化(详解 LLM 推理引擎)。
在多模态与语音领域,Together AI 快速上线了 NVIDIA Parakeet-TDT 0.6B 语音转文字模型,宣称是速度最快的方案(上线 Parakeet-TDT),并新增 600+ 声音、集成 MiniMax Speech 2.8 Turbo(新增声音)。其 STT 模型在语音转写速度榜单上占据前两名(STT 模型榜首)。
生态整合方面,Together AI 积极引入新模型:如 Gemma-4-31B-it-Pearl 以低于 25% 的价格提供推理(Gemma-4 登录);同时支持 Cursor Composer 2.5 等编程工具(Cursor Composer 2.5)。此外,Violin 项目可直接安装为 Claude Code skill,拓展了与 Anthropic 生态的协作(Violin 项目)。
当前焦点在于 Together AI 能否将成本与速度优势转化为持续的开发者粘性,以及 OSCAR 等开源技术是否会成为行业标准。未来需观察其长上下文推理的实用性和多模态模型的竞争力。