Stability AI 在 2026 年 5 月正式推出 Stable Audio 3.0 系列模型,这是其音频生成领域的最新进展。此前该公司主要依赖图像生成模型 Stable Diffusion 系列维持影响力,如今则试图将多模态能力扩展至音频。与上一代相比,Stable Audio 3.0 显著提升了生成长度,支持最高 6 分钟的完整音乐或音效生成,并采用快速潜在扩散模型架构以优化推理效率。模型权重以开源形式发布,允许社区二次开发。
当前焦点在于 Stability AI 能否凭借音频模型的快速迭代扭转财务状况——该公司此前经历过高管动荡和融资压力。Stable Audio 3.0 的开源策略能否吸引开发者生态、形成与闭源音频生成工具(如 ElevenLabs)的差异化竞争,将是下一阶段观察重点。