音频生成领域正经历快速迭代,模型能力从短片段向长格式、多风格扩展,同时应用场景向车载等移动场景渗透。
近期最显著的进展来自 Stability AI 发布的 Stable Audio 3.0,这是一系列快速潜在扩散模型,支持生成长达 6 分钟的音频内容,包括专业级歌曲和音效,并开源了权重 (Stability AI Releases Stable Audio 3)。官方同时发布了开源权重版本,进一步降低了技术门槛 (Stability AI 发布 Stable Audio 3.0)。IT 之家详细报道称,该模型能够生成最长 6 分钟的专业级歌曲,音质和应用潜力引发关注 (Stability AI 推出 Stability Audio 3.0)。此外,Suno 作为 AI 音乐生成领域的先行者,已将其服务集成至苹果 CarPlay,使 AI 音乐生成首次进入驾车场景,拓展了用户触达方式 (Suno 上线苹果 CarPlay)。
当前焦点在于:Stable Audio 3.0 的长音频生成能力能否在音乐创作、影视配音等专业场景中落地,以及开源策略如何影响社区创新;而 Suno 与车载系统的结合则预示着音频生成工具正从创作端向消费端延伸。未来值得观察:长音频生成的连贯性与可控性瓶颈、版权与伦理争议,以及移动端或智能座舱中音频生成服务的商业化路径。