Stability AI 发布 Stable Audio 3：快速潜在扩散模型家族

精选理由

Stable Audio 3 让音频生成门槛大幅降低——小型模型在普通笔记本上就能跑，做游戏音效、短视频配乐的创作者可以直接上手试试。

AI 摘要

Stability AI 发布了 Stable Audio 3，一个用于乐器音乐和音效生成的潜在扩散模型家族。该版本包含小型和中等变体的开源权重。小型模型可在 MacBook Pro M4 CPU 上运行，中等模型适配 8GB VRAM 的消费级 GPU。两者均通过三阶段训练流程（流匹配、蒸馏预热、对抗后训练）生成 44.1 kHz 立体声音频。在 BBC 音效基准测试中，SA3 中等模型在 5 秒片段上取得 FAD 0.369 的分数，低于论文中评估的所有开源基线。

AI 翻译 · 中文

marktechpostStability AI has released Stable Audio 3, a family of latent diffusion models for instrumental music and sound effects generation. The release includes open weights for the small and medium variants. Small runs on a MacB…

阅读原文