近期音频生成领域的焦点集中在扩散模型的长音频生成能力和开源生态建设上。Stability AI 在 2026 年 5 月发布的 Stable Audio 3 系列,通过快速潜在扩散模型实现了专业级音乐或声音的生成和编辑,生成时长可达 6 分钟,并释出开源权重供本地部署。该模型在 Mac 设备上也可以流畅运行,降低了创作门槛。与此同时,联发科天玑星速引擎针对移动手游的音频体验进行优化,暗示音频 AI 正在向终端设备渗透。早先 OpenAI 的 Jukebox 项目已证明神经网络生成含人声音乐的可行性,而 Stable Audio 3 则将此类技术推向更实用、更易用的阶段。当前焦点在于,长时音频生成的质量与可控性是否足以满足专业创作需求,以及开源模型与商业服务之间的平衡点。未来值得观察:生成式音频如何与游戏、短视频、音乐制作等场景深度融合,以及实时交互式音频生成技术的突破。
№audio·general
audio
别名
- 首次出现
- 2026-05-22
- 最近出现
- 2026-06-11
- 累计提及
- 91
§ 01综述
§ 02相关报道10 条在档
- 01Audio Vivid 生态重大进展:鸿蒙版 QQ 音乐 & 酷狗音乐接入菁彩声
- 02mlx-audio v0.4.4 发布:15 个新模型,Apple Silicon 上最强音频版
- 03开源语音模型 Audio Interaction 每 0.4 秒决定是否说话
- 04MOSS-Audio开源模型统一语音、音乐、环境音,登顶Hugging Face
- 05Audio-Interaction:统一流式音频交互的在线大语言模型
- 06PolySpeech-100:覆盖110种语言方言的语音理解基准
- 07Stability AI 发布 Stable Audio 3:快速潜在扩散模型家族
- 08Stable Audio 3 本地跑音乐模型,Mac 用户狂喜
- 09Stability AI 发布 Stable Audio 3.0,开源权重模型支持六分钟音频生成
- 10Stability AI 推出 Stability Audio 3.0,可生成最长 6 分钟专业级歌曲
§ 03邻近话题