4步出声，单卡0.24秒，Noiz AI联合港科大清华开源音频生成大模型

精选理由

噪点AI和港科大、清华联手做了一个音频模型，4步生成只要0.24秒，比同类快很多，还开源了，想玩音频AI的可以试试。

AI 摘要

Noiz AI联合香港科技大学和清华大学开源了一款音频生成大模型。该模型仅需4步推理即可生成高质量音频，在单张GPU上推理速度达到0.24秒。其高效架构显著降低了音频生成的计算门槛。开源代码和模型权重已在GitHub发布，支持多种音频生成任务。

图片来源 · 量子位

AI 翻译 · 中文

量子位还能听懂时间戳