4步出声,单卡0.24秒,Noiz AI联合港科大清华开源音频生成大模型

4步出声,单卡0.24秒!Noiz AI联合港科大清华,开源音频生成大模型

精选理由

噪点AI和港科大、清华联手做了一个音频模型,4步生成只要0.24秒,比同类快很多,还开源了,想玩音频AI的可以试试。

AI 摘要

Noiz AI联合香港科技大学和清华大学开源了一款音频生成大模型。该模型仅需4步推理即可生成高质量音频,在单张GPU上推理速度达到0.24秒。其高效架构显著降低了音频生成的计算门槛。开源代码和模型权重已在GitHub发布,支持多种音频生成任务。

图片来源 · 量子位
AI 翻译 · 中文

Noiz AI联合香港科技大学和清华大学开源了一款音频生成大模型。该模型仅需4步推理即可生成高质量音频,在单张GPU上推理速度达到0.24秒。其高效架构显著降低了音频生成的计算门槛。开源代码和模型权重已在GitHub发布,支持多种音频生成任务。

量子位还能听懂时间戳