mlx-audio v0.4.4 发布：15 个新模型，Apple Silicon 上最强音频版

精选理由

Apple Silicon 用户终于有了一个本地化的音频处理利器，15 个新模型覆盖 TTS/ASR/VAD，做语音应用或音频工具的开发者可以直接安装测试，尤其关注中文支持效果。

AI 摘要

mlx-audio v0.4.4 发布，这是其功能最强大的版本，新增了 15 个 TTS、ASR 和 VAD 模型。新模型包括 VoxCPM2、Mega-ASR、Nemotron 3.5 ASR 等，支持 30 种语言、实时语音识别和长文本转录加速。服务器端新增 OpenAI 兼容格式和逐词时间戳功能，所有技术均运行在 Apple Silicon 上。该版本显著提升了 Apple 设备上的音频处理能力，适合开发者集成到本地应用中。

AI 翻译 · 中文

berryxia🚀 mlx-audio v0.4.4 已发布——这是我们迄今为止推出的功能最强大的版本。新增了 15 个 TTS（文本转语音）、ASR（自动语音识别）及 VAD（语音活动检测）模型，提升了长文本内容转录的速度，并改进了与 OpenAI 兼容的音频服务器功能。所有这些技术都运行在 Apple Silicon 平台上。 🎤 新增的 TTS 语音引擎： • VoxCPM2（支持 2B 语言库、48kHz 音频格式、30 种语…

Mustafa Suleyman06-04 18:54原文
lmarena.ai06-04 23:30原文
@OpenAIDevs06-04 18:16原文
Greg Brockman06-04 18:51原文
宝玉06-04 19:24原文
Sam Altman06-04 22:17原文
IT之家06-04 23:07原文
Lenny Rachitsky06-04 23:17原文
shao__meng06-05 00:17原文
rohanpaul_ai06-05 02:46原文

查看原推