13:10Guillaume Lample (Mistral)@GuillaumeLample精选73°Guillaume Lample 宣布推出首个语音模型 Voxtral TTS,该模型在性能上达到业界领先水平,同时大幅降低成本和延迟。它采用新架构,结合自回归生成语义语音令牌与流匹配生成声学令牌。团队还发布了技术报告,详细分享了训练方法和洞察。这标志着语音 AI 领域的重要进展,未来将有更多音频相关成果。AI模型语音模型TTS低成本低延迟Voxtral推荐理由:Voxtral TTS 在成本和延迟上显著优于现有方案,做语音合成或实时语音应用的开发者可以直接关注,技术报告也值得细读。原文
00:59berryxia@berryxia精选mlx-audio v0.4.4 发布,这是其功能最强大的版本,新增了 15 个 TTS、ASR 和 VAD 模型。新模型包括 VoxCPM2、Mega-ASR、Nemotron 3.5 ASR 等,支持 30 种语言、实时语音识别和长文本转录加速。服务器端新增 OpenAI 兼容格式和逐词时间戳功能,所有技术均运行在 Apple Silicon 上。该版本显著提升了 Apple 设备上的音频处理能力,适合开发者集成到本地应用中。AI产品mlx-audioTTS/ASRApple Silicon语音模型开源/仓库10 个信源在谈推荐理由:Apple Silicon 用户终于有了一个本地化的音频处理利器,15 个新模型覆盖 TTS/ASR/VAD,做语音应用或音频工具的开发者可以直接安装测试,尤其关注中文支持效果。原文
AITOP5月29日 08:02Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……
06:55marktechpost@Michal Sutter精选上海 AI 实验室 StepFun 于 2026 年 5 月发布 StepAudio 2.5 Realtime,这是一款端到端的实时语音大模型,支持中英文,通过 WebSocket API 连接。该模型在 2026 年 4 月的五项基准测试中均排名第一,包括 80.41 的人类评估分数和 82.18 的副语言理解分数。其特色在于角色扮演特定的 RLHF 训练和副语言理解能力,允许用户自定义角色风格。这标志着语音 AI 在情感和角色模拟方面取得了重要进展。AI模型语音模型角色扮演RLHF副语言理解StepFun推荐理由:做语音交互或角色扮演应用的开发者,终于有了一个能理解语气和情绪的端到端模型,建议直接试 API。原文