全部 AI 动态 · AI 热点

6月23日

19:03

19:03IT之家（博客/媒体）

网易有道发布Confucius4-TTS，这是业内首个支持14种语言跨语种无口音的开源TTS模型。用户仅需提供3秒音频素材，无需参考文本即可完成零样本语音克隆，克隆音色与原声相似度超85%，准确度达97%。模型采用GPT式语义大模型搭配Flow Matching流匹配生成框架，支持音频Prompt情感克隆迁移，可跨语种保留语调韵律。全量开源（Apache协议），提供54GB完整资源包，商用无限制，适用于多语种内容生成、数字人配音等场景。

AI模型 Confucius4-TTS 网易有道语音克隆开源模型 TTS

推荐理由：网易新开源Confucius4-TTS，3秒克隆你的声音，还能用这个声音说14种外语没口音，全开源随便用，做配音超方便。

6月19日

11:32

11:32

arXiv cs.AI@Harshit Singh, Ayush Pratap Singh, Nityanand Mathur

流匹配TTS在部署后无法纠正专有名词的发音错误。FlowEdit通过潜在条件编辑而非权重更新来实现终身适应，并用现代Hopfield网络存储纠正。在涵盖18个语系、312个多语言专有名词的基准上，FlowEdit将目标词音素错误率相对降低92.7%，且通用语音质量不变。每次纠正仅需约15秒（单GPU）。

论文 FlowEdit TTS Hopfield Network 发音适应多语言专有名词

推荐理由：想给TTS模型随时纠正陌生名词发音？FlowEdit用Hopfield网络存记忆，错误率直降92.7%，不用重训练。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

13:10

13:10

Guillaume Lample (Mistral)@GuillaumeLample

精选73°

Guillaume Lample 宣布推出首个语音模型 Voxtral TTS，该模型在性能上达到业界领先水平，同时大幅降低成本和延迟。它采用新架构，结合自回归生成语义语音令牌与流匹配生成声学令牌。团队还发布了技术报告，详细分享了训练方法和洞察。这标志着语音 AI 领域的重要进展，未来将有更多音频相关成果。

AI模型语音模型 TTS 低成本低延迟 Voxtral

推荐理由：Voxtral TTS 在成本和延迟上显著优于现有方案，做语音合成或实时语音应用的开发者可以直接关注，技术报告也值得细读。

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

10:41

10:41

Ate-a-Pi@svpino

一家顶尖语音AI提供商宣布将其TTS、STT和LLM的API价格全线降低50%。更吸引人的是，随着用户规模扩大，价格还会进一步下降。这一举措有望推动整个行业降价，对依赖语音AI的开发者来说是个好消息。

AI产品语音AI API降价 TTS STT LLM

推荐理由：语音AI成本直接减半，做语音应用或客服系统的团队现在可以大幅降低运营成本，建议立即评估是否切换或升级服务。

6月3日

10:25

10:25

arXiv cs.AI@Máté Gedeon, Péter Mihajlik

低资源语言和垂直领域的对话式语音识别受限于多说话人训练数据稀缺。研究者提出一种数据增强流水线：先由LLM生成带参与者元数据的场景级对话，再将说话人属性映射到TTS语音配置，最后组装成说话人感知的合成对话。在匈牙利语BEA-Dialogue基准上，仅用67小时真实对话加636小时合成数据训练的模型，性能超过用2700小时真实语音训练的零样本模型。该方法适用于任何语言，且LLM生成器选择和合成数据组成对效果影响显著。

论文语音识别数据增强低资源语言 TTS LLM

推荐理由：低资源语言ASR团队终于有了可落地的数据增强方案——用LLM+TTS生成对话数据，效果堪比数倍真实数据。做多说话人语音识别的开发者值得一试，尤其适合匈牙利语等小语种场景。

5月26日

15:16

15:16

向阳乔木@vista8

网易有道持续开源其大模型，包括轻量级推理模型子曰-o1和数学模型子曰3，均支持单块消费级GPU运行。基于这些模型，有道已推出龙虾LobsterAI、同传Agent、Thinkflow等AI Agent产品。最新开源了全模态模型和TTS模型，标志着从教育垂直模型向AI Agent基础设施方向拓展。开源生态建设虽难但长期价值高，开发者可在线体验TTS和下载多模态模型。

AI产品网易有道开源/仓库多模态模型 TTS AI Agent

推荐理由：网易有道从教育垂直模型转向AI Agent基建，开源的多模态和TTS模型让做Agent开发的团队可以直接用消费级GPU跑，值得关注其生态进展。

5月21日

12:33

12:33

Together AI@togethercompute

Together AI 宣布在其平台上新增 600 多种声音，并集成了 MiniMax Speech 2.8 Turbo 企业级 TTS 模型。该模型专为实时、富有表现力的语音代理设计，支持 AI 原生开发者在其专用基础设施上部署。用户可以直接在语音查找器中试听这些声音。这一更新显著扩展了 Together AI 的语音能力，为构建语音交互应用提供了更多选择。

AI产品 TTS 语音代理 MiniMax Together AI 企业级模型

推荐理由：做语音代理或实时对话应用的开发者，现在有 600+ 声音可选，且能直接在企业级基础设施上部署 MiniMax 模型，值得试试语音查找器里的新声音。

5月15日

09:25

09:25

berryxia@berryxia

牛津大学博士后、前Meta和Microsoft研究员Kevin Lin发布了开源视频翻译工具Violin。该工具将ASR、LLM翻译和TTS无缝集成，可自动完成语音识别、多语言翻译和自然语音合成。用户可个性化翻译风格，将学术报告转为通俗版本，还能直接与视频聊天提问。Violin支持Web应用、CLI和Agent Skill，完全MIT开源，旨在打破语言壁垒，让高质量内容全球化。

AI产品视频翻译开源/仓库 ASR LLM翻译 TTS

推荐理由：做内容、教育或跨语言传播的团队，这个工具能一键解决视频翻译痛点，还能直接和视频对话，建议立刻装起来试试。

07:06

07:06

Together AI@togethercompute

Together AI 宣布在其平台上推出 Rime Mist v3，这是一系列面向生产环境的文本转语音（TTS）模型。该模型专注于确定性发音和可控语音输出，解决了语音合成中常见的不一致问题。AI 原生开发者现在可以在 Together AI 的专用基础设施上部署 Mist v3，用于需要大规模一致语音输出的企业级语音代理。这为构建可靠、可定制的语音交互系统提供了新的选择。

AI产品文本转语音 TTS 语音代理 Together AI Rime Mist v3

推荐理由：做语音代理和 TTS 应用的团队终于有了一个能保证发音一致性的生产级模型，直接在 Together AI 上就能部署，省去自己调教的麻烦，值得试试。

5月13日

03:42

03:42

Together AI@togethercompute

Together AI发布了Voice Finder工具，支持搜索、筛选和试听超过600种语音，覆盖主流TTS模型。用户可以通过描述需求或上传音频样本来快速找到适合应用的声音，显著提升AI语音应用的开发效率。该工具旨在帮助AI开发者更高效地集成语音功能，减少手动筛选的时间成本，推动语音交互应用的普及。

AI产品语音合成 TTS 模型搜索 Together AI

推荐理由：该工具简化了语音选择流程，对开发者构建语音应用有直接帮助，尤其适用于需要多选项测试的场景。