全部 AI 动态 · AI 热点

6月19日

11:32

11:32

arXiv cs.AI@Harshit Singh, Ayush Pratap Singh, Nityanand Mathur

流匹配TTS在部署后无法纠正专有名词的发音错误。FlowEdit通过潜在条件编辑而非权重更新来实现终身适应，并用现代Hopfield网络存储纠正。在涵盖18个语系、312个多语言专有名词的基准上，FlowEdit将目标词音素错误率相对降低92.7%，且通用语音质量不变。每次纠正仅需约15秒（单GPU）。

论文 FlowEdit TTS Hopfield Network 发音适应多语言专有名词

推荐理由：想给TTS模型随时纠正陌生名词发音？FlowEdit用Hopfield网络存记忆，错误率直降92.7%，不用重训练。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月3日

10:25

10:25

arXiv cs.AI@Máté Gedeon, Péter Mihajlik

低资源语言和垂直领域的对话式语音识别受限于多说话人训练数据稀缺。研究者提出一种数据增强流水线：先由LLM生成带参与者元数据的场景级对话，再将说话人属性映射到TTS语音配置，最后组装成说话人感知的合成对话。在匈牙利语BEA-Dialogue基准上，仅用67小时真实对话加636小时合成数据训练的模型，性能超过用2700小时真实语音训练的零样本模型。该方法适用于任何语言，且LLM生成器选择和合成数据组成对效果影响显著。

论文语音识别数据增强低资源语言 TTS LLM

推荐理由：低资源语言ASR团队终于有了可落地的数据增强方案——用LLM+TTS生成对话数据，效果堪比数倍真实数据。做多说话人语音识别的开发者值得一试，尤其适合匈牙利语等小语种场景。