全部 AI 动态 · AI 热点

6月29日

17:55

17:55

Yangyi@Yangyixxxx

用户认为FunASR模型在大部分场景下可用，精度偶尔不足。建议套用LLM进行修复，可解决绝大多数问题。其被评价为中国版Whisper中性价比最高的方案。

AI模型 FunASR ASR 语音识别 LLM 开源模型

推荐理由：有实测用户说FunASR比Whisper更值，精度不够时加个LLM就能补上，做中文语音识别可以试试。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月15日

11:12

11:12

arXiv cs.AI@Ravi Ranjan, Utkarsh Grover, Xiaomin Lin, Agoritsa Polyzou

Transformer ASR模型如Whisper预测难解释。LEAF-X框架结合熵引导注意力加权、多层注意力展开和因果消融，定位低熵高影响头与层，生成稀疏token-帧归因。相比扰动解释器或原始注意力图，LEAF-X更好反映模型计算，忠诚度提升32%，局部性/稀疏性增强35-39%，归因最稳定。

论文 Whisper LEAF-X 可解释性 Transformer ASR

推荐理由：Whisper解释性更好用了

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

04:32

04:32Hugging Face: Blog（博客/媒体）

ServiceNow AI 发布了一项针对前沿自动语音识别（ASR）模型在代码切换语音上的基准测试。代码切换指说话者在同一句话中混合使用两种语言，这在多语言用户中很常见。测试发现，当前最先进的ASR模型在处理这种混合语言时表现不佳，错误率显著高于单语言场景。该研究强调了构建能理解双语用户的语音代理的挑战，并提供了公开基准供开发者评估和改进模型。这对于开发面向多语言市场的语音助手和客服系统至关重要。

论文语音代理 ASR 代码切换多语言基准测试

推荐理由：做语音助手或客服系统的团队会发现，当前ASR模型在双语用户面前漏洞百出——代码切换场景的错误率远高于单语言，这个基准测试直接暴露了痛点，建议点开看看你的模型能否过关。

6月4日

22:32

22:32Hugging Face: Blog（博客/媒体）

NVIDIA 发布了 Nemotron 3.5 ASR 模型的微调指南，帮助开发者将通用语音识别模型适配到特定语言、专业领域或口音。该模型基于 Whisper 架构优化，支持低资源语言和噪声环境。指南提供了从数据准备、训练配置到部署的完整流程，并强调使用 LoRA 等高效微调方法降低计算成本。这对于需要高精度语音识别的垂直场景（如医疗、金融、客服）尤其有价值。

AI模型语音识别 ASR Nemotron 微调 NVIDIA

推荐理由：NVIDIA 把 ASR 微调的门槛降下来了，做语音应用的团队（尤其是非英语场景或专业领域）可以直接参考这套流程，省去大量试错成本。

6月1日

10:46

10:46

arXiv cs.AI@Máté Gedeon, Piroska Zsófia Barta, Péter Mihajlik, Katalin Mády

精选

匈牙利语对话自动语音识别（ASR）因公开对话式训练数据有限而受限。BEA-Dialogue 语料库虽填补了空白，但其严格的说话人分离划分导致可用数据仅85小时。本文提出扩展版 BEA-Dialogue+，放宽划分标准，保留主要说话人完全分离，将可用数据增至200小时。研究评估了 Whisper 和 FastConformer 模型，发现更大语料库对未微调模型更具挑战性，而基于序列化输出训练（SOT）的微调在词错误率、字符错误率等指标上持续提升。该语料库为匈牙利语对话 ASR 提供了更大且更具挑战性的基准。

论文语音识别匈牙利语对话语料库 ASR Whisper

推荐理由：匈牙利语 ASR 研究者终于有了更大规模的对话数据集——BEA-Dialogue+ 将可用训练数据从85小时扩展到200小时，做低资源语言语音识别的团队可以直接用于模型评估和微调。

5月15日

09:25

09:25

berryxia@berryxia

牛津大学博士后、前Meta和Microsoft研究员Kevin Lin发布了开源视频翻译工具Violin。该工具将ASR、LLM翻译和TTS无缝集成，可自动完成语音识别、多语言翻译和自然语音合成。用户可个性化翻译风格，将学术报告转为通俗版本，还能直接与视频聊天提问。Violin支持Web应用、CLI和Agent Skill，完全MIT开源，旨在打破语言壁垒，让高质量内容全球化。

AI产品视频翻译开源/仓库 ASR LLM翻译 TTS

推荐理由：做内容、教育或跨语言传播的团队，这个工具能一键解决视频翻译痛点，还能直接和视频对话，建议立刻装起来试试。