精选 AI 资讯 · AI 热点

AITOP

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月8日

17:03

marktechpost@Asif Razzaq

精选

微软 AI 发布了其自研语音转文字模型 MAI-Transcribe-1.5，这是该系列的第二代。该模型支持 43 种语言，在 Artificial Analysis 排行榜上词错误率低至 2.4%，在 FLEURS 基准测试中达到最佳精度。它引入了关键词（实体）偏置功能，可针对特定领域术语提升识别准确率。长音频转录速度提升高达 5 倍，1 小时音频可在 15 秒内完成转录。该模型已在 Azure AI Foundry 中正式可用。

AI模型语音识别微软 MAI-Transcribe-1.5 Azure AI Foundry 多语言

推荐理由：语音转文字场景的开发者终于有了微软官方的强力选项——MAI-Transcribe-1.5 在精度和速度上双双突破，做会议转录、客服质检或多语言内容处理的团队可以直接在 Azure 上试用，省去自建模型的麻烦。

原文

6月3日

10:01

arXiv: OpenAI@Muhammad Ali

精选

巴尔蒂语（Balti）是巴基斯坦吉尔吉特-巴尔蒂斯坦地区的一种藏语方言，此前没有任何公开的自动语音识别（ASR）资源。研究者构建了名为BaltiVoice的16.8小时朗读语音语料库，包含10060条经过验证的本地纳斯塔利克文字发音，数据源自Mozilla Common Voice录音。他们基于OpenAI Whisper-small模型进行微调，在538条验证集上实现了30.07%的词错误率（WER），而零样本基线高达182.18%。该语料库、微调模型及实时转录演示已公开发布在HuggingFace上，为低资源语言的语音技术发展提供了重要基础。

论文语音识别低资源语言 Whisper微调巴尔蒂语开源语料库

推荐理由：这是首个为巴尔蒂语打造的ASR系统，解决了低资源语言语音识别的空白，做多语言语音技术或濒危语言保护的团队可以直接用这个开源模型和语料库。

原文

6月1日

10:46

arXiv cs.AI@Máté Gedeon, Piroska Zsófia Barta, Péter Mihajlik, Katalin Mády

精选

匈牙利语对话自动语音识别（ASR）因公开对话式训练数据有限而受限。BEA-Dialogue 语料库虽填补了空白，但其严格的说话人分离划分导致可用数据仅85小时。本文提出扩展版 BEA-Dialogue+，放宽划分标准，保留主要说话人完全分离，将可用数据增至200小时。研究评估了 Whisper 和 FastConformer 模型，发现更大语料库对未微调模型更具挑战性，而基于序列化输出训练（SOT）的微调在词错误率、字符错误率等指标上持续提升。该语料库为匈牙利语对话 ASR 提供了更大且更具挑战性的基准。

论文语音识别匈牙利语对话语料库 ASR Whisper

推荐理由：匈牙利语 ASR 研究者终于有了更大规模的对话数据集——BEA-Dialogue+ 将可用训练数据从85小时扩展到200小时，做低资源语言语音识别的团队可以直接用于模型评估和微调。

原文

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……

5月22日

11:34

arXiv cs.LG@Berk Hayta, Hannah Laus, Simon Mittermaier, Felix Krahmer

精选

证据深度学习（EDL）通过狄利克雷分布实现单次前向传播的不确定性估计，但其损失函数复杂，难以分析和实现。本文提出一种插件损失（plug-in loss），在狄利克雷均值处评估标准损失（如交叉熵），并证明在温和假设下近似误差随证据增长而衰减。该框架将标准 Softmax 分类器纳入不确定性估计，简化了实现。在 Google Speech Commands 数据集上，该方法在预测准确率和选择性预测性能上与经典 EDL 相当，且更易集成到现有训练流程。这是首次在语音识别任务中通过 EDL 获得覆盖-准确率权衡的实证分析。

论文不确定性估计证据深度学习 Softmax 语音识别简化框架

推荐理由：做不确定性估计的团队终于有了更简单的实现路径——用标准 Softmax 损失就能获得 EDL 效果，语音识别研究者可以直接替换现有训练流程试试。

原文