11:12arXiv cs.AI@Ravi Ranjan, Utkarsh Grover, Xiaomin Lin, Agoritsa PolyzouTransformer ASR模型如Whisper预测难解释。LEAF-X框架结合熵引导注意力加权、多层注意力展开和因果消融,定位低熵高影响头与层,生成稀疏token-帧归因。相比扰动解释器或原始注意力图,LEAF-X更好反映模型计算,忠诚度提升32%,局部性/稀疏性增强35-39%,归因最稳定。论文WhisperLEAF-X可解释性TransformerASR推荐理由:Whisper解释性更好用了原文
10:01arXiv: OpenAI@Nikhil Vincent精选CoughSense 是一个利用智能手机录音自动分类五种呼吸系统疾病(健康、COVID-19、哮喘、支气管炎、肺炎)的系统。它基于 OpenAI Whisper 编码器微调,并引入主动帧 QKV 注意力池化(Active-frame QKV attention pooling),解决了 Whisper 30秒输入窗口内短咳嗽信号被静音稀释的问题。系统还通过加权采样、数据增强、平衡混合、对比学习、症状条件化和域自适应等技术,处理了19:1的类别不平衡和跨数据集域偏移。在四个公开数据集共18,301条录音上,CoughSense(Whisper-tiny,8.6M参数)达到82.3%的平衡准确率,双编码器融合版本达到85.4%。主动帧池化是最大的单一贡献模块(提升5.1个点),对任何使用Whisper的短音频任务都有参考价值。论文Whisper呼吸疾病分类咳嗽分析主动帧池化域自适应1 个信源在谈推荐理由:做呼吸疾病音频诊断或短音频分类的团队,可以直接借鉴CoughSense的主动帧池化和域自适应方案,解决Whisper在短信号上的静音稀释痛点。原文
10:46arXiv cs.AI@Máté Gedeon, Piroska Zsófia Barta, Péter Mihajlik, Katalin Mády精选匈牙利语对话自动语音识别(ASR)因公开对话式训练数据有限而受限。BEA-Dialogue 语料库虽填补了空白,但其严格的说话人分离划分导致可用数据仅85小时。本文提出扩展版 BEA-Dialogue+,放宽划分标准,保留主要说话人完全分离,将可用数据增至200小时。研究评估了 Whisper 和 FastConformer 模型,发现更大语料库对未微调模型更具挑战性,而基于序列化输出训练(SOT)的微调在词错误率、字符错误率等指标上持续提升。该语料库为匈牙利语对话 ASR 提供了更大且更具挑战性的基准。论文语音识别匈牙利语对话语料库ASRWhisper推荐理由:匈牙利语 ASR 研究者终于有了更大规模的对话数据集——BEA-Dialogue+ 将可用训练数据从85小时扩展到200小时,做低资源语言语音识别的团队可以直接用于模型评估和微调。原文
18:29Qdrant@qdrant_engine大多数车载媒体系统仍依赖关键词搜索,但驾驶时用户更倾向于用情绪、氛围和意图来寻找音乐。Sarvesh Talele 基于 Qdrant Edge 构建了一个完全本地化的 AI 媒体发现系统,支持语音、文本和情绪查询。该系统利用 Whisper 进行本地语音转录,通过向量嵌入实现语义检索,并使用 Qdrant Edge 在设备端完成向量搜索,无需依赖云端。这一项目展示了向量搜索如何在保护隐私的前提下,为车载场景提供实时、个性化的体验。AI产品语义搜索车载系统Qdrant EdgeWhisper本地AI推荐理由:车载媒体搜索终于从关键词进化到语义理解,做车载系统或本地 AI 应用的开发者可以直接参考这个架构,体验隐私优先的实时搜索。原文
21:04宝玉@dotey精选博主dotey分享了利用AI或Agent制作字幕SRT的经验,强调断句和拼写纠错是关键。英文断句简单,通过标点即可切分;中文断句更复杂,因为Whisper生成的中文语音没有标点,且“word”是多个汉字。需要借助大模型断句加标点,再重新对齐时间戳拆分。对于长访谈,需分块处理,避免切分在句子中间。推荐Mac用户使用WhisperKit,支持单词级时间戳和说话人识别。技巧字幕SRT断句WhisperWhisperKitAI工具推荐理由:做字幕或视频处理的开发者,用AI断句和纠错能大幅提升效率,中文断句的坑和解决方案都讲清楚了,值得实操参考。原文