22:32Hugging Face: Blog(博客/媒体)NVIDIA 发布了 Nemotron 3.5 ASR 模型的微调指南,帮助开发者将通用语音识别模型适配到特定语言、专业领域或口音。该模型基于 Whisper 架构优化,支持低资源语言和噪声环境。指南提供了从数据准备、训练配置到部署的完整流程,并强调使用 LoRA 等高效微调方法降低计算成本。这对于需要高精度语音识别的垂直场景(如医疗、金融、客服)尤其有价值。AI模型语音识别ASRNemotron微调NVIDIA10 个信源在谈推荐理由:NVIDIA 把 ASR 微调的门槛降下来了,做语音应用的团队(尤其是非英语场景或专业领域)可以直接参考这套流程,省去大量试错成本。原文
20:32Hugging Face: Blog(博客/媒体)精选NVIDIA 提出了一种名为 Task-Seeded Synthetic Q&A Generation 的方法,用于为 Nemotron 模型预训练生成高质量的合成问答数据。该方法通过任务种子(task seeds)引导生成多样化的问答对,解决了传统数据生成中覆盖不足和多样性低的问题。实验表明,使用该方法生成的合成数据训练的模型在多个基准测试上表现优异,甚至优于使用真实数据训练的模型。这项技术有望降低对人工标注数据的依赖,加速大语言模型的开发。论文NVIDIANemotron合成数据预训练问答生成10 个信源在谈推荐理由:NVIDIA 用任务种子生成合成数据,解决了预训练数据稀缺和多样性不足的问题,做 NLP 和模型训练的团队可以关注,能显著降低数据标注成本。原文