06:16Ate-a-Pi@svpino开发者 Santiago 在构建语音管道时发现,传统方法将音频转为文本后丢失了语气、犹豫、讽刺等关键信息。Modulate AI 的 Velma 模型直接处理原始音频,无需转录,能检测多达 150 种隐形线索,已在《使命召唤》和《GTA Online》中用于实时检测毒性言论。Velma 通过 API 提供,成本比通过 LLM 处理音频低约 10 倍。该模型解决了语音分析中语义与情感分离的痛点,适合需要深度理解语音意图的团队。AI产品语音分析Modulate AIVelma实时检测API推荐理由:做语音分析或实时内容审核的开发者,Velma 直接跳过转录环节,成本低且能捕捉语气情绪,值得一试。原文
19:12arXiv: DeepSeek@Erfan Loweimi, Sofia de la Fuente Garcia, Saturnino Luz精选研究团队利用大语言模型(LLM)从自发语音中零样本预测Ryff心理幸福感(PWB)分数。基于PsyVoiD数据库中111名参与者的几分钟语音录音,评估了12种指令微调LLM(包括Llama-3、Ministral、Mistral、Gemma-2/3、Phi-4、DeepSeek和QwQ-Preview)。与临床心理学和语言学专家合作开发了领域提示词。结果显示,LLM能从语音中提取语义线索,在80%的数据上达到最高0.8的Spearman相关性。研究还通过统计分析解释预测变异性和偏差,并用词云突出驱动预测的语言特征。论文LLM心理幸福感语音分析零样本预测临床心理学推荐理由:这项研究为心理健康评估提供了非侵入式新方法——用几分钟语音就能预测幸福感,做临床心理学或语音分析的团队值得关注,零样本方案降低了部署门槛。原文