Modulate AI 的 Velma 模型：直接分析原始音频，捕捉语气与情绪

精选理由

做语音分析或实时内容审核的开发者，Velma 直接跳过转录环节，成本低且能捕捉语气情绪，值得一试。

AI 摘要

开发者 Santiago 在构建语音管道时发现，传统方法将音频转为文本后丢失了语气、犹豫、讽刺等关键信息。Modulate AI 的 Velma 模型直接处理原始音频，无需转录，能检测多达 150 种隐形线索，已在《使命召唤》和《GTA Online》中用于实时检测毒性言论。Velma 通过 API 提供，成本比通过 LLM 处理音频低约 10 倍。该模型解决了语音分析中语义与情感分离的痛点，适合需要深度理解语音意图的团队。

AI 翻译 · 中文

Ate-a-PiI've built two voice pipelines for two different companies. They both look like this: Audio → STT → Clean transcript → NLP → Classify → Act This works, but there's still a problem I can't solve. Every time I convert audi…

查看原推