开源语音模型 Audio Interaction 每 0.4 秒决定是否说话

精选理由

这款模型解决了实时语音交互中“等待录音结束”的痛点，做语音助手或实时翻译的开发者可以直接在 GitHub 上试玩，体验每 0.4 秒的决策能力。

AI 摘要

一款名为 Audio Interaction 的新型开源语音模型发布，它能够持续监听音频流，并每 0.4 秒决定是否说话或保持沉默，无需等待录音结束。该模型支持翻译、转录、聊天以及识别日常噪音（如咳嗽），实现了真正的实时交互。与 GPT-4o 或 Qwen3.5-Omni 不同，它在一个流中处理所有任务。代码、模型权重和下载说明已在 GitHub 上以 Apache 2.0 开源许可证发布，训练数据也将随后提供。

AI 翻译 · 中文

DecoderUnlike GPT-4o or Qwen3.5-Omni, Audio Interaction doesn't wait for a recording to end: it translates, transcribes, chats, and picks up everyday noises like coughing in a single stream. Code, model weights, and download in…

阅读原文