火山引擎发布豆包音频生成模型1.0，支持多模态参考与长时一致性

精选理由

火山引擎新模型能一次编排对白、音效、配乐，还能保持10分钟的角色音色一致，省掉后期对轨修音，音频创作者值得一试。

AI 摘要

火山引擎发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0），首次支持将文本、音频等多模态输入端到端生成目标音频。该模型能在长时生成中保持多角色音色一致性，减少后期修音工作。单条Prompt可编排角色对白、情绪语气、背景音乐等，直接产出完整音频作品。火山方舟已开启API邀测，个人用户可体验30分钟创作额度。

AI 翻译 · 中文

IT之家IT之家 6 月 24 日消息，昨天火山引擎正式发布了豆包音频生成模型 1.0（Doubao-Seed-Audio 1.0），首次支持参考生成：把文本、音频任一模态作为输入，可以端到端生成目标音频。并且，它能在长时生成场景中保持多角色音色的一致性，大幅减少后期修音工作。借由豆包音频生成模型 1.0，还可以在单条 Prompt 中编排角色对白、情绪语气、背景音乐、环境氛围等，直接产出具备叙事张力的完整音频作品，改变了过往人声、音效、音乐…

orange.ai06-23 05:05原文
pandaily06-25 08:21原文
歸藏(guizang.ai)06-23 14:15原文
向阳乔木06-23 03:39原文
shao__meng06-23 03:45原文

阅读原文