火山引擎发布豆包音频生成模型1.0,支持多模态参考与长时一致性

火山引擎发布豆包音频生成模型 1.0,支持多模态参考生成与长时音色一致性

精选理由

火山引擎新模型能一次编排对白、音效、配乐,还能保持10分钟的角色音色一致,省掉后期对轨修音,音频创作者值得一试。

AI 摘要

火山引擎发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),首次支持将文本、音频等多模态输入端到端生成目标音频。该模型能在长时生成中保持多角色音色一致性,减少后期修音工作。单条Prompt可编排角色对白、情绪语气、背景音乐等,直接产出完整音频作品。火山方舟已开启API邀测,个人用户可体验30分钟创作额度。

AI 翻译 · 中文

火山引擎发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),首次支持将文本、音频等多模态输入端到端生成目标音频。该模型能在长时生成中保持多角色音色一致性,减少后期修音工作。单条Prompt可编排角色对白、情绪语气、背景音乐等,直接产出完整音频作品。火山方舟已开启API邀测,个人用户可体验30分钟创作额度。

IT之家IT之家 6 月 24 日消息,昨天火山引擎正式发布了豆包音频生成模型 1.0(Doubao-Seed-Audio 1.0),首次支持参考生成:把文本、音频任一模态作为输入,可以端到端生成目标音频。并且,它能在长时生成场景中保持多角色音色的一致性,大幅减少后期修音工作。 借由豆包音频生成模型 1.0,还可以在单条 Prompt 中编排角色对白、情绪语气、背景音乐、环境氛围等,直接产出具备叙事张力的完整音频作品,改变了过往人声、音效、音乐