17:17IT之家(博客/媒体)76°小米大模型应用团队开源了 ControlFoley,一个统一的可控视频音效生成框架,解决了视频配音中“按意图控制声音”的难题。该模型支持三类任务:文本引导视频配音、文本控制视频配音(当文本与画面冲突时优先遵循文本)、以及参考音频控制视频配音(保持音色风格同时同步动作)。ControlFoley 采用时空音视频编码器 CAV-MAE-ST 增强音画同步理解,并通过时间-音色解耦策略避免参考音频干扰节奏。在多个基准测试上,ControlFoley 达到开源 SOTA,甚至在某些指标上超越商业闭源系统 Kling-Foley。代码、模型权重、在线 Demo 均已开放。AI模型小米ControlFoley视频音效生成可控生成开源模型推荐理由:做视频创作或音效生成的开发者终于有了可控的配音工具——ControlFoley 让声音按文本或参考音频来,而不是被画面牵着走。建议直接试在线 Demo,看看它如何解决“画面是A但想要B声音”的痛点。原文