全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月29日

17:17

17:17IT之家（博客/媒体）

76°

小米大模型应用团队开源了 ControlFoley，一个统一的可控视频音效生成框架，解决了视频配音中“按意图控制声音”的难题。该模型支持三类任务：文本引导视频配音、文本控制视频配音（当文本与画面冲突时优先遵循文本）、以及参考音频控制视频配音（保持音色风格同时同步动作）。ControlFoley 采用时空音视频编码器 CAV-MAE-ST 增强音画同步理解，并通过时间-音色解耦策略避免参考音频干扰节奏。在多个基准测试上，ControlFoley 达到开源 SOTA，甚至在某些指标上超越商业闭源系统 Kling-Foley。代码、模型权重、在线 Demo 均已开放。

AI模型小米 ControlFoley 视频音效生成可控生成开源模型

推荐理由：做视频创作或音效生成的开发者终于有了可控的配音工具——ControlFoley 让声音按文本或参考音频来，而不是被画面牵着走。建议直接试在线 Demo，看看它如何解决“画面是A但想要B声音”的痛点。