全部 AI 动态 · AI 热点

6月24日

09:45

09:45IT之家（博客/媒体）

71°

火山引擎发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0），首次支持将文本、音频等多模态输入端到端生成目标音频。该模型能在长时生成中保持多角色音色一致性，减少后期修音工作。单条Prompt可编排角色对白、情绪语气、背景音乐等，直接产出完整音频作品。火山方舟已开启API邀测，个人用户可体验30分钟创作额度。

AI模型豆包音频生成模型1.0 火山引擎音频生成多模态音色一致性

推荐理由：火山引擎新模型能一次编排对白、音效、配乐，还能保持10分钟的角色音色一致，省掉后期对轨修音，音频创作者值得一试。

6月23日

15:02

15:02

orange.ai@oran_ge

ListenHub 创始人宣布即将接入字节跳动的 Seed Audio 模型。该模型能够用声音智能创造有趣且有用的内容。团队在去年创建 ListenHub 时就期待这样的能力。接入后用户可在 ListenHub 上获得全新的音频内容制作体验。官网 listenhub.ai 已发布上线信息。

AI产品 Seed Audio ListenHub 音频生成智能音频字节跳动

推荐理由：做音频内容的朋友注意了，ListenHub 要接入字节的 Seed Audio 了，以后做播客、配音这些会方便很多。

14:48

14:48

orange.ai@oran_ge

豆包音频生成模型 Seed Audio 1.0 发布，可根据想象生成人声、音乐、音效和环境音。与传统的 TTS（仅文本转语音）不同，它能捕捉声音中的微妙细节。这是首次将智能赋予声音的模型，类似图像领域的 Seedance 时刻。

AI产品豆包 Seed Audio 1.0 音频生成多模态声音模型

推荐理由：豆包发了 Seed Audio 1.0，不光能念稿，还能生成音乐和音效，像声音版的 DALL·E，值得听听。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月15日

16:13

16:13

量子位@思邈

Noiz AI联合香港科技大学和清华大学开源了一款音频生成大模型。该模型仅需4步推理即可生成高质量音频，在单张GPU上推理速度达到0.24秒。其高效架构显著降低了音频生成的计算门槛。开源代码和模型权重已在GitHub发布，支持多种音频生成任务。

AI模型音频生成开源模型 Noiz AI 快速推理

推荐理由：噪点AI和港科大、清华联手做了一个音频模型，4步生成只要0.24秒，比同类快很多，还开源了，想玩音频AI的可以试试。

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月27日

06:32

06:32

marktechpost@Asif Razzaq

76°

Stability AI 发布了 Stable Audio 3，一个用于乐器音乐和音效生成的潜在扩散模型家族。该版本包含小型和中等变体的开源权重。小型模型可在 MacBook Pro M4 CPU 上运行，中等模型适配 8GB VRAM 的消费级 GPU。两者均通过三阶段训练流程（流匹配、蒸馏预热、对抗后训练）生成 44.1 kHz 立体声音频。在 BBC 音效基准测试中，SA3 中等模型在 5 秒片段上取得 FAD 0.369 的分数，低于论文中评估的所有开源基线。

AI模型 Stable Audio 3 音频生成潜在扩散模型开源权重 Stability AI

推荐理由：Stable Audio 3 让音频生成门槛大幅降低——小型模型在普通笔记本上就能跑，做游戏音效、短视频配乐的创作者可以直接上手试试。

5月21日

13:27

13:27

Stability AI@StabilityAI

Stability AI 推出了 Stable Audio 3.0，这是一个开源权重模型系列，专为艺术实验设计。新版本支持最长六分钟的变长音频生成，并能在便携设备上完成完整歌曲创作，无需 GPU。模型基于完全许可的数据集训练，用户可商用输出，年收入不超过 100 万美元。首次支持 LoRa 训练，允许用户用自己的音频库定制模型。Stability AI 邀请开发者参与实验，认为最佳创新仍在等待被构建。

AI模型 Stable Audio 3.0 开源/仓库音频生成 LoRa训练 Stability AI

推荐理由：音乐创作者和 AI 音频开发者终于有了一个可商用、可定制的开源音频模型——Stable Audio 3.0 支持六分钟生成和 LoRa 微调，做音乐生成或声音设计的团队可以直接上手实验。

5月20日

23:47

23:47IT之家（博客/媒体）

76°

Stability AI 发布全新音频生成模型家族 Stability Audio 3.0，包含四款不同参数规模的模型，其中大型版可生成长达 6 分 20 秒的完整乐曲，相比 2.0 版翻倍。小型模型专注于设备端运行，可本地生成两分钟以内的声音与音乐。Stability AI 已将小型 SFX、小型及中型模型开源，大型模型仅通过 API 和付费托管服务提供。该公司已与华纳音乐集团、环球音乐集团达成合作，确保训练数据合法授权，并正为专业音乐人打造新产品线。

AI产品音频生成开源/仓库 Stability AI 音乐创作模型

推荐理由：音乐创作者和音频开发者终于有了能生成完整歌曲的开源模型——Stability Audio 3.0 的中型版已开源，长度翻倍且结构可控，做音乐生成或音频工具的建议直接下载试试。

5月15日

12:58

12:58IT之家（博客/媒体）

AI 音乐生成应用 Suno 正式登陆苹果 CarPlay，用户可在驾驶时播放自己通过文字提示生成的曲目。CarPlay 界面分为资料库和探索区，方便管理个人创作和发现他人作品。同时上线的还有聚合传统电台和播客的 Zeno Radio。这标志着 AI 生成内容开始融入车载场景，为驾驶者提供更个性化的音频体验。

AI产品 Suno AI 音乐 CarPlay 车载应用音频生成

推荐理由：Suno 让 AI 音乐创作进入驾车场景，喜欢在车里听歌或想尝试 AI 音乐生成的车主可以直接在 CarPlay 上体验，不用再依赖手机操作。