全部 AI 动态 · AI 热点

6月24日

22:36

小互@imxiaohu

字节跳动推出新 AI 音乐模型 SeedMusic 1.0 Preview，用户输入一句话提示词即可在 2-3 分钟内生成一首完整歌曲。该模型支持古风、流行等风格混合，效果流畅且节奏感强。测试提示词为“来一首古风歌曲，但有现代流行节奏感”，输出结果朗朗上口。

AI模型 SeedMusic 字节跳动音乐生成 AI创作

推荐理由：字节跳动新出的 SeedMusic 1.0 Preview 能一句话生成完整歌曲，2-3分钟出活，古风混流行节奏的效果挺不错。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

12:14

arXiv cs.LG@Yonghyun Kim, Junwon Lee, Haiwen Xia, Yinghao Ma, Junghyun Koo, Koichi Saito, Yuki Mitsufuji, Chris Donahue

TuneJury 是一个面向文本到音乐生成的开放实例级成对奖励模型，基于人类偏好标签（包括竞技场投票、指标对齐偏好、众包成对比较和专家美学评分）训练。它通过简单分数阈值支持数据过滤，在保留测试对和分布外基准上表现良好，并胜过先前的基线。该模型还引入锚定校准方法，以更高的数据效率恢复一致性，并在三种下游应用（推理时最优N采样、DITTO风格潜在优化和专家迭代后训练）中持续提升奖励轴收益。TuneJury 已在 GitHub 发布。

论文 TuneJury 音乐生成多模态偏好对齐奖励模型

推荐理由：如果你在搞音乐生成，想用人类偏好来对齐模型，这个开源的奖励模型 TuneJury 可以让你直接拿来用，还附带了三种应用示例，比重新训一个省事多了。

原文

09:11

ElevenLabs@elevenlabsio

ElevenLabs 推出 Music v2 SDK，开发者可通过文本提示生成音乐，人声、乐器和编曲质量相比 v1 显著提升。新版本支持参考匹配现有音轨，实现风格或结构复制。多语言输出功能增强，支持非英语语言生成更自然的音乐。

AI产品 ElevenLabs Music v2 音乐生成 SDK 多语言

推荐理由：ElevenLabs 的 Music v2 SDK 让开发者直接用文字生成音乐，还能参考现有曲子做匹配，多语言效果也不错，做音视频应用很实用。

原文

01:05

向阳乔木@vista8

Suno音乐生成工具最近上新了几首风格特别的歌曲，包括《Ghostty》《We Flow》《Neon Son》等。这些歌曲通过组合不同风格元素，创造出新的听觉体验。作品展示了Suno在音乐风格融合和创意生成方面的能力。

技巧 Suno AI音乐音乐生成风格融合

推荐理由：Suno又整新活了，这几首风格混搭的歌听着挺新鲜，想试试AI音乐创作可以听听看。

原文

00:57

ElevenLabs@elevenlabsio

71°

ElevenLabs 推出 Music v2，通过 ElevenAPI 供开发者将 AI 音乐生成与编辑嵌入自身产品。新版本在人声、乐器编排和音轨质量上全面升级，支持更多音乐流派及多语言，并实现了此前无法完成的创作功能。API 接口允许实时生成并迭代调整音乐片段。

AI产品 ElevenLabs Music v2 ElevenAPI 音乐生成

推荐理由：ElevenLabs 发了 Music v2，API 直接能集成到你的软件里。人声和编曲比之前好很多，还支持多语种，做音乐工具或游戏音效可以用它。

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

11:19

arXiv cs.LG@Kyuil Lee, Dezhi Yu, Yongkang Huang

该研究系统比较了三种生成模型在巴赫风格钢琴音乐生成上的表现：带注意力的自回归LSTM、潜变量模型（包括循环VAE和向量量化VAE）以及生成对抗网络。实验表明，带注意力的自回归LSTM生成的音乐连贯性最佳；向量量化有助于缓解后验崩溃问题，生成的结构化输出优于传统循环VAE；对抗方法能捕捉局部音高模式，但训练困难且风格泛化不稳定。研究揭示了不同方法在符号音乐生成中的优势与局限。

论文音乐生成自回归模型潜变量模型生成对抗网络巴赫风格

推荐理由：做音乐AI或生成式模型的研究者，这篇论文直接对比了三大主流方法在巴赫风格音乐上的效果，结论清晰，适合作为技术选型参考。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月5日

05:21

Google AI Developers@googleaidevs

Google Magenta 项目发布了 Magenta RealTime 2 (MRT2)，一个开源的实时音乐生成模型。该模型支持通过 MIDI 键盘、实时文本提示甚至手势进行控制，延迟低于 200 毫秒，可在 MacBook 上原生运行。MRT2 提供了开源权重、开源推理引擎以及配套的应用和插件，让用户像演奏乐器一样与 AI 互动创作音乐。这标志着 AI 音乐生成从离线工具向实时交互乐器的重要转变。

AI产品 Google Magenta MRT2 音乐生成开源/仓库实时交互

推荐理由：音乐创作者和 AI 爱好者现在可以像弹奏乐器一样实时与模型互动，延迟低至 200ms，直接上手试试开源权重和插件。

原文

5月27日

10:49

arXiv cs.LG@Yuchen Liang, Ness Shroff, Yingbin Liang

精选

离散扩散模型在文本和符号领域表现优异，但均匀率模型生成样本时通常需要大量步骤。现有加速方法要么需要额外训练，要么混合速度慢。本文提出Gibbs加速离散扩散（GADD），利用具体分数函数结构直接构建Gibbs后验似然，无需额外训练。GADD实现了O(polylog(ε^{-1}))的采样复杂度，是均匀率离散扩散模型的首个此类理论保证。实验表明，GADD在合成数据、零样本文本生成和条件音乐生成中，显著提升了样本质量和计算效率，优于标准基线方法。

论文离散扩散模型 Gibbs校正器采样加速文本生成音乐生成

推荐理由：离散扩散模型加速一直是个难题，GADD用Gibbs校正器实现了理论最优采样复杂度，做生成模型的研究者可以直接参考其方法。

原文

5月22日

08:20

berryxia@berryxia

Stable Audio 3 官方版发布，支持在本地 Mac 电脑上运行音乐生成模型，利用苹果统一内存架构优势。在 M5 Pro 上可实现 59 倍实时速度，LoRA 微调不到 1 小时完成，提供 Sm 和 Medium 两种模式。通过一行命令即可安装 MLX 优化版，让音乐创作不再依赖云端。官方鼓励社区折腾，适合快速出 demo、训练风格或在离线环境下作曲。

AI产品 Stable Audio 3 音乐生成本地部署 Mac MLX

推荐理由：音乐创作者和 AI 爱好者终于能在本地 Mac 上跑音乐模型了，LoRA 微调不到 1 小时，适合快速出 demo 或训练个人风格，建议有 Mac 的开发者直接试。

原文

5月21日

12:49

向阳乔木@vista8

vista8 在 X 上分享了自己的今日待办清单，包括开源 Suno 音乐生成 Skill、研究 MTV 合成、在服务器部署即梦 Docker API、迁移网站首页到 Cloudflare、学习经典 AI 论文，以及回北京途中找钓点测试小物钓鱼竿。这条推文展示了 AI 开发者日常的多任务并行与生活融合，其中开源 Suno Skill 和部署即梦 API 对音乐生成和 AI 应用开发者有直接参考价值。

行业 Suno 音乐生成 Docker Cloudflare 开源

推荐理由：AI 音乐生成和 Docker 部署的开发者可以看看这位同行的开源计划，Suno Skill 开源后能直接复用。

原文

10:22

arXiv cs.LG@Shinnosuke Taksuka, Hideo Mukai

精选

该研究提出 Musical Attention 机制，通过将小节号、调号、拍号和速度等元信息融入注意力计算，解决 Transformer 生成音乐时常见的重复和音符冗余问题。每个音符被表示为音高、小节号、起始时间、时长、力度及三个元信息共八个特征，注意力机制据此调整相关性权重。实验表明，该方法在音乐连贯性、多样性和整体质量上优于 Full Attention 和 Strided Attention，显著减少重复并增强和声一致性。这项工作是 AI 音乐生成领域的重要进展，有助于生成更自然、富有表现力的旋律。

论文音乐生成 Transformer 注意力机制元信息论文

推荐理由：做 AI 音乐生成或音频研究的团队可以关注——这个机制直接解决了 Transformer 生成音乐时“重复啰嗦”的痛点，用元信息让旋律更自然，值得在自家模型上试试。

原文

5月13日

12:33

12:33MiniMax: News（资讯）

精选

MiniMax 发布 Music 2.5+ 版本，新增纯音乐生成能力。该版本在风格多样性上实现突破，支持从古典到电子等多种曲风。用户可直接通过文本描述或旋律参考生成无歌词的纯音乐片段，降低音乐创作门槛。

AI产品 MiniMax Music 2.5+音乐生成纯音乐

推荐理由：MiniMax又把AI音乐升级了，这回能直接做纯音乐

原文

12:33

12:33MiniMax: News（资讯）

精选

MiniMax 推出音乐生成模型 MiniMax Music 2.5 版本。新版本对音乐结构和音质进行了优化。支持更长的音频生成。适用于多种创作场景。

AI模型 MiniMax 音乐生成音频模型

推荐理由：国产音乐模型又升级了

原文

12:33

12:33MiniMax: News（资讯）

精选

MiniMax 发布了 Music 1.5 音乐生成模型，这是该系列的最新版本。新模型在生成质量、时长控制和风格多样性上有所提升。Music 1.5 支持更长的音频创作，并优化了高保真度输出。

AI模型 MiniMax Music 1.5 音乐生成

推荐理由：音乐生成模型更新到1.5版

原文

12:33

12:33MiniMax: News（资讯）

精选

MiniMax推出Music 2.0模型，能生成最长30秒的带人声歌曲。支持中文和英文歌词创作，提供超过10种预设音色和多种音乐风格。用户可自定义歌词、旋律、节奏等参数。模型在歌曲生成基准测试中达到领先水平。

AI模型 MiniMax Music 2.0 MiniMax 音乐生成 AI音乐文生歌曲

推荐理由：能生成带人声的歌曲

原文