全部 AI 动态 · AI 热点

6月25日

11:08

arXiv cs.AI@Dong Jing, Tianqi Zhang, Jiaqi Liu, Jinman Zhao, Zelong Sun, Li Erran Li, Zhiwu Lu, Mingyu Ding

本文提出在两阶段框架中预训练动作模块，在VLA训练前注入运动先验。阶段1使用基于流匹配的轻量级编解码器，仅从无条件动作轨迹学习跨实体时间运动结构，无需处理视觉或语言token。阶段2通过解码器重用和早期潜在蒸馏，将学习到的先验迁移至VLA训练，同时保留端到端优化。在13个仿真和真实世界的跨实体任务中，该方法比无先验的VLA训练收敛更快、成功率更高，尤其数据稀缺时表现更优。扩展阶段1的动作数据能提升下游VLA性能的泛化性。

论文 Cross-embodiment VLA模型机器人操作动作先验流匹配

推荐理由：这篇论文教VLA模型在正式训练前先学动作规律，用的是流匹配，13个任务上效果比直接训练好，数据少时尤其明显。

原文

6月18日

10:58

arXiv cs.AI@Michael Finkelson, Daniel Segal, Eitan Richardson, Shahar Armon, Nani Goldring, Poriya Panet, Nir Zabari, Benjamin Brazowski, Or Patashnik, Yoav HaCohen

ScenA方法利用预训练的文本到音频流匹配基础模型，直接通过多个参考语音和自然语言提示生成整个音频场景。它继承了野外数据中自然的背景噪声、重叠对话等特性，无需逐句结构。但存在“参考捷径”问题：模型可仅凭声学相似性识别参考语音而忽略文本提示。通过高噪声偏差的时间步分布强制模型依赖文本提示。在CoVoMix2-Dialogue基准上，ScenA在说话人绑定指标上优于现有系统，并生成带重叠语音、情感发声和环境音的丰富对话音频。

AI模型 ScenA CoVoMix2-Dialogue 流匹配多说话人音频场景生成

推荐理由：ScenA这个新方法能用参考语音和自然描述直接生成多人对话场景，比现有系统更自然，还带背景噪音和重叠说话。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

09:22

arXiv cs.AI@Jianming Ma, Qiyue Yang, Yang Zhang, Liyun Yan, Zhanxiang Cao, Yazhou Zhang, Yue Gao

PolyFlow 提出了一种新的约束流匹配框架，专门解决在安全关键物理系统中部署生成模型时的约束问题。传统方法通过事后修正来保证安全性，但计算开销大且可能扭曲数据分布。PolyFlow 将约束直接嵌入模型和流动力学中，采用离散时间流公式和无投影架构，无需昂贵的迭代求解器即可严格满足任意多面体约束。实验表明，PolyFlow 在规划和控制任务中实现零约束违规，同时保持高分布保真度，推理延迟显著低于现有方法。代码已开源，适合需要安全生成的应用场景。

论文约束生成流匹配安全关键系统无投影更新开源/仓库

推荐理由：做安全关键系统（如机器人规划、控制）的团队终于有了一个既能严格满足约束又不牺牲生成质量的方案，PolyFlow 的零违规和低延迟特性值得直接试试。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

10:03

arXiv cs.LG@Dmitrii Gavrilev

PianoKontext 是一种基于流匹配的古典钢琴音乐表现力渲染模型，能从无表情的 MIDI 乐谱生成时长可变、富有情感和节奏变化的演奏。它利用预训练的 Music2Latent 模型在潜在空间中操作，并通过动态时间规整（DTW）对齐乐谱与演奏数据，使 DiT 模块能有效学习两者间的依赖关系。该方法解决了传统音频编辑模型只能处理同步等长片段的局限，显著提升了对表现性时机的理解。实验表明，PianoKontext 能生成自然、富有表现力的钢琴演奏，音频示例已在项目页面公开。

论文表现力渲染流匹配 Music2Latent 动态时间规整古典钢琴

推荐理由：做音乐 AI 生成或钢琴演奏合成的开发者，终于有了一个能直接处理时长可变、表现力丰富的渲染方案——PianoKontext 用流匹配+潜在空间对齐解决了乐谱到演奏的时序难题，值得在古典钢琴数据集上试试。

原文

6月9日

11:57

arXiv cs.AI@Boshu Lei, Kostas Daniilidis, Antonio Loquercio

精选

本文提出 RLDT（Reinforcement Learning with Density Transport），一种在线强化学习算法，用于微调连续控制问题中的流匹配策略。核心思想是将策略改进视为动作密度向高奖励区域的传输，与流匹配模型的传输公式自然对齐。RLDT 使用 Stein 变分梯度下降（SVGD）从最大熵 RL 目标构建传输场，然后微调预训练的流匹配策略以对齐该场。通过预期目标估计近似中间去噪步骤的动作，避免了不稳定的反向传播。实验表明，RLDT 在奖励质量和收敛速度上优于基线，适用于密集/稀疏奖励及基于状态/视觉的长期机器人操作任务。

论文强化学习流匹配密度传输连续控制机器人操作

推荐理由：RLDT 解决了流匹配策略在强化学习中难以微调的痛点，做连续控制或机器人操作的团队可以直接参考其密度传输思路，比蒸馏或近似分布的方法更高效。

原文

5月21日

10:22

arXiv cs.LG@Kesong Li, Yixuan Xu, Kuo-kun Tseng, Weiyi Lu, Kan Liu, Tao Lan

精选

Linear-DPO 提出了一种新的直接偏好优化（DPO）方法，解决了现有 DPO 在文本到图像生成中的两大问题：仅适用于扩散模型而忽略流匹配，以及离散 NLP 的 DPO 目标与回归生成任务不匹配。论文通过统一的逆向 SDE 框架推导出覆盖扩散和流匹配的广义 DPO 目标，并从梯度角度指出标准 DPO 目标次优。Linear-DPO 用持续线性效用函数替代激进的 sigmoid 函数，并引入 EMA 更新的参考模型。在扩散模型（SD1.5、SDXL）和流匹配模型（SD3-Medium）上的实验表明，该方法优于现有基线。

论文 DPO 扩散模型流匹配文本到图像生成偏好优化

推荐理由：做文本到图像生成的团队终于有了更稳定的对齐方法——Linear-DPO 统一了扩散和流匹配，解决了 DPO 在生成任务中的目标不匹配问题，做图像生成微调的建议试试。

原文

5月12日

19:10

arXiv cs.AI@Keya Hu, Linlu Qiu, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He

研究者提出ELF（Embedded Language Flows）模型，将连续流匹配应用于语言建模。与现有主要在离散词元上操作的扩散语言模型不同，ELF在连续嵌入空间中运行，仅在最后一步通过共享权重网络映射为离散词元。该方法可简单适配图像扩散领域的成熟技术（如无分类器引导）。实验显示，ELF在生成质量和采样步数上均显著优于当前领先的离散和连续扩散语言模型，为高效连续语言模型提供了新方向。

论文流匹配扩散模型语言建模连续嵌入 ELF

推荐理由：ELF展示了连续扩散模型在语言建模中的有效性，简化了技术迁移路径，可能降低语言生成模型的设计复杂度。其较少的采样步数有利于实际应用效率，值得关注。

原文