00:23AK@_akhaliqPerceptionDLM是一个新提出的多模态扩散语言模型,能够并行地感知图像中的多个区域。该模型结合了扩散模型的生成能力和语言模型的推理能力,支持多区域联合理解。它在一系列视觉定位和区域描述任务上展示了优越性能,但具体基准名称和数值未在原文中提及。AI模型PerceptionDLM多模态扩散语言模型区域感知推荐理由:这是一个新模型,能用多模态扩散语言模型同时理解图片里的多个区域,跟以前的单区域方法不一样。原文
12:10vLLM@vllm_project精选73°GoogleDeepMind 推出了 DiffusionGemma,这是一个基于 Gemma4 架构的 26B 参数扩散语言模型(dLLM),并成为 vLLM 原生支持的首个扩散语言模型。与传统自回归模型逐个生成 token 不同,DiffusionGemma 能并行去噪 256 个 token 的块,在单张 H200(FP8)上以 batch size 1 实现超过 1200 输出 token/秒的吞吐量。该模型通过 vLLM 的 model runner v2 的 ModelState 和现有推测解码路径实现,对调度器和运行器改动极小。FP8 和 NVFP4 检查点已托管在 RedHat AI 中心,由 GoogleDeepMind、RedHat AI 和 NVIDIA AI 团队合作完成。这一进展标志着扩散模型在高效文本生成领域迈出重要一步。AI模型扩散语言模型vLLMGoogleDeepMind并行生成推理加速10 个信源在谈推荐理由:DiffusionGemma 用并行去噪替代逐 token 生成,大幅提升推理速度,做大规模文本生成或实时应用的团队可以直接在 vLLM 中体验,值得关注。原文
01:23berryxia@berryxia精选Duke大学团队提出REPR-ALIGN方法,通过将扩散语言模型(DLM)的隐藏状态对齐到预训练自回归语言模型(AR LM)的表示空间,避免从零训练DLM的高成本。该方法仅修改注意力掩码,不增加适配器或改变架构,在低数据场景下效果显著,训练速度最高提升4倍。论文指出DLM只需学习解码路径,无需重新学习语言表示。相关论文和代码已开源。论文扩散语言模型DLMREPR-ALIGN训练加速Duke大学推荐理由:做扩散模型或生成式AI的团队,终于不用从零训DLM了——对齐预训练AR模型就能省4倍训练成本,低数据场景尤其划算,建议直接看论文和代码。原文