arXiv cs.LG@Zhonghao Li, Chaoyu Liu, Qian Zhang精选45Di-BiLPS 是一种新型神经网络框架,专门解决在观测数据极度稀疏(低至3%)时偏微分方程(PDE)的正向和逆向问题。它结合了变分自编码器压缩高维输入、潜变量扩散模块处理不确定性,以及对比学习对齐表征,所有操作在紧凑的潜空间中进行,大幅提升推理效率。实验表明,在多个PDE基准上,Di-BiLPS在极稀疏输入下达到最先进性能,同时计算成本显著降低。此外,该框架支持零样本超分辨率,可在连续时空域进行预测。论文PDE求解稀疏观测潜变量模型扩散模型零样本超分辨率推荐理由:PDE求解在稀疏观测场景下一直是个难题,Di-BiLPS用潜空间扩散和对比学习解决了精度和效率的双重瓶颈。做科学计算或物理模拟的开发者,尤其是处理传感器数据稀疏的团队,值得关注这个新范式。
arXiv cs.LG@Zijie Wu, Lixin Xu, Puhua Jiang, Sicong Liu, Chunchao Guo, Xiang Bai精选55R-DMesh 提出了一种解决视频引导3D动画中姿态错位问题的统一框架。传统方法在用户提供的静态网格与参考视频起始帧姿态不匹配时,会导致几何扭曲或动画失败。R-DMesh 通过引入新型 VAE 将输入解耦为条件基础网格、相对运动轨迹和矫正跳跃偏移,并利用 Triflow Attention 机制确保物理一致性和局部刚性。该方法基于 Rectified Flow 的扩散 Transformer 从预训练视频中迁移时空先验,并构建了包含50万动态网格序列的 Video-RDMesh 数据集。实验表明,R-DMesh 有效解决了姿态对齐问题,并支持姿态重定向和整体4D生成等下游应用。论文3D动画姿态对齐扩散模型动态网格视频引导推荐理由:做3D动画和内容生成的团队终于有了解决姿态错位痛点的方案——R-DMesh 能自动矫正网格姿态对齐视频,避免手动调整的繁琐,建议做动态资产制作的开发者点开看看。
arXiv cs.AI@Guohui Zhang, XiaoXiao Ma, Jie Huang, Hang Xu, Hu Yu, Siming Fu, Yuming Li, Zeyue Xue, Lin Song, Haoyang Huang, Nan Duan, Feng Zhao精选65OmniNFT 提出了一种面向联合音视频生成的扩散强化学习框架,解决了多目标强化学习中优势不一致、梯度失衡和信用分配不均三大问题。该方法通过模态级优势路由、层级梯度手术和区域级损失重加权,显著提升了音频和视频的感知质量、跨模态对齐和音视频同步。在 JavisBench 和 VBench 基准测试中,基于 LTX-2 骨干的 OmniNFT 实现了全面性能提升。该工作为多模态生成任务中的强化学习应用提供了新范式。论文扩散模型强化学习多模态生成音视频对齐OmniNFT推荐理由:做多模态生成或音视频联合建模的团队,终于有了一个能同时优化模态内质量和跨模态对齐的 RL 框架,值得关注其方法论对自家任务的迁移潜力。
arXiv cs.LG@Wei Chow, Linfeng Li, Xian Sun, Lingdong Kong, Zefeng Li, Qi Xu, Hang Song, Tian Ye, Xian Wang, Jinbin Bai, Shilin Xu, Xiangtai Li, Junting Pan, Shaoteng Liu, Ran Zhou, Tianshu Yang, Songhua Liu40最近,研究者提出了一种基于掩码生成Transformer(MGT)的图像编辑新方法EditMGT,这是首个MGT编辑框架。与主流的扩散模型不同,MGT的局部化预测机制能天然将修改限制在目标区域,避免编辑结果扩散到其他部分。该方法通过多层注意力合并和区域保持采样实现精准编辑,并构建了包含200万高分辨率样本的数据集CrispEdit-2M。在多个基准测试中,EditMGT在仅96亿参数下实现了领先的图像相似度,编辑速度快了6倍。这表明MGT是扩散模型编辑的有力替代方案。论文图像编辑掩码生成Transformer扩散模型编辑数据集局部编辑推荐理由:这项工作为图像编辑提供了一个全新思路,其局部化编辑特性和显著速度优势可能推动实用编辑工具的开发,值得关注。
arXiv cs.AI@Keya Hu, Linlu Qiu, Yiyang Lu, Hanhong Zhao, Tianhong Li, Yoon Kim, Jacob Andreas, Kaiming He40研究者提出ELF(Embedded Language Flows)模型,将连续流匹配应用于语言建模。与现有主要在离散词元上操作的扩散语言模型不同,ELF在连续嵌入空间中运行,仅在最后一步通过共享权重网络映射为离散词元。该方法可简单适配图像扩散领域的成熟技术(如无分类器引导)。实验显示,ELF在生成质量和采样步数上均显著优于当前领先的离散和连续扩散语言模型,为高效连续语言模型提供了新方向。论文流匹配扩散模型语言建模连续嵌入ELF推荐理由:ELF展示了连续扩散模型在语言建模中的有效性,简化了技术迁移路径,可能降低语言生成模型的设计复杂度。其较少的采样步数有利于实际应用效率,值得关注。
arXiv cs.AI@Md. Sultan Al Rayhan, Maheen Islam35本文提出一种基于自信度引导的扩散增强框架,用于改善低分辨率孟加拉手写复合字符识别。该框架结合类别条件扩散建模与分类器引导,合成高质量手写样本。在U-Net结构中加入Squeeze-and-Excitation残差块提升生成质量,并采用自信度过滤机制保留高一致性样本。在AIBangla数据集上,ResNet50、DenseNet121、VGG16和Vision Transformer均取得一致提升,最佳模型准确率达89.2%,大幅超越此前基准。这表明质量感知的扩散增强能有效提升低资源语种文字识别性能。论文低资源语种手写识别扩散模型数据增强孟加拉语推荐理由:该研究为低资源语种手写识别提供了一种实用的数据增强思路,结合扩散模型与自信度过滤,方法通用且效果显著,对同类任务有参考价值。
arXiv cs.LG(学术论文)55PET-Adapter是一种针对PET图像重建的测试时域自适应框架,用于生成式PET重建模型。该框架仅需在体模数据上预训练,即可适配到不同解剖结构、示踪剂和扫描仪的临床数据集,无需配对真值。它通过逐层低秩解剖条件调制和基于有序子集期望最大化的热启动,将扩散步骤从50步减少到2步,显著提升计算效率。在多个临床数据集上的实验表明,该方法在全角度和有限角度设置下均实现了优越的3D重建性能,验证了其临床可行性和计算优势。论文图像重建PET-Adapter测试时自适应扩散模型医学影像推荐理由:该研究通过测试时自适应解决了深度学习PET重建模型的泛化困境,显著降低了计算成本,为临床实时部署提供了可行方案。
arXiv cs.LG(学术论文)38字节级语言模型(BLT)虽匹配词元级模型性能,但逐字节自回归生成速度慢。本文提出三种加速方法:BLT Diffusion(BLT-D)用辅助扩散目标并行生成多个字节;BLT Self-speculation(BLT-S)通过推测解码扩展补丁边界并验证;BLT Diffusion+Verification(BLT-DV)结合扩散与自回归验证。所有方法在生成任务上估计内存带宽成本降低超50%,消除字节级模型实用化障碍。论文字节级模型推理加速扩散模型推测解码无分词器推荐理由:该工作直接解决字节级LLM的核心效率瓶颈,提出的混合推理策略(扩散+推测解码)为无分词器模型走向实际应用提供了可行路径。
arXiv cs.LG(学术论文)60本研究提出 Normalizing Trajectory Models (NTM),一种新型生成模型框架。传统扩散模型假设多步高斯去噪,在少步采样时失效;现有少步方法依赖蒸馏、一致性训练或对抗目标,但放弃了似然框架。NTM 将每个逆向步骤建模为条件标准化流,并用深层并行预测器连接整个轨迹。该模型可通过预训练流匹配模型初始化,利用精确轨迹似然进行自蒸馏,仅需四步即可生成高质量文本到图像样本。在基准测试中,NTM 在四步内匹配或超越了强基线模型,同时保留了可计算的似然。论文标准化流扩散模型少步生成文本到图像似然训练推荐理由:NTM 通过将标准化流与轨迹建模结合,在少步生成和无似然性能间取得平衡,为扩散模型加速提供了新思路。对需要快速推理且关注可解释性的应用(如实时图像生成)具有实际意义。