全部 AI 动态 · AI 热点

6月26日

10:45

arXiv cs.LG@Danyal Rehman, Charlie B. Tan, Yoshua Bengio, Avishek Joey Bose, Alexander Tong

论文提出 Autoregressive Boltzmann Generators (ArBG)，一种自回归建模框架，用于分子系统平衡采样，克服了基于流的 Boltzmann Generators 的表达性限制。ArBG 在所有基准测试上优于流模型，特别是在 10-残基 Chignolin 肽系统上。作者还发布了 Robin，一个 1.32 亿参数的可迁移模型，在 8-残基系统上将零样本能量误差 E-W₂ 降低超过 60%。代码已开源在 GitHub。

论文 ArBG Boltzmann Generators Robin 分子模拟自回归模型

推荐理由：想了解分子模拟新方法？这篇论文提出的 ArBG 用自回归替代流模型，在 Chignolin 等体系上效果更好，还开源了 1.32 亿参数的 Robin 模型。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

11:19

arXiv cs.LG@Kyuil Lee, Dezhi Yu, Yongkang Huang

该研究系统比较了三种生成模型在巴赫风格钢琴音乐生成上的表现：带注意力的自回归LSTM、潜变量模型（包括循环VAE和向量量化VAE）以及生成对抗网络。实验表明，带注意力的自回归LSTM生成的音乐连贯性最佳；向量量化有助于缓解后验崩溃问题，生成的结构化输出优于传统循环VAE；对抗方法能捕捉局部音高模式，但训练困难且风格泛化不稳定。研究揭示了不同方法在符号音乐生成中的优势与局限。

论文音乐生成自回归模型潜变量模型生成对抗网络巴赫风格

推荐理由：做音乐AI或生成式模型的研究者，这篇论文直接对比了三大主流方法在巴赫风格音乐上的效果，结论清晰，适合作为技术选型参考。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

09:14

arXiv cs.LG@Waleed Esmail, Stuart Russell, Jana Klinge, Alexander Kappes, Christine Thomas

精选

该研究以合成三分量地震图为例，探讨自回归序列模型在预测振荡物理信号（如地震波、引力波）时，长程展开的稳定性问题。研究发现，误差累积会导致相位漂移，而逐点指标无法检测。通过 SeismoGPT 模型的受控消融实验，多 token 预测是稳定展开的关键因素，几乎贡献了全部改进；地平线嵌入混合预测头和跨地平线 STFT 幅度相干损失可带来微小但一致的增益。性能严重依赖于上下文比率阈值接近1（约等于观测信号的 P-S 间隔），低于此阈值时展开泛化崩溃。主要的残留失败是极性反转，表明相位感知目标函数是下一步的自然方向。

论文自回归模型物理信号预测地震图多token预测相位漂移

推荐理由：做物理信号预测或自回归模型长程展开的开发者，这篇论文用严谨的消融实验揭示了多 token 预测的关键作用，值得仔细看实验设计。

原文

6月4日

10:15

arXiv cs.LG@Samuel Cognolato, Alessandro Sperduti, Luciano Serafini

FLAGG 提出了一种灵活的自回归图生成框架，通过将单次生成模型应用于图的部分顺序生成，解决了单次模型在大图上表现差、顺序模型在小图上效果不佳的难题。该框架通过随机节点移除过程定义生成策略，并由插入模型学习逆向操作，从而在多种图数据集上实现了优于纯单次和纯顺序模型的采样质量。FLAGG 可适配任意单次模型，使其具备自回归能力，为图生成任务提供了更通用的解决方案。

论文图生成自回归模型单次生成 FLAGG 灵活框架

推荐理由：做图生成研究的团队终于有了一个能兼顾大小图质量的统一框架——FLAGG 让单次模型也能自回归生成，实验效果全面超越基线，值得关注。

原文

5月29日

11:07

arXiv cs.AI@Chong Bao, Shichen Liu, Lijun Yu, David Futschik, Stylianos Moschoglou, Shefali Srivastava, Ziqian Bai, Feitong Tan, Guofeng Zhang, Zhaopeng Cui, Sean Fanello, Yinda Zhang

精选

浙江大学团队提出 Archon，一个完全预训练的统一多模态模型，用于生成包含文本、音频、动作和视觉内容的完整数字人。该模型通过模态专用分词器和原生自回归架构，统一了七种模态，并在 72 个任务上预训练以建模联合分布。为解决高保真对话视频中的 token 爆炸问题，Archon 引入了一种内存高效的语义视频重参数化方法，实现 4 倍 token 压缩同时保留精细动态，并配合语义驱动的视频扩散解码器。此外，提出的“模态思考”机制将模糊的跨模态任务分解为逐步推理，提升了生成保真度和可控性。实验表明，Archon 在多种数字人生成任务上达到或超越现有水平。

论文数字人多模态模型视频生成自回归模型 token压缩

推荐理由：做数字人、虚拟角色或交互式 AI 的团队终于有了一个统一框架——Archon 把文本、音频、动作、视频全打通了，不用再拼凑多个模型，做沉浸式体验的开发者可以直接参考其架构。

原文

5月26日

11:45

arXiv cs.AI@Wei Song, Tianhang Wang, Yitong Chen, Tong Zhang, Zuxuan Wu, Ming Li, Jiaqi Wang, Kaicheng Yu

精选

本文提出通道级向量量化（CVQ），一种全新的图像标记化范式，将传统基于空间分块的标记方式改为对特征图每个通道进行量化。基于CVQ，作者构建了通道级自回归（CAR）模型，采用“下一通道预测”策略，模拟人类艺术家先画轮廓再细化细节的创作流程。实验表明，CVQ在16K+码本大小下实现100%码本利用率，显著提升重建质量；CAR在DPG和GenEval指标上分别达到86.7和0.79，在文本到图像生成任务中表现强劲。这一工作为视觉自回归模型提供了新思路，有望推动图像生成效率与质量的双重提升。

论文图像生成向量量化自回归模型文本到图像视觉细节

推荐理由：CVQ解决了传统VQ码本利用率低、细节丢失的痛点，做图像生成和视觉自回归研究的开发者值得关注——它让模型像人类一样先画轮廓再细化，生成质量更高。

原文

5月21日

09:46

arXiv cs.AI@Bo Ye, Xinyu Cui, Jian Zhao, Tong Wei, Min-Ling Zhang

精选

自回归长视频生成通常采用有界内存流式处理，结合局部窗口和静态早期帧汇（sink）来保持长期连续性。但静态帧汇在视觉状态大幅变化后仍缓存早期帧，丢弃了可能更相关的中间历史，导致生成偏向过时内容，甚至引发注意力坍塌。DySink 提出基于检索的动态帧汇框架，维护紧凑记忆库并选择视觉相关的历史帧作为动态汇，同时引入异常检测门控抑制坍塌。实验表明，DySink 在分钟级视频上持续提升动态度指标，并实现更高时间质量。代码和模型权重将开源。

论文长视频生成自回归模型动态帧汇注意力机制开源/仓库

推荐理由：长视频生成长期受困于静态帧汇导致的注意力坍塌问题，DySink 用检索式动态帧汇解决了这个痛点，做视频生成或自回归模型的团队可以直接参考其开源代码。

原文