AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:自回归模型×
6月26日
10:45
10:45arXiv cs.LG@Danyal Rehman, Charlie B. Tan, Yoshua Bengio, Avishek Joey Bose, Alexander Tong
论文提出 Autoregressive Boltzmann Generators (ArBG),一种自回归建模框架,用于分子系统平衡采样,克服了基于流的 Boltzmann Generators 的表达性限制。ArBG 在所有基准测试上优于流模型,特别是在 10-残基 Chignolin 肽系统上。作者还发布了 Robin,一个 1.32 亿参数的可迁移模型,在 8-残基系统上将零样本能量误差 E-W₂ 降低超过 60%。代码已开源在 GitHub。
论文ArBGBoltzmann GeneratorsRobin分子模拟自回归模型

推荐理由:想了解分子模拟新方法?这篇论文提出的 ArBG 用自回归替代流模型,在 Chignolin 等体系上效果更好,还开源了 1.32 亿参数的 Robin 模型。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
11:19
11:19arXiv cs.LG@Kyuil Lee, Dezhi Yu, Yongkang Huang
该研究系统比较了三种生成模型在巴赫风格钢琴音乐生成上的表现:带注意力的自回归LSTM、潜变量模型(包括循环VAE和向量量化VAE)以及生成对抗网络。实验表明,带注意力的自回归LSTM生成的音乐连贯性最佳;向量量化有助于缓解后验崩溃问题,生成的结构化输出优于传统循环VAE;对抗方法能捕捉局部音高模式,但训练困难且风格泛化不稳定。研究揭示了不同方法在符号音乐生成中的优势与局限。
论文音乐生成自回归模型潜变量模型生成对抗网络巴赫风格

推荐理由:做音乐AI或生成式模型的研究者,这篇论文直接对比了三大主流方法在巴赫风格音乐上的效果,结论清晰,适合作为技术选型参考。
原文
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月10日
09:14
09:14arXiv cs.LG@Waleed Esmail, Stuart Russell, Jana Klinge, Alexander Kappes, Christine Thomas
精选
该研究以合成三分量地震图为例,探讨自回归序列模型在预测振荡物理信号(如地震波、引力波)时,长程展开的稳定性问题。研究发现,误差累积会导致相位漂移,而逐点指标无法检测。通过 SeismoGPT 模型的受控消融实验,多 token 预测是稳定展开的关键因素,几乎贡献了全部改进;地平线嵌入混合预测头和跨地平线 STFT 幅度相干损失可带来微小但一致的增益。性能严重依赖于上下文比率阈值接近1(约等于观测信号的 P-S 间隔),低于此阈值时展开泛化崩溃。主要的残留失败是极性反转,表明相位感知目标函数是下一步的自然方向。
论文自回归模型物理信号预测地震图多token预测相位漂移

推荐理由:做物理信号预测或自回归模型长程展开的开发者,这篇论文用严谨的消融实验揭示了多 token 预测的关键作用,值得仔细看实验设计。
原文
6月4日
10:15
10:15arXiv cs.LG@Samuel Cognolato, Alessandro Sperduti, Luciano Serafini
FLAGG 提出了一种灵活的自回归图生成框架,通过将单次生成模型应用于图的部分顺序生成,解决了单次模型在大图上表现差、顺序模型在小图上效果不佳的难题。该框架通过随机节点移除过程定义生成策略,并由插入模型学习逆向操作,从而在多种图数据集上实现了优于纯单次和纯顺序模型的采样质量。FLAGG 可适配任意单次模型,使其具备自回归能力,为图生成任务提供了更通用的解决方案。
论文图生成自回归模型单次生成FLAGG灵活框架

推荐理由:做图生成研究的团队终于有了一个能兼顾大小图质量的统一框架——FLAGG 让单次模型也能自回归生成,实验效果全面超越基线,值得关注。
原文
5月29日
11:07
11:07arXiv cs.AI@Chong Bao, Shichen Liu, Lijun Yu, David Futschik, Stylianos Moschoglou, Shefali Srivastava, Ziqian Bai, Feitong Tan, Guofeng Zhang, Zhaopeng Cui, Sean Fanello, Yinda Zhang
精选
浙江大学团队提出 Archon,一个完全预训练的统一多模态模型,用于生成包含文本、音频、动作和视觉内容的完整数字人。该模型通过模态专用分词器和原生自回归架构,统一了七种模态,并在 72 个任务上预训练以建模联合分布。为解决高保真对话视频中的 token 爆炸问题,Archon 引入了一种内存高效的语义视频重参数化方法,实现 4 倍 token 压缩同时保留精细动态,并配合语义驱动的视频扩散解码器。此外,提出的“模态思考”机制将模糊的跨模态任务分解为逐步推理,提升了生成保真度和可控性。实验表明,Archon 在多种数字人生成任务上达到或超越现有水平。
论文数字人多模态模型视频生成自回归模型token压缩

推荐理由:做数字人、虚拟角色或交互式 AI 的团队终于有了一个统一框架——Archon 把文本、音频、动作、视频全打通了,不用再拼凑多个模型,做沉浸式体验的开发者可以直接参考其架构。
原文
5月26日
11:45
11:45arXiv cs.AI@Wei Song, Tianhang Wang, Yitong Chen, Tong Zhang, Zuxuan Wu, Ming Li, Jiaqi Wang, Kaicheng Yu
精选
本文提出通道级向量量化(CVQ),一种全新的图像标记化范式,将传统基于空间分块的标记方式改为对特征图每个通道进行量化。基于CVQ,作者构建了通道级自回归(CAR)模型,采用“下一通道预测”策略,模拟人类艺术家先画轮廓再细化细节的创作流程。实验表明,CVQ在16K+码本大小下实现100%码本利用率,显著提升重建质量;CAR在DPG和GenEval指标上分别达到86.7和0.79,在文本到图像生成任务中表现强劲。这一工作为视觉自回归模型提供了新思路,有望推动图像生成效率与质量的双重提升。
论文图像生成向量量化自回归模型文本到图像视觉细节

推荐理由:CVQ解决了传统VQ码本利用率低、细节丢失的痛点,做图像生成和视觉自回归研究的开发者值得关注——它让模型像人类一样先画轮廓再细化,生成质量更高。
原文
5月21日
09:46
09:46arXiv cs.AI@Bo Ye, Xinyu Cui, Jian Zhao, Tong Wei, Min-Ling Zhang
精选
自回归长视频生成通常采用有界内存流式处理,结合局部窗口和静态早期帧汇(sink)来保持长期连续性。但静态帧汇在视觉状态大幅变化后仍缓存早期帧,丢弃了可能更相关的中间历史,导致生成偏向过时内容,甚至引发注意力坍塌。DySink 提出基于检索的动态帧汇框架,维护紧凑记忆库并选择视觉相关的历史帧作为动态汇,同时引入异常检测门控抑制坍塌。实验表明,DySink 在分钟级视频上持续提升动态度指标,并实现更高时间质量。代码和模型权重将开源。
论文长视频生成自回归模型动态帧汇注意力机制开源/仓库

推荐理由:长视频生成长期受困于静态帧汇导致的注意力坍塌问题,DySink 用检索式动态帧汇解决了这个痛点,做视频生成或自回归模型的团队可以直接参考其开源代码。
原文
精选全部日报登录