全部 AI 动态 · AI 热点

arXiv cs.LG@Wayne King, Zeyue Xue, Yuxuan Bian, Jie Huang, Haoran Li, Yaowei Li, Yaofeng Su, Yuming Li, Haoyu Wang, Shiyi Zhang, Songchun Zhang, Yuwei Niu, Sihan Xu, Junhao Zhuang, Haoyang Huang, Nan Duan

Echo-Memory 是一项针对动作条件世界模型中记忆机制的受控研究。这类模型根据首帧、文本提示和相机动作序列生成多段视频，但其主要失败点往往是记忆而非局部图像合成：当相机离开再返回时，场景或关键物体可能悄然改变。现有记忆设计难以比较，因为增益与骨干网络、训练、检索和评估差异纠缠不清。Echo-Memory 固定了动作到视频的接口，仅改变历史信息的存储和读取方式，在共享的视频扩散骨干、优化器、相机动作表示、采样器和评估流程下，比较了原始上下文、基于压缩的记忆、不同读取路径的空间摘要以及状态空间循环。研究通过三分支协议（回放质量、域内循环重访和开放域返回探测）评估记忆，发现回放保真度不足以作为记住世界的代理指标。主要结论包括：原始上下文是强大的容量基线，能显著提升开放域返回性能；紧凑性不能替代容量；块状状态空间循环是最强的开放域返回机制。

论文世界模型记忆机制视频生成状态空间模型受控实验

推荐理由：做视频生成或世界模型研究的团队，这篇论文帮你拆解了记忆机制中容量、压缩、读取和循环四个关键维度，看完能直接指导你的模型设计。

原文

5月28日

11:27

arXiv cs.AI@Abhilash Durgam, Nyle Siddiqui, Jeffrey A. Chan-Santiago, Qiushi Fu, Elakkat D. Gireesh, Mubarak Shah

精选

CaMBRAIN 是首个基于 Mamba 的因果状态空间模型，专为脑电图（EEG）信号实时推理设计。现有深度学习模型依赖注意力机制，序列长度增加时计算量呈二次增长，且需滑动窗口处理，无法理解全局信号。CaMBRAIN 利用因果状态空间模型保持线性复杂度，并引入多阶段自监督训练，增强长程记忆能力。在三个 EEG 数据集上，CaMBRAIN 达到最先进性能，吞吐量比现有模型高 10 倍以上，首次实现变长 EEG 信号的连续推理。

论文 EEG 状态空间模型 Mamba 实时推理自监督学习

推荐理由：做脑机接口或神经信号处理的团队终于有了能实时处理长序列 EEG 的工具——CaMBRAIN 解决了注意力机制的计算瓶颈，吞吐量提升 10 倍，做实时监测或临床诊断的开发者可以直接用。

原文

5月26日

11:44

arXiv cs.AI@Sangyun Lee, Sean McLeish, Tom Goldstein, Giulia Fanti

精选

论文提出一种类似睡眠的记忆巩固机制，让 Transformer 模型在长上下文任务中表现更好。模型在推理过程中定期将近期上下文转换为持久化的快速权重，并清除键值缓存，类似生物体的睡眠过程。在睡眠阶段，模型对积累的上下文进行多次离线循环处理，通过局部学习规则更新状态空间模型（SSM）块中的快速权重。在合成任务（如元胞自动机、多跳图检索）和数学推理任务上，该方法显著优于普通 Transformer 和 SSM-注意力混合模型。增加睡眠时长 N 能持续提升性能，尤其在需要深层推理的样本上效果最明显。

论文 Transformer 长上下文记忆巩固推理模型状态空间模型

推荐理由：这项研究给长上下文推理带来了新思路——用类似睡眠的离线巩固机制解决注意力瓶颈，做长链推理或复杂数学问题的开发者值得关注，尤其适合处理超长上下文的场景。

原文

5月14日

13:26

arXiv cs.LG@Hoang-Quan Nguyen, Sankalp Pandey, Khoa Luu

精选

长序列建模中，Transformer 的二次复杂度限制了其扩展性，而状态空间模型（SSM）虽线性高效，但记忆机制偏简单，难以捕捉复杂全局交互。研究者提出量子长注意力记忆（QLAM），将隐藏状态表示为量子态，通过参数化量子电路实现非经典全局更新，既保留 SSM 的循环线性结构，又利用量子叠加丰富记忆表示。QLAM 隐式捕获全局依赖，并通过查询相关测量提取任务信息。在 sMNIST、sFashion-MNIST 和 sCIFAR-10 等序列图像分类任务上，QLAM 一致优于循环基线和 Transformer 模型。这项工作首次将量子系统的叠加特性引入状态序列建模，为长上下文 AI 提供了新思路。

论文量子机器学习长序列建模状态空间模型注意力机制 QLAM

推荐理由：做长序列建模或量子机器学习的研究者值得关注——QLAM 用量子叠加解决了 SSM 记忆能力不足的问题，在标准基准上已跑赢 Transformer，建议点开看实现细节。

原文

5月11日

11:42

11:42arXiv cs.AI（学术论文）

针对传统CNN和ViT在事件相机图像重建中的局限性（CNN缺乏全局相关性，ViT计算复杂度随分辨率平方增长），研究者提出EmambaIR框架。该框架融合跨模态Top-K稀疏注意力（TSAM）和门控状态空间模块（GSSM），在保持线性计算复杂度的同时捕捉全局依赖。在运动去模糊、去雨和HDR增强三个任务的6个数据集上，EmambaIR以更低内存和计算成本超越现有最先进方法。代码已开源。

论文状态空间模型事件相机/图像重建视觉/生成高效/架构

推荐理由：该工作为状态空间模型在高分辨率事件相机图像重建中提供了高效可行的方案，有助于推动实时视觉系统与边缘计算部署。

原文