全部 AI 动态 · AI 热点

arXiv cs.LG@Wayne King, Zeyue Xue, Yuxuan Bian, Jie Huang, Haoran Li, Yaowei Li, Yaofeng Su, Yuming Li, Haoyu Wang, Shiyi Zhang, Songchun Zhang, Yuwei Niu, Sihan Xu, Junhao Zhuang, Haoyang Huang, Nan Duan

Echo-Memory 是一项针对动作条件世界模型中记忆机制的受控研究。这类模型根据首帧、文本提示和相机动作序列生成多段视频，但其主要失败点往往是记忆而非局部图像合成：当相机离开再返回时，场景或关键物体可能悄然改变。现有记忆设计难以比较，因为增益与骨干网络、训练、检索和评估差异纠缠不清。Echo-Memory 固定了动作到视频的接口，仅改变历史信息的存储和读取方式，在共享的视频扩散骨干、优化器、相机动作表示、采样器和评估流程下，比较了原始上下文、基于压缩的记忆、不同读取路径的空间摘要以及状态空间循环。研究通过三分支协议（回放质量、域内循环重访和开放域返回探测）评估记忆，发现回放保真度不足以作为记住世界的代理指标。主要结论包括：原始上下文是强大的容量基线，能显著提升开放域返回性能；紧凑性不能替代容量；块状状态空间循环是最强的开放域返回机制。

论文世界模型记忆机制视频生成状态空间模型受控实验

推荐理由：做视频生成或世界模型研究的团队，这篇论文帮你拆解了记忆机制中容量、压缩、读取和循环四个关键维度，看完能直接指导你的模型设计。

原文

6月2日

11:08

arXiv cs.AI@Xiang Li, Jiwei Wei, Ke Liu, Yitong Qin, Jinyu Guo, Malu Zhang, Peng Wang, Yang Yang

eMoT 提出了一种名为“演化思维记忆”的新框架，将推理轨迹视为动态演化的记忆而非静态模板，以解决大模型在多步推理中的幻觉和数值计算问题。该框架包含三个核心模块：记忆腐蚀机制（强化高效用推理结构并衰减低频结构）、符号锚定引擎（利用 Python 进行确定性计算，类似人类使用计算器）以及一致性驱动精炼过程（对齐神经推理与符号结果，减少逻辑偏差）。在 Game of 24 任务上，eMoT 达到 100% 准确率，比基线提升 17.6%；在 GSM8K、ASDiv、SVAMP 和 MGSM 等数学推理基准上也有持续改进。即使使用轻量级模型，eMoT 也优于依赖大规模模型的方法，表明性能提升主要来自框架的推理控制而非模型规模。

论文推理模型记忆机制符号锚定数学推理大模型

推荐理由：eMoT 解决了大模型在多步推理中容易出错和产生幻觉的痛点，做推理增强或数学推理的开发者可以直接参考其记忆腐蚀和符号锚定机制，值得一试。

原文