全部 AI 动态 · AI 热点

arXiv cs.LG@Wayne King, Zeyue Xue, Yuxuan Bian, Jie Huang, Haoran Li, Yaowei Li, Yaofeng Su, Yuming Li, Haoyu Wang, Shiyi Zhang, Songchun Zhang, Yuwei Niu, Sihan Xu, Junhao Zhuang, Haoyang Huang, Nan Duan

Echo-Memory 是一项针对动作条件世界模型中记忆机制的受控研究。这类模型根据首帧、文本提示和相机动作序列生成多段视频，但其主要失败点往往是记忆而非局部图像合成：当相机离开再返回时，场景或关键物体可能悄然改变。现有记忆设计难以比较，因为增益与骨干网络、训练、检索和评估差异纠缠不清。Echo-Memory 固定了动作到视频的接口，仅改变历史信息的存储和读取方式，在共享的视频扩散骨干、优化器、相机动作表示、采样器和评估流程下，比较了原始上下文、基于压缩的记忆、不同读取路径的空间摘要以及状态空间循环。研究通过三分支协议（回放质量、域内循环重访和开放域返回探测）评估记忆，发现回放保真度不足以作为记住世界的代理指标。主要结论包括：原始上下文是强大的容量基线，能显著提升开放域返回性能；紧凑性不能替代容量；块状状态空间循环是最强的开放域返回机制。

论文世界模型记忆机制视频生成状态空间模型受控实验

推荐理由：做视频生成或世界模型研究的团队，这篇论文帮你拆解了记忆机制中容量、压缩、读取和循环四个关键维度，看完能直接指导你的模型设计。

原文

6月2日

11:11

arXiv cs.AI@Jingyun Liang, Min Wei, Shikai Li, Yizeng Han, Hangjie Yuan, Lei Sun, Weihua Chen, Fan Wang

该研究提出一种无需渲染的框架，通过将3D人体网格压缩为token，直接输入DiT架构的视频扩散模型，实现精确的人体运动控制。相比依赖2D渲染引导的现有方法，该方法避免了视角依赖伪影和轨迹-姿态不匹配问题。实验表明，该框架在人体运动控制基准上表现优异，证明视频扩散模型通过网格token化能更好地理解3D结构。这项工作为3D感知视频生成提供了新思路。

论文视频生成 3D人体运动控制网格token化扩散模型 DiT架构

推荐理由：做视频生成或3D人体动画的团队终于有了不依赖渲染的精准控制方案——直接压缩3D网格token，避免2D引导的伪影问题，建议做运动控制或虚拟人应用的开发者点开看看。

原文

6月1日

10:31

arXiv cs.AI@Ruotong Liao, Guowen Huang, Qing Cheng, Guangyao Zhai, Lei Zhang, Xun Xiao, Thomas Seidl, Daniel Cremers, Volker Tresp

TunerDiT 提出了一种无需额外训练的多事件视频生成方法，通过分析扩散变换器（DiT）的去噪轨迹，发现文本条件从全局布局到细节的转变点。该方法包含两个关键组件：事件分区掩码（强制事件边界并允许过渡带）和跨事件提示融合（注入相邻事件语义进行后期细化）。在自建的多事件基准测试 Meve 上，TunerDiT 在 8 个指标上达到最优，并能在视频一致性和事件分离之间进行可调权衡。随着事件数量增加，文本对齐性能提升，显示出扩展潜力。

论文扩散模型视频生成多事件生成 DiT 无需训练

推荐理由：做视频生成的研究者或开发者，如果被长视频多事件生成的一致性困扰，TunerDiT 的零训练方案直接可用，值得关注其事件边界控制与提示融合的设计。

原文

10:29

arXiv cs.AI@Jiazheng Xing, Hangjie Yuan, Lingling Cai, Xinyu Liu, Yujie Wei, Fei Du, Hai Ci, Tao Feng, Jiasheng Tang, Weihua Chen, Fan Wang, Yong Liu

Lumos-Nexus 是一种训练高效的统一视频生成框架，解决了将高保真生成器集成到统一训练循环中计算成本过高的问题。它采用两阶段设计：训练时仅用轻量级生成器与理解模块对齐，学习推理驱动的语义控制；推理时通过统一渐进频率桥接（UPFB）在共享潜在空间中将生成任务逐步交给高容量预训练生成器，实现从粗到细的优化，生成高保真视频而不牺牲推理质量。为填补推理驱动视频生成基准的空白，团队引入了 VR-Bench 评估模型将推断意图转化为连贯视频的能力。实验表明，Lumos-Nexus 在 VBench 上显著提升了视觉真实感和时间连贯性，在 VR-Bench 上展示了强大的推理生成性能。代码和模型已开源。

论文视频生成统一模型推理驱动频率桥接开源/仓库

推荐理由：视频生成领域终于有了兼顾推理能力和视觉保真度的方案，做视频理解与生成统一模型的团队可以直接参考其两阶段设计，省去大量训练成本。

原文

5月29日

11:07

arXiv cs.AI@Chong Bao, Shichen Liu, Lijun Yu, David Futschik, Stylianos Moschoglou, Shefali Srivastava, Ziqian Bai, Feitong Tan, Guofeng Zhang, Zhaopeng Cui, Sean Fanello, Yinda Zhang

精选

浙江大学团队提出 Archon，一个完全预训练的统一多模态模型，用于生成包含文本、音频、动作和视觉内容的完整数字人。该模型通过模态专用分词器和原生自回归架构，统一了七种模态，并在 72 个任务上预训练以建模联合分布。为解决高保真对话视频中的 token 爆炸问题，Archon 引入了一种内存高效的语义视频重参数化方法，实现 4 倍 token 压缩同时保留精细动态，并配合语义驱动的视频扩散解码器。此外，提出的“模态思考”机制将模糊的跨模态任务分解为逐步推理，提升了生成保真度和可控性。实验表明，Archon 在多种数字人生成任务上达到或超越现有水平。

论文数字人多模态模型视频生成自回归模型 token压缩

推荐理由：做数字人、虚拟角色或交互式 AI 的团队终于有了一个统一框架——Archon 把文本、音频、动作、视频全打通了，不用再拼凑多个模型，做沉浸式体验的开发者可以直接参考其架构。

原文

5月26日

12:23