11:54
11:54
arXiv: DeepSeek@Hanjiang Wu, Abhimanyu Rajeshkumar Bambhaniya, Sarbartha Banerjee, Tuhin Khare, Sudarshan Srinivasan, Suvinay Subramanian, Souvik Kundu, Madhu Kumar, Midhilesh Elavazhagan, William Won, Amir Yazdanbakhsh, Tushar Krishna 这篇论文系统研究了混合专家(MoE)大模型推理中的多级解耦策略,从分块预填充聚合、预填充-解码解耦到最新的算子级 Attention-FFN 解耦(AFD)。AFD 将注意力计算和 MoE-FFN 执行分别部署在不同 GPU 组上,以应对 MoE 模型中内存受限的注意力、计算密集的专家 FFN 以及 MoE 路由通信带来的异构资源需求。通过结合设备级内核测量和高保真网络模拟的框架,论文在真实工作负载下评估了各级解耦的收益与局限。结果表明,在严格的 TTFT/TPOT 服务等级目标下,AFD 在 DeepSeek-V3.2 上可维持约 4000 tokens/s 的系统吞吐量,而传统非 AFD 部署无法满足要求。论文还给出了根据工作负载和模型架构划分注意力与 FFN 的实用建议,为当前机架/集群级部署及未来解耦 AI 基础设施提供了设计原则。
推荐理由:MoE 模型推理的瓶颈终于被系统性地拆解了——Attention-FFN 解耦让吞吐量提升到传统方案无法企及的水平,做大规模 MoE 推理部署的团队可以直接参考论文中的分区策略来优化集群。
11:31
11:31
arXiv cs.AI@Xinle Deng, Ruobin Zhong, Hujin Peng, Xiaoben Lu, Yanzhe Wu, Guang Li, Buqiang Xu, Yunzhi Yao, Jizhan Fang, Haoliang Cao, Junjie Guo, Yuan Yuan, Ziqing Ma, Yuanqiang Yu, Rui Hu, Baohua Dong, Hangcheng Zhu, Ningyu Zhang MemTrace 提出了一种新框架,将大语言模型的记忆管道转化为可执行的记忆演化图,实现细粒度的操作信息流追踪。研究团队构建了 MemTraceBench 基准,涵盖长上下文、RAG、Mem0 和 EverMemOS 等代表性记忆系统,系统分析记忆失败模式。该方法通过迭代追踪操作子图自动归因错误根因,发现记忆失败源于操作级问题如信息丢失和检索错位。利用归因信号指导下游提示优化,形成闭环系统,自动修正错误并提升端任务性能最高达7.62%。代码已开源。
推荐理由:做LLM记忆系统或长上下文推理的开发者,终于有了一个能自动定位记忆错误根因的工具,还能自动优化提示提升性能,值得试试这个开源方案。
11:29
11:29
arXiv cs.AI@Yiheng Zhu, Kangle Deng, Jean-Philippe Fauconnier, Inaki Navarro, Daiqing Li, Ava Pun, Yinan Zhang, Peiye Zhuang, Xiaoxia Sun, Maneesh Agrawala, Kiran Bhat, Tinghui Zhou CubePart 是一个新型生成框架,能够根据用户定义的部件名称列表(如“轮子”“门”),生成语义一致、可组装的3D网格部件。它解决了现有3D生成模型输出单一网格或任意部件分解、无法满足游戏和仿真中特定部件需求的问题。框架包含一个大规模开放词汇部件标注数据集构建流程,以及两阶段生成架构(全局形状合成+部件级解码)。生成的3D资产可直接导入游戏引擎,无需手动后处理即可支持动画和脚本行为。
推荐理由:游戏和仿真开发者终于有了能按需生成语义部件的3D工具——CubePart 让部件结构成为显式控制信号,生成的资产可直接驱动动画和脚本,省去大量手动拆解工作,做交互式3D内容的团队值得一试。
11:28
11:28
arXiv cs.AI@Jizhan Fang, Buqiang Xu, Zhixian Wang, Haoliang Cao, Xinle Deng, Baohua Dong, Hangcheng Zhu, Ruohui Huang, Gang Yu, Ying Wei, Guozhou Zheng, Feiyu Xiong, Haofen Wang, Huajun Chen, Ningyu Zhang 现有记忆增强型LLM智能体通常将记忆视为静态仓库,在动态环境中表现脆弱。为此,研究者提出FluxMem框架,将记忆建模为异构图,并通过初始连接形成、反馈驱动精炼和长期巩固三个阶段逐步优化拓扑结构。在执行过程中,FluxMem能自动修复缺失链接、剪枝干扰、对齐抽象粒度,并将成功轨迹蒸馏为可复用的程序化回路。在LoCoMo、Mind2Web和GAIA三个基准测试中,FluxMem均取得最先进性能,展现出强大的适应性和泛化能力。代码已开源。
推荐理由:FluxMem解决了LLM智能体在动态环境中记忆僵化的痛点,做复杂任务自动化的开发者可以直接参考其开源实现,提升智能体的长期记忆和适应能力。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。