10:32
10:32
arXiv: DeepSeek@Yan Wang, Qifan Zhang, Jiachen Yu, Tian Liang, Dongyang Ma, Xiang Hu, Zibo Lin, Chunyang Li, Zhichao Wang, Jia Li, Yujiu Yang, Haitao Mi, Dong Yu FlashMemory-DeepSeek-V4 提出了一种名为 Lookahead Sparse Attention (LSA) 的新型推理范式,通过神经记忆索引器预测未来上下文需求,仅保留关键 KV 块在 GPU 内存中。该架构采用解耦训练策略,将索引器作为独立双编码器训练,无需加载主模型。在 LongBench-v2、LongMemEval 等长上下文评测中,LSA 将物理 KV 缓存压缩至全上下文基线的 13.5%,同时下游准确率平均提升 0.6%。在 50 万 token 极端长度下,物理 KV 缓存开销降低超过 90%,且不损害模型核心推理能力。
推荐理由:LSA 解决了超长上下文推理的 GPU 内存瓶颈,做长文档分析或大规模序列建模的团队可以直接参考其稀疏注意力方案,显著降低部署成本。
10:28
10:28
arXiv: DeepSeek@Yishuo Cai, Xingyu Guo, Xuancheng Huang, Jinhua Du, Can Huang, Wenxuan Huang, Wenhan Ma, Yuyang Hu, Aohan Zeng, Jie Tang, Xu Sun 论文提出MemoPilot,一种插件式记忆副驾驶,通过强化学习显式训练记忆更新过程,使冻结的LLM在连续交互中提升性能。该方法将记忆更新建模为多轮决策问题,采用多轮GRPO端到端优化,引入轮次奖励信号和上下文无关的轮级优势估计,实现更精细的信用分配和稳定训练。在多人石头剪刀布和有限注德州扑克两个测试环境中,MemoPilot的Elo评分分别达到1590和1762,超越所有基线记忆方法和包括DeepSeek-V3.2在内的闭源模型。这项工作解决了现有方法依赖手工设计提示规则、难以对齐记忆更新与长期目标的痛点。
推荐理由:做LLM智能体长期部署和持续学习的团队可以关注——MemoPilot用强化学习自动优化记忆策略,比手工调提示更系统,在博弈场景中效果显著,值得在类似任务中尝试。
09:47
09:47
arXiv cs.AI@Yuan Zhang, Shiqi Zhang, Yedong Shen, Shuai Dong, Jiajun Deng, Xin Zhang, Yuxuan Gao, Jiajia Wu, Xin Nie, Zhiyuan Cheng, Jianmin Ji, Yanyong Zhang, Xingyi Zhang, Jia Pan GEAR-VLA 是一种新型视觉-语言-动作(VLA)框架,旨在解决现有 VLA 模型在真实部署中面对未见物体、背景变化和不同机器人本体时的泛化问题。它通过粗到细的动作学习、语义对齐的 3D 特征融合以及本体规范化,学习统一的几何感知动作表征。在 LIBERO、零样本 LIBERO-Plus 和 RoboTwin 2.0 上达到最先进性能,在 AgileX 上成功率 85.9%,在未见本体 LDT-01 上达 81.0%,在 212 个未见物体的通用抓取基准上达 90.1%。代码和模型将开源。
推荐理由:GEAR-VLA 解决了机器人操作中跨本体、跨场景泛化的核心痛点,做机器人操作研究的团队可以直接参考其粗到细动作学习与 3D 对齐方法,值得关注其开源代码。
11:09
11:09
arXiv cs.LG@Ekaterina Grishina, Stepan Kuznetsov, Askar Tsyganov, Ilya Ivanov, Daria Korovaitceva, Margarita Rusanova, Uliana Parkina, Alexander Derevyagin, Evgeny Frolov, Sergey Samsonov, Anton Lysenko 推荐算法排名因数据集特性(稀疏性、序列结构、规模)而异,简单平均指标(如NDCG)会产生误导。研究者提出基于Bradley-Terry模型的排名方法,能根据数据集统计特征生成更可靠的排名。该方法还引入新指标评估排名一致性,并能在不运行模型的情况下预测新数据集上的算法表现。这对推荐系统开发者选择算法和评估基准有重要参考价值。
推荐理由:推荐系统团队做算法选型时,别再被平均指标骗了——BT模型帮你根据数据集特性精准排名,省去跑全量模型的成本,做评估基准的开发者值得一试。
11:03
11:03
arXiv: OpenAI@Vladislav Smirnov, Chieu Nguyen, Sergey Senichev, Minh Ngoc Ta, Ekaterina Fadeeva, Artem Vazhentsev, Daria Galimzianova, Nikolai Rozanov, Viktor Mazanov, Jingwei Ni, Tianyi Wu, Igor Kiselev, Mrinmaya Sachan, Iryna Gurevych, Preslav Nakov, Timothy Baldwin, Artem Shelmanov ThinkBooster 是一个统一的测试时计算(TTC)扩展框架,旨在解决现有TTC策略和评分器碎片化、评估不一致的问题。它包含模块化Python库、联合评估性能与效率的基准测试,以及兼容OpenAI的代理服务,支持自适应推理的即插即用。在数学和编程任务上的实验揭示了性能与计算成本的权衡,并展示了实际增益。代码以MIT许可证开源。
推荐理由:做LLM推理优化的开发者终于有了一个标准化工具来对比不同TTC策略的成本收益,不用再自己拼凑评估流程,建议直接试。
仅展示最近 2000 条内容。更早的内容请查阅 AI 日报存档(侧边栏 → AI 日报 → 顶部「往期日报」)。