10:31arXiv cs.LG@Daochen Zha, Chun How Tan, Xin Liu, Bin Xu, Han Zhao, Xiaowei Liu, Tracy Yu, Hui Gao, Huiji Gao, Liwei He, Stephanie Moyerman, Sanjeev KatariyaJourneyFormer是Airbnb提出的序列建模解决方案,用于处理搜索排序中客人序列长、探索性强且标签稀疏的问题。模型设计涵盖事件选择、ID嵌入、模型架构和标签归因等关键环节,并采用专门策略加速训练和推理。JourneyFormer已部署到Airbnb生产环境,离线排名指标和线上A/B测试(覆盖2个生产表面)均显示关键业务指标显著提升。AI模型JourneyFormerAirbnb序列建模搜索排序推荐系统推荐理由:Airbnb搞了个JourneyFormer,专治搜索排序中又长又乱的用户序列,实测线上A/B测试效果很不错。原文
12:00arXiv cs.LG@Anamaria-Roberta Hartl, Levente Zólyomi, David Stap, Pieter-Jan Hoedt, Niklas Schmidinger, Lukas Hauzenberger, Sebastian Böck, Günter Klambauer, Sepp Hochreiter精选该论文系统比较了三种主流子二次架构(xLSTM、Mamba-2、Gated DeltaNet)在复杂任务上的表现,包括代码模型预训练、大模型蒸馏和时序基础模型预训练。结果显示,xLSTM 在所有任务中综合性能最优,其优势源于更灵活稳定的门控机制带来的状态追踪与记忆累积能力。研究通过统一公式分析和合成任务验证,揭示了 xLSTM 在长程依赖建模上的核心机制。论文xLSTMMamba-2子二次架构序列建模代码预训练推荐理由:做序列建模或基础模型预训练的团队,这篇论文帮你厘清了 xLSTM 相比 Mamba 等架构的实际优势,看完可以直接指导模型选型。原文
12:25arXiv cs.LG@Charles Pert, Dalal Alrajeh, Alessandra Russo精选长度泛化是神经网络长期面临的挑战:循环模型存在位置偏差,而Transformer受限于固定计算深度。研究人员提出MLP-LDRU(对数深度循环单元),通过并行归约近似循环计算,捕获结合性偏置算子。在21个正则语言任务中,MLP-LDRU在18个任务上实现100%的分布外准确率,其余3个任务至少达到99.9%,显著优于同类循环和注意力模型。在ListOps和NLP分类基准测试中,MLP-LDRU也表现出竞争力。论文长度泛化循环单元正则语言MLP-LDRU序列建模推荐理由:长度泛化是AI模型的硬骨头,MLP-LDRU用对数深度设计解决了循环模型和Transformer的各自短板,做序列建模和语言理解的团队值得关注这个新架构。原文