AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:序列建模×
6月18日
10:31
10:31arXiv cs.LG@Daochen Zha, Chun How Tan, Xin Liu, Bin Xu, Han Zhao, Xiaowei Liu, Tracy Yu, Hui Gao, Huiji Gao, Liwei He, Stephanie Moyerman, Sanjeev Katariya
JourneyFormer是Airbnb提出的序列建模解决方案,用于处理搜索排序中客人序列长、探索性强且标签稀疏的问题。模型设计涵盖事件选择、ID嵌入、模型架构和标签归因等关键环节,并采用专门策略加速训练和推理。JourneyFormer已部署到Airbnb生产环境,离线排名指标和线上A/B测试(覆盖2个生产表面)均显示关键业务指标显著提升。
AI模型JourneyFormerAirbnb序列建模搜索排序推荐系统

推荐理由:Airbnb搞了个JourneyFormer,专治搜索排序中又长又乱的用户序列,实测线上A/B测试效果很不错。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
12:00
12:00arXiv cs.LG@Anamaria-Roberta Hartl, Levente Zólyomi, David Stap, Pieter-Jan Hoedt, Niklas Schmidinger, Lukas Hauzenberger, Sebastian Böck, Günter Klambauer, Sepp Hochreiter
精选
该论文系统比较了三种主流子二次架构(xLSTM、Mamba-2、Gated DeltaNet)在复杂任务上的表现,包括代码模型预训练、大模型蒸馏和时序基础模型预训练。结果显示,xLSTM 在所有任务中综合性能最优,其优势源于更灵活稳定的门控机制带来的状态追踪与记忆累积能力。研究通过统一公式分析和合成任务验证,揭示了 xLSTM 在长程依赖建模上的核心机制。
论文xLSTMMamba-2子二次架构序列建模代码预训练

推荐理由:做序列建模或基础模型预训练的团队,这篇论文帮你厘清了 xLSTM 相比 Mamba 等架构的实际优势,看完可以直接指导模型选型。
原文
5月26日
12:25
12:25arXiv cs.LG@Charles Pert, Dalal Alrajeh, Alessandra Russo
精选
长度泛化是神经网络长期面临的挑战:循环模型存在位置偏差,而Transformer受限于固定计算深度。研究人员提出MLP-LDRU(对数深度循环单元),通过并行归约近似循环计算,捕获结合性偏置算子。在21个正则语言任务中,MLP-LDRU在18个任务上实现100%的分布外准确率,其余3个任务至少达到99.9%,显著优于同类循环和注意力模型。在ListOps和NLP分类基准测试中,MLP-LDRU也表现出竞争力。
论文长度泛化循环单元正则语言MLP-LDRU序列建模

推荐理由:长度泛化是AI模型的硬骨头,MLP-LDRU用对数深度设计解决了循环模型和Transformer的各自短板,做序列建模和语言理解的团队值得关注这个新架构。
原文
精选全部日报登录