全部 AI 动态 · AI 热点

6月18日

10:31

10:31

arXiv cs.LG@Daochen Zha, Chun How Tan, Xin Liu, Bin Xu, Han Zhao, Xiaowei Liu, Tracy Yu, Hui Gao, Huiji Gao, Liwei He, Stephanie Moyerman, Sanjeev Katariya

JourneyFormer是Airbnb提出的序列建模解决方案，用于处理搜索排序中客人序列长、探索性强且标签稀疏的问题。模型设计涵盖事件选择、ID嵌入、模型架构和标签归因等关键环节，并采用专门策略加速训练和推理。JourneyFormer已部署到Airbnb生产环境，离线排名指标和线上A/B测试（覆盖2个生产表面）均显示关键业务指标显著提升。

AI模型 JourneyFormer Airbnb 序列建模搜索排序推荐系统

推荐理由：Airbnb搞了个JourneyFormer，专治搜索排序中又长又乱的用户序列，实测线上A/B测试效果很不错。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

12:00

12:00

arXiv cs.LG@Anamaria-Roberta Hartl, Levente Zólyomi, David Stap, Pieter-Jan Hoedt, Niklas Schmidinger, Lukas Hauzenberger, Sebastian Böck, Günter Klambauer, Sepp Hochreiter

精选

该论文系统比较了三种主流子二次架构（xLSTM、Mamba-2、Gated DeltaNet）在复杂任务上的表现，包括代码模型预训练、大模型蒸馏和时序基础模型预训练。结果显示，xLSTM 在所有任务中综合性能最优，其优势源于更灵活稳定的门控机制带来的状态追踪与记忆累积能力。研究通过统一公式分析和合成任务验证，揭示了 xLSTM 在长程依赖建模上的核心机制。

论文 xLSTM Mamba-2 子二次架构序列建模代码预训练

推荐理由：做序列建模或基础模型预训练的团队，这篇论文帮你厘清了 xLSTM 相比 Mamba 等架构的实际优势，看完可以直接指导模型选型。

5月26日

12:25

12:25

arXiv cs.LG@Charles Pert, Dalal Alrajeh, Alessandra Russo

精选

长度泛化是神经网络长期面临的挑战：循环模型存在位置偏差，而Transformer受限于固定计算深度。研究人员提出MLP-LDRU（对数深度循环单元），通过并行归约近似循环计算，捕获结合性偏置算子。在21个正则语言任务中，MLP-LDRU在18个任务上实现100%的分布外准确率，其余3个任务至少达到99.9%，显著优于同类循环和注意力模型。在ListOps和NLP分类基准测试中，MLP-LDRU也表现出竞争力。

论文长度泛化循环单元正则语言 MLP-LDRU 序列建模

推荐理由：长度泛化是AI模型的硬骨头，MLP-LDRU用对数深度设计解决了循环模型和Transformer的各自短板，做序列建模和语言理解的团队值得关注这个新架构。