论文精选72°

Oryx:灵活切换注意力与线性循环的混合序列模型

Multi-Mixer Models: Flexible Sequence Modeling with Shared Representations

精选理由

Oryx 解决了长上下文检索与高效生成的矛盾,做序列建模或大模型架构的开发者可以直接参考其共享参数设计思路,值得关注。

AI 摘要

Oryx 是一种新型混合架构,能在序列处理中灵活切换注意力(用于长上下文检索)和线性循环(用于高效生成),解决了传统模型在效率和长上下文能力之间的权衡。该模型在 1.4B 参数规模下,平均语言建模任务性能比单一混合器基线提升至少 0.7 个百分点。在检索任务中,即使仅用不到 10% 的 token 运行注意力模式,Oryx 也能达到与 Transformer 基线相当的性能。Oryx 的关键创新是让不同混合器共享至少 90% 的参数,从而在共享内部表示上高效切换。这项工作表明注意力与线性循环模型可以共享表示,为序列轴上的混合设计提供了新方向。

AI 翻译 · 中文

Oryx 是一种新型混合架构,能在序列处理中灵活切换注意力(用于长上下文检索)和线性循环(用于高效生成),解决了传统模型在效率和长上下文能力之间的权衡。该模型在 1.4B 参数规模下,平均语言建模任务性能比单一混合器基线提升至少 0.7 个百分点。在检索任务中,即使仅用不到 10% 的 token 运行注意力模式,Oryx 也能达到与 Transformer 基线相当的性能。Oryx 的关键创新是让不同混合器共享至少 90% 的参数,从而在共享内部表示上高效切换。这项工作表明注意力与线性循环模型可以共享表示,为序列轴上的混合设计提供了新方向。

arXiv cs.LGSoftmax attention is the cornerstone of modern large language models, but its memory scales linearly and compute quadratically with sequence length. Linear recurrent models, such as linear attention and state space model