11:59arXiv cs.LG@Kevin Y. Li, Asher Trockman, Ananda Theertha Suresh, Ziteng Sun精选72°Oryx 是一种新型混合架构,能在序列处理中灵活切换注意力(用于长上下文检索)和线性循环(用于高效生成),解决了传统模型在效率和长上下文能力之间的权衡。该模型在 1.4B 参数规模下,平均语言建模任务性能比单一混合器基线提升至少 0.7 个百分点。在检索任务中,即使仅用不到 10% 的 token 运行注意力模式,Oryx 也能达到与 Transformer 基线相当的性能。Oryx 的关键创新是让不同混合器共享至少 90% 的参数,从而在共享内部表示上高效切换。这项工作表明注意力与线性循环模型可以共享表示,为序列轴上的混合设计提供了新方向。论文混合架构注意力机制线性循环模型长上下文Oryx推荐理由:Oryx 解决了长上下文检索与高效生成的矛盾,做序列建模或大模型架构的开发者可以直接参考其共享参数设计思路,值得关注。原文
18:18berryxia@berryxiaInterfaze 提出了一种全新混合架构,将任务专用的 DNN/CNN 编码器与全能 Transformer 融合,在 OCR、视觉、STT、结构化输出等确定性任务上准确率超越 Gemini-3-Flash、Claude-Sonnet-4.6、GPT-5.4-Mini 和 Grok-4.3。该架构通过 <task> 标签实现部分模型激活,大幅提升速度和性价比。在 9 个硬核基准上全面领先,尤其在高频场景中速度和成本优势明显。作者认为,未来真实生产力任务不需要越来越大的通用模型,而是需要这种“专为确定性任务而生”的混合架构。AI模型Interfaze混合架构OCR视觉模型确定性任务推荐理由:做 OCR、视觉或音频处理的团队,终于有了一个又准又快又便宜的替代方案——Interfaze 用混合架构把通用大模型的痛点解决了,建议直接看博客跑一下自己的用例。原文