10:45arXiv cs.AI@Sajad Movahedi, Vera Milovanović, Shlomo Libo Feigin, Alexander Theus, Thomas Hofmann, Valentina Boeva, T. Konstantin Rusch, Antonio Orvieto循环架构通过循环利用层数为组合推理任务提供逐步推理的归纳偏置。随着循环深度增加,信号传播问题加剧,影响模型性能。本文提出FPRM,一种基于Transformer的固定点推理模型,采用预归一化层和残差缩放解决信号传播,并以固定点收敛作为端到端停止机制。FPRM在Sudoku、Maze、状态跟踪和ARC-AGI基准上验证了有效性。论文FPRMTransformer固定点推理推理模型架构优化推荐理由:这篇论文提出了FPRM,用固定点收敛让循环推理深度自适应任务难度,在Sudoku和ARC-AGI上效果不错,适合关注推理架构的人。原文
01:25berryxia@berryxia精选73°Sebastian Raschka发布《Recent Developments in LLM Architectures》,用可视化方式拆解Gemma 4到DeepSeek V4的硬核优化。文章指出长上下文瓶颈已从“能否支持更多token”转向“如何聪明分配计算”,这些优化已在生产环境落地。正在做长上下文模型、Agent或RAG的团队,这篇文章的视觉图和效率对比特别值得细读。论文长上下文架构优化Gemma 4DeepSeek V4效率对比1 个信源在谈推荐理由:长上下文竞争已从堆token转向架构优化,做Agent或RAG的团队可以从Gemma 4到DeepSeek V4的真实方案中直接借鉴效率提升思路。原文