10:45arXiv cs.AI@Sajad Movahedi, Vera Milovanović, Shlomo Libo Feigin, Alexander Theus, Thomas Hofmann, Valentina Boeva, T. Konstantin Rusch, Antonio Orvieto循环架构通过循环利用层数为组合推理任务提供逐步推理的归纳偏置。随着循环深度增加,信号传播问题加剧,影响模型性能。本文提出FPRM,一种基于Transformer的固定点推理模型,采用预归一化层和残差缩放解决信号传播,并以固定点收敛作为端到端停止机制。FPRM在Sudoku、Maze、状态跟踪和ARC-AGI基准上验证了有效性。论文FPRMTransformer固定点推理推理模型架构优化推荐理由:这篇论文提出了FPRM,用固定点收敛让循环推理深度自适应任务难度,在Sudoku和ARC-AGI上效果不错,适合关注推理架构的人。原文