精选理由
循环Transformer训练难、部署贵的问题被Attractor Models用不动点求解优雅解决,做语言模型预训练或推理增强的团队值得关注——它用更少参数和成本实现了对更大模型的超越。
论文提出Attractor Models,用隐式微分求解不动点替代传统循环Transformer的显式迭代,训练内存不随有效深度增长,迭代次数由收敛自适应决定。在语言模型预训练中,770M参数模型超越1.3B Transformer(训练数据多一倍),困惑度降低46.6%,下游准确率提升19.7%。在推理任务中,27M参数模型在Sudoku-Extreme和Maze-Hard上分别达91.4%和93.1%准确率,而Claude和GPT o3完全失败。模型还展现出“平衡内化”现象:训练后可在推理时移除求解器而性能几乎不降。
AI 翻译 · 中文
论文提出Attractor Models,用隐式微分求解不动点替代传统循环Transformer的显式迭代,训练内存不随有效深度增长,迭代次数由收敛自适应决定。在语言模型预训练中,770M参数模型超越1.3B Transformer(训练数据多一倍),困惑度降低46.6%,下游准确率提升19.7%。在推理任务中,27M参数模型在Sudoku-Extreme和Maze-Hard上分别达91.4%和93.1%准确率,而Claude和GPT o3完全失败。模型还展现出“平衡内化”现象:训练后可在推理时移除求解器而性能几乎不降。
Looped Transformers offer a promising alternative to purely feed-forward computation by iteratively refining latent representations, improving language modeling and reasoning. Yet recurrent architectures remain unstable …