AITOP

5月13日

19:12

arXiv cs.AI@Jacob Fein-Ashley, Paria Rashidinejad

精选70

论文提出Attractor Models，用隐式微分求解不动点替代传统循环Transformer的显式迭代，训练内存不随有效深度增长，迭代次数由收敛自适应决定。在语言模型预训练中，770M参数模型超越1.3B Transformer（训练数据多一倍），困惑度降低46.6%，下游准确率提升19.7%。在推理任务中，27M参数模型在Sudoku-Extreme和Maze-Hard上分别达91.4%和93.1%准确率，而Claude和GPT o3完全失败。模型还展现出“平衡内化”现象：训练后可在推理时移除求解器而性能几乎不降。

论文循环Transformer 隐式微分不动点求解语言模型推理增强

推荐理由：循环Transformer训练难、部署贵的问题被Attractor Models用不动点求解优雅解决，做语言模型预训练或推理增强的团队值得关注——它用更少参数和成本实现了对更大模型的超越。