无训练循环Transformer提升冻结AI模型推理能力

精选理由

这篇论文教会你一种骚操作：不重新训练，就能让现成模型在推理时多思考几轮，MMLU-Pro和GPQA分数都涨了，值得看看。

AI 摘要

研究人员在论文《Training-Free Looped Transformers via Numerical ODE Integration》中提出一种无需重新训练即可提升冻结大模型性能的方法。该方法将每一层视为解常微分方程的一步，用多个小阻尼步骤替换原始大步骤，使模型获得更多推理时间。在MMLU-Pro上取得+2.64分提升，在GPQA上取得+2.01分提升，并在87%的测试组合中保持正向效果。

AI 翻译 · 中文

AlphaSignalResearchers just made frozen AI models smarter without retraining them. Large language models run each input through their layers exactly once. Researchers asked a simple question. Can you squeeze more reasoning out of…

Fireworks AI06-16 22:11原文

查看原推