精选理由
这项研究让使用冻结模型的团队无需重新训练就能提升推理性能,做模型部署或推理优化的开发者值得关注,可以直接在现有模型上尝试。
研究者提出了一种无需训练的循环Transformer方法,通过在推理时对冻结的预训练模型进行轻量级循环包装,无需微调或架构改动即可提升性能。该方法将Transformer块视为ODE的欧拉步,通过阻尼子步替代大步更新,避免了简单重复块导致的性能下降。在7个模型家族(包括密集、稀疏MoE和MLA+MoE)上验证有效,如Qwen3-4B-Instruct在MMLU-Pro上提升2.64个百分点,Qwen3-30B-A3B-Instruct在CommonsenseQA上提升1.14个百分点。该方法为利用现有模型提升推理能力提供了低成本方案。
AI 翻译 · 中文
研究者提出了一种无需训练的循环Transformer方法,通过在推理时对冻结的预训练模型进行轻量级循环包装,无需微调或架构改动即可提升性能。该方法将Transformer块视为ODE的欧拉步,通过阻尼子步替代大步更新,避免了简单重复块导致的性能下降。在7个模型家族(包括密集、稀疏MoE和MLA+MoE)上验证有效,如Qwen3-4B-Instruct在MMLU-Pro上提升2.64个百分点,Qwen3-30B-A3B-Instruct在CommonsenseQA上提升1.14个百分点。该方法为利用现有模型提升推理能力提供了低成本方案。
We introduce training-free looped transformers, in which a lightweight inference-time wrapper loops a contiguous mid-stack block of layers of a frozen checkpoint without additional fine-tuning, continued training, or arc…