Luar：让推理模型学会何时翻译，提升多语言推理能力

精选理由

多语言推理场景下，翻译不是越多越好——Luar 教会模型在「不懂的时候才翻」，做多语言 NLP 或低资源语言应用的团队可以直接用这个框架来提升推理效率。

AI 摘要

推理语言模型在复杂推理任务上表现优异，但在非英语输入上仍存在多语言推理差距，主要原因是语言理解失败。英语翻译可以缓解这一问题，但并非所有输入都需要翻译。为此，研究者提出 Luar（语言理解边界感知强化学习框架），训练模型在直接理解不可靠时选择性调用翻译。在多项多语言推理基准测试中，Luar 优于标准 GRPO 等方法，尤其在低资源语言上提升显著。该框架能避免不必要的翻译，并泛化到未见过的低资源语言。项目代码已开源。

AI 翻译 · 中文

arXiv cs.AIReasoning language models (RLMs) achieve strong performance on complex reasoning tasks, but still exhibit substantial multilingual reasoning gaps, largely due to language-understanding failures in non-English inputs. Eng…

阅读原文