精选理由
多语言推理场景下,翻译不是越多越好——Luar 教会模型在「不懂的时候才翻」,做多语言 NLP 或低资源语言应用的团队可以直接用这个框架来提升推理效率。
推理语言模型在复杂推理任务上表现优异,但在非英语输入上仍存在多语言推理差距,主要原因是语言理解失败。英语翻译可以缓解这一问题,但并非所有输入都需要翻译。为此,研究者提出 Luar(语言理解边界感知强化学习框架),训练模型在直接理解不可靠时选择性调用翻译。在多项多语言推理基准测试中,Luar 优于标准 GRPO 等方法,尤其在低资源语言上提升显著。该框架能避免不必要的翻译,并泛化到未见过的低资源语言。项目代码已开源。
AI 翻译 · 中文
推理语言模型在复杂推理任务上表现优异,但在非英语输入上仍存在多语言推理差距,主要原因是语言理解失败。英语翻译可以缓解这一问题,但并非所有输入都需要翻译。为此,研究者提出 Luar(语言理解边界感知强化学习框架),训练模型在直接理解不可靠时选择性调用翻译。在多项多语言推理基准测试中,Luar 优于标准 GRPO 等方法,尤其在低资源语言上提升显著。该框架能避免不必要的翻译,并泛化到未见过的低资源语言。项目代码已开源。
Reasoning language models (RLMs) achieve strong performance on complex reasoning tasks, but still exhibit substantial multilingual reasoning gaps, largely due to language-understanding failures in non-English inputs. Eng…