精选理由
这篇论文分析了代码解释器推理的关键属性和认知行为,发现验证、回溯等能提升数学推理效率,适合关心LLM推理优化的人。
研究在多个大语言模型上分析了代码解释器推理的外在属性(关键token)和内在属性(代码认知行为)。发现较强模型的关键token和认知行为(验证、回溯、反向链)更突出。推理时添加关键token在数学、排序、优化任务上提升性能。训练时加入认知行为改进了三个模型中的两个的监督微调和强化学习效果。分析显示这些行为能减少错误回答的过度推理并提高token效率。
AI 翻译 · 中文
研究在多个大语言模型上分析了代码解释器推理的外在属性(关键token)和内在属性(代码认知行为)。发现较强模型的关键token和认知行为(验证、回溯、反向链)更突出。推理时添加关键token在数学、排序、优化任务上提升性能。训练时加入认知行为改进了三个模型中的两个的监督微调和强化学习效果。分析显示这些行为能减少错误回答的过度推理并提高token效率。
Reasoning with a Code Interpreter (CI) has emerged as an effective paradigm for enhancing the reasoning capabilities of large language models (LLMs) through executable computation and iterative verification. Despite its …