AIR:多模态大模型的自适应交错推理与代码

AIR: Adaptive Interleaved Reasoning with Code in MLLMs

精选理由

这篇论文让MLLMs学会用代码做数值推理,准确率涨了6个点,工具调用成功率超95%,代码开源可复现。

AI 摘要

AIR方法通过扩展强化学习训练,使MLLMs具备自适应交错推理能力,专门处理代码增强的复杂数值计算任务。该方法包含两阶段冷启动数据构建、强化学习数据集筛选策略,以及基于群约束奖励函数的自适应工具调用策略。在评测基准上,平均性能提升6.1个百分点,其中交错推理样本准确率提高9.9个百分点,工具调用成功率超过95%。论文代码和数据集已开源。

AI 翻译 · 中文

AIR方法通过扩展强化学习训练,使MLLMs具备自适应交错推理能力,专门处理代码增强的复杂数值计算任务。该方法包含两阶段冷启动数据构建、强化学习数据集筛选策略,以及基于群约束奖励函数的自适应工具调用策略。在评测基准上,平均性能提升6.1个百分点,其中交错推理样本准确率提高9.9个百分点,工具调用成功率超过95%。论文代码和数据集已开源。

arXiv: OpenAIFollowing the paradigm shift initiated by OpenAI o3, interleaved reasoning with code to enhance multimodal large language models (MLLMs) has become a pivotal research frontier. The existing literature focuses primarily o