AIR：多模态大模型的自适应交错推理与代码

精选理由

这篇论文让MLLMs学会用代码做数值推理，准确率涨了6个点，工具调用成功率超95%，代码开源可复现。

AI 摘要

AIR方法通过扩展强化学习训练，使MLLMs具备自适应交错推理能力，专门处理代码增强的复杂数值计算任务。该方法包含两阶段冷启动数据构建、强化学习数据集筛选策略，以及基于群约束奖励函数的自适应工具调用策略。在评测基准上，平均性能提升6.1个百分点，其中交错推理样本准确率提高9.9个百分点，工具调用成功率超过95%。论文代码和数据集已开源。

AI 翻译 · 中文

arXiv: OpenAIFollowing the paradigm shift initiated by OpenAI o3, interleaved reasoning with code to enhance multimodal large language models (MLLMs) has become a pivotal research frontier. The existing literature focuses primarily o…

阅读原文