12:36arXiv: OpenAI@Cong Han, Xiaohan Lan, Haibo Qiu, Yujie ZhongAIR方法通过扩展强化学习训练,使MLLMs具备自适应交错推理能力,专门处理代码增强的复杂数值计算任务。该方法包含两阶段冷启动数据构建、强化学习数据集筛选策略,以及基于群约束奖励函数的自适应工具调用策略。在评测基准上,平均性能提升6.1个百分点,其中交错推理样本准确率提高9.9个百分点,工具调用成功率超过95%。论文代码和数据集已开源。论文AIRMLLMsOpenAI o3交错推理强化学习推荐理由:这篇论文让MLLMs学会用代码做数值推理,准确率涨了6个点,工具调用成功率超95%,代码开源可复现。原文
12:55arXiv: OpenAI@Tanmay Asthana, Aman Saksena, Divyansh Sahu精选76°研究人员发布了针对深度研究代理(DRA)在管理咨询场景下的评测基准,包含42个专家撰写的任务,每个任务有平均13.8个确定性验证器和五维度0-3分专家评分。评测了Claude Opus 4.6、OpenAI o3-deep-research和Google Gemini 3.1 Pro,三者通过联合阈值(专家评分≥2.5且验证器通过率≥80%)的接受率均很低:Gemini 21.4%,o3和Claude仅9.5%。各模型失败模式不同:Claude输出最可靠但虚构最多,o3推理最清晰但遗漏章节和传播算术错误,Gemini表现两极分化。该基准通过嵌入认知陷阱来惩罚表面模式匹配,揭示了当前前沿DRA在专业分析任务上的严重不足。论文评测基准深度研究代理管理咨询ClaudeOpenAI o3Gemini认知陷阱10 个信源在谈推荐理由:管理咨询团队和依赖AI做深度分析的开发者会震惊——三个最先进的DRA在专家级任务中通过率不到22%,且各有致命短板。想避免被AI的自信输出误导,建议仔细看这篇评测的失败模式分析。原文