MiniOpt: 用强化学习推理建模并解决通用优化问题

MiniOpt: Reasoning to Model and Solve General Optimization Problems with Limited Resources

精选理由

想用小型模型搞定各种优化问题?MiniOpt用3B参数就做到了不错的效果,而且代码开源随便玩。

AI 摘要

MiniOpt是一种强化学习框架,采用“推理-建模-求解”范式来优化问题。其OptReward奖赏函数通过分层分数结构联合评估建模与求解,避免专家演示依赖。在少于10B参数的模型中,MiniOpt系列取得最高平均求解精度(SA)。MiniOpt-3B在多种优化类型和任务领域展示强泛化能力,代码已开源。

AI 翻译 · 中文

MiniOpt是一种强化学习框架,采用“推理-建模-求解”范式来优化问题。其OptReward奖赏函数通过分层分数结构联合评估建模与求解,避免专家演示依赖。在少于10B参数的模型中,MiniOpt系列取得最高平均求解精度(SA)。MiniOpt-3B在多种优化类型和任务领域展示强泛化能力,代码已开源。

arXiv cs.AIAchieving strong optimization generalization across diverse optimization problems while requiring limited training resources remains a challenging problem for optimization-oriented large language models (LLMs). Existing