精选理由
OpenDeepThink 用 Bradley-Terry 聚合解决了并行推理的候选选择难题,做推理扩展的开发者可以直接复现,效果显著且无需调参。
OpenDeepThink 是一种基于种群的测试时计算扩展框架,通过成对 Bradley-Terry 比较选择最佳推理候选,解决了并行采样中的选择瓶颈。每次迭代中,LLM 对随机候选对进行评判并聚合为全局排名,保留顶部候选并变异前四分之三,丢弃底部四分之一。在 Codeforces 上,Gemini 3.1 Pro 的 Elo 评分在 8 轮 LLM 调用(约 27 分钟)内提升 405 分。该方法跨弱强模型无需重新调参,在 HLE 基准上,增益集中在客观可验证领域,主观领域则出现逆转。同时发布了 CF-73 数据集,包含 73 道专家评级的 Codeforces 问题。
AI 翻译 · 中文
OpenDeepThink 是一种基于种群的测试时计算扩展框架,通过成对 Bradley-Terry 比较选择最佳推理候选,解决了并行采样中的选择瓶颈。每次迭代中,LLM 对随机候选对进行评判并聚合为全局排名,保留顶部候选并变异前四分之三,丢弃底部四分之一。在 Codeforces 上,Gemini 3.1 Pro 的 Elo 评分在 8 轮 LLM 调用(约 27 分钟)内提升 405 分。该方法跨弱强模型无需重新调参,在 HLE 基准上,增益集中在客观可验证领域,主观领域则出现逆转。同时发布了 CF-73 数据集,包含 73 道专家评级的 Codeforces 问题。
Test-time compute scaling is a primary axis for improving LLM reasoning. Existing methods primarily scale depth by extending a single reasoning trace. Scaling breadth by sampling multiple candidates in parallel is straig…