arXiv cs.AI@Shang Zhou, Wenhao Chai, Kaiyuan Liu, Huanzhi Mao, Qiuyang Mang, Jingbo Shang精选67OpenDeepThink 是一种基于种群的测试时计算扩展框架,通过成对 Bradley-Terry 比较选择最佳推理候选,解决了并行采样中的选择瓶颈。每次迭代中,LLM 对随机候选对进行评判并聚合为全局排名,保留顶部候选并变异前四分之三,丢弃底部四分之一。在 Codeforces 上,Gemini 3.1 Pro 的 Elo 评分在 8 轮 LLM 调用(约 27 分钟)内提升 405 分。该方法跨弱强模型无需重新调参,在 HLE 基准上,增益集中在客观可验证领域,主观领域则出现逆转。同时发布了 CF-73 数据集,包含 73 道专家评级的 Codeforces 问题。论文推理模型测试时计算扩展Bradley-Terry并行推理Codeforces推荐理由:OpenDeepThink 用 Bradley-Terry 聚合解决了并行推理的候选选择难题,做推理扩展的开发者可以直接复现,效果显著且无需调参。