AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
精选
过去 24 小时,从 973 条中筛出 69 条
全部模型产品行业论文技巧
标签:代码RL×
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月1日
00:09
AITOP6月1日 00:09
OpenAI 发起“Codex for Open Source”:免费赠送 6 个月 Pro 订阅,开源维护者能否迎来 AI 变革?
5月29日
08:02
AITOP5月29日 08:02
Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?🔥Anthropic 把 AI 编程的“确认键”彻底删掉了!Claude Code 搭载全新 Opus 4.8 模型,长时间任务不跑偏、不废话、不中断,像一个资深工程师一样默默干活,从功能开发到漏洞清扫全包圆,你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”,现在它直接交完整交付物……自主编程的最后一层窗户纸,被捅破了。做自动化开发和代码审查的团队,这个模型建议直接上手,效率差距肉眼可见……Opus 4.8发布:编程助手的“静默时刻”,是解放开发者,还是新门槛?
5月28日
11:29
11:29arXiv cs.AI@Kunhao Zheng, Pierre Chambon, Juliette Decugis, Jonas Gehring, Taco Cohen, Benjamin Negrevergne, Gabriel Synnaeve
精选
该研究探讨了在代码强化学习(RL)中,通过外推权重平均(extrapolative weight averaging)能否在不额外训练的情况下,扩展微调检查点之间的帕累托前沿。研究者针对竞争性编程任务,使用嵌套单元测试覆盖(从低覆盖到高覆盖)训练检查点,发现正确性与效率之间存在权衡:高覆盖奖励减少优化失败但增加正确性失败,整体解决率不变。通过低覆盖和高覆盖检查点的插值可恢复该前沿,而外推则能超越训练端点。该现象在纯推理、工具使用和智能体编码三种推理设置以及32B和7B两种模型规模下均成立。外推权重平均的集成方法在LCB/hard基准上,以相同样本预算将pass@250提升了3.3%。结果表明,嵌套单元测试覆盖诱导的前沿可通过外推权重平均进行导航、扩展和利用。
论文代码RL权重平均正确性-效率前沿竞争性编程推理设置

推荐理由:代码RL领域首次系统揭示正确性与效率的权衡前沿,做编程竞赛或代码生成优化的团队可以直接用外推权重平均提升模型性能,无需额外训练成本。
原文
精选全部日报登录