AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:编程能力×
6月26日
10:46
10:46arXiv cs.LG@Yingyu Lin, Qiyue Gao, Nikki Lijing Kuang, Xunpeng Huang, Kun Zhou, Tongtong Liang, Zhewei Yao, Yi-An Ma, Yuxiong He
论文提出Ranking-induced VERifiable framework (RiVER),无需真实答案即可通过基于分数的执行反馈训练LLM。在12个AtCoder Heuristic Contest任务上训练后,Qwen3-8B在Algorithm Engineering Benchmark (ALE-Bench)上的rating rank提升8.9%,GLM-Z1-9B-0414提升9.4%。同时,RiVER在LiveCodeBench和USACO等精确求解基准上分别带来2.4%和3.5%的绝对平均提升。对比基线表明,仅用原始执行分数训练可提升ALE rating但无法泛化到精确求解任务。
论文RiVERQwen3-8BGLM-Z1-9B-0414强化学习编程能力

推荐理由:论文介绍RiVER,用强化学习训练模型解决无标准答案的得分优化问题,还能顺带提升常规编程基准,实用思路值得一看。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
精选全部日报登录