10:46arXiv cs.LG@Yingyu Lin, Qiyue Gao, Nikki Lijing Kuang, Xunpeng Huang, Kun Zhou, Tongtong Liang, Zhewei Yao, Yi-An Ma, Yuxiong He论文提出Ranking-induced VERifiable framework (RiVER),无需真实答案即可通过基于分数的执行反馈训练LLM。在12个AtCoder Heuristic Contest任务上训练后,Qwen3-8B在Algorithm Engineering Benchmark (ALE-Bench)上的rating rank提升8.9%,GLM-Z1-9B-0414提升9.4%。同时,RiVER在LiveCodeBench和USACO等精确求解基准上分别带来2.4%和3.5%的绝对平均提升。对比基线表明,仅用原始执行分数训练可提升ALE rating但无法泛化到精确求解任务。论文RiVERQwen3-8BGLM-Z1-9B-0414强化学习编程能力推荐理由:论文介绍RiVER,用强化学习训练模型解决无标准答案的得分优化问题,还能顺带提升常规编程基准,实用思路值得一看。原文
23:00量子位@十三73°字节跳动发布豆包2.1,其Agent可在18小时内自动完成芯片设计代码编写。在编程基准测试中,豆包2.1的表现比肩Opus 4.7。该版本强化了自主编程和长时任务执行能力,适用于复杂工程场景。AI模型豆包2.1字节跳动智能体芯片设计编程能力推荐理由:豆包2.1的Agent太能干了,独自跑18小时写出芯片代码,编程水平还追上了Opus 4.7,做硬件的可以关注下。原文
05:21rohanpaul_ai@rohanpaul_ai72°Datacurve 推出 DeepSWE,一个更严格的编程基准测试,旨在揭示领先模型之间的真实差距。GPT-5.5 得分 70%,而 GPT-5.4 为 56%,Claude Opus 4.7 为 54%,差距在旧基准中常被掩盖。DeepSWE 使用原创任务而非公开 GitHub 问题,避免模型训练时见过答案。其提示词长度仅为 SWE-bench Pro 的一半,但解决方案需要 5.5 倍代码量和约 2 倍输出 token。评分方式也不同,DeepSWE 检查请求行为是否真正实现,而非仅依赖合并 PR 的测试。AI模型基准测试编程能力GPT-5.5Claude Opus软件工程1 个信源在谈推荐理由:做 AI 模型评估或选型的团队,DeepSWE 能帮你看到模型在长周期软件工程任务上的真实差距,建议关注这个新基准。原文
13:43IT之家(博客/媒体)精选阿里旗舰模型 Qwen3.7-Max 在权威编程榜单 Code Arena 上以 1541 分排名全球第二,仅次于 Claude 系列,超越了 Claude Opus 4.6、GLM-5.1 和 Kimi K2.6。Code Arena 采用用户随机盲测,防止刷榜,评估真实代码生成、调试和重构能力。此外,该模型在 Design Arena 榜单也位列第十。这标志着国产大模型在硬核编程能力上首次进入全球第一梯队。AI模型Qwen3.7-Max阿里千问Code Arena编程能力国产大模型推荐理由:国产模型首次在权威编程盲测中超越 Claude Opus 4.6,做 AI 编程工具选型或关注国产大模型进展的开发者值得关注,建议直接去 Code Arena 看榜单。原文
09:19IT之家(博客/媒体)谷歌 DeepMind CEO 戴米斯·哈萨比斯在 I/O 大会前接受《连线》采访,批评 AI 将导致大规模裁员的说法别有用心,认为企业应利用 AI 提升生产力做更多事,而非裁员。他提到谷歌新模型 Gemini 3.5 Flash 具备强大编程能力,但强调不会取代开发者,反而会创造更多需求。哈萨比斯指出,试图用 AI 替代开发者的公司缺乏想象力,可能犯下大错。谷歌在 I/O 大会上发布了 Antigravity 编程工具等 AI 产品,Gemini 3.5 Pro 将于下月发布。行业AI 裁员论DeepMindGemini 3.5 Flash编程能力哈萨比斯推荐理由:哈萨比斯直接反驳了 AI 裁员论,给焦虑的开发者吃了定心丸——做编程或技术决策的人看完会松口气,建议点开了解他的完整观点。原文