AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:编程能力×
6月26日
10:46
10:46arXiv cs.LG@Yingyu Lin, Qiyue Gao, Nikki Lijing Kuang, Xunpeng Huang, Kun Zhou, Tongtong Liang, Zhewei Yao, Yi-An Ma, Yuxiong He
论文提出Ranking-induced VERifiable framework (RiVER),无需真实答案即可通过基于分数的执行反馈训练LLM。在12个AtCoder Heuristic Contest任务上训练后,Qwen3-8B在Algorithm Engineering Benchmark (ALE-Bench)上的rating rank提升8.9%,GLM-Z1-9B-0414提升9.4%。同时,RiVER在LiveCodeBench和USACO等精确求解基准上分别带来2.4%和3.5%的绝对平均提升。对比基线表明,仅用原始执行分数训练可提升ALE rating但无法泛化到精确求解任务。
论文RiVERQwen3-8BGLM-Z1-9B-0414强化学习编程能力

推荐理由:论文介绍RiVER,用强化学习训练模型解决无标准答案的得分优化问题,还能顺带提升常规编程基准,实用思路值得一看。
原文
6月23日
23:00
23:00量子位@十三
73°
字节跳动发布豆包2.1,其Agent可在18小时内自动完成芯片设计代码编写。在编程基准测试中,豆包2.1的表现比肩Opus 4.7。该版本强化了自主编程和长时任务执行能力,适用于复杂工程场景。
AI模型豆包2.1字节跳动智能体芯片设计编程能力

推荐理由:豆包2.1的Agent太能干了,独自跑18小时写出芯片代码,编程水平还追上了Opus 4.7,做硬件的可以关注下。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
5月28日
05:21
05:21rohanpaul_ai@rohanpaul_ai
72°
Datacurve 推出 DeepSWE,一个更严格的编程基准测试,旨在揭示领先模型之间的真实差距。GPT-5.5 得分 70%,而 GPT-5.4 为 56%,Claude Opus 4.7 为 54%,差距在旧基准中常被掩盖。DeepSWE 使用原创任务而非公开 GitHub 问题,避免模型训练时见过答案。其提示词长度仅为 SWE-bench Pro 的一半,但解决方案需要 5.5 倍代码量和约 2 倍输出 token。评分方式也不同,DeepSWE 检查请求行为是否真正实现,而非仅依赖合并 PR 的测试。
AI模型基准测试编程能力GPT-5.5Claude Opus软件工程

推荐理由:做 AI 模型评估或选型的团队,DeepSWE 能帮你看到模型在长周期软件工程任务上的真实差距,建议关注这个新基准。
原文
5月26日
13:43
13:43IT之家(博客/媒体)
精选
阿里旗舰模型 Qwen3.7-Max 在权威编程榜单 Code Arena 上以 1541 分排名全球第二,仅次于 Claude 系列,超越了 Claude Opus 4.6、GLM-5.1 和 Kimi K2.6。Code Arena 采用用户随机盲测,防止刷榜,评估真实代码生成、调试和重构能力。此外,该模型在 Design Arena 榜单也位列第十。这标志着国产大模型在硬核编程能力上首次进入全球第一梯队。
AI模型Qwen3.7-Max阿里千问Code Arena编程能力国产大模型

推荐理由:国产模型首次在权威编程盲测中超越 Claude Opus 4.6,做 AI 编程工具选型或关注国产大模型进展的开发者值得关注,建议直接去 Code Arena 看榜单。
原文
5月20日
09:19
09:19IT之家(博客/媒体)
谷歌 DeepMind CEO 戴米斯·哈萨比斯在 I/O 大会前接受《连线》采访,批评 AI 将导致大规模裁员的说法别有用心,认为企业应利用 AI 提升生产力做更多事,而非裁员。他提到谷歌新模型 Gemini 3.5 Flash 具备强大编程能力,但强调不会取代开发者,反而会创造更多需求。哈萨比斯指出,试图用 AI 替代开发者的公司缺乏想象力,可能犯下大错。谷歌在 I/O 大会上发布了 Antigravity 编程工具等 AI 产品,Gemini 3.5 Pro 将于下月发布。
行业AI 裁员论DeepMindGemini 3.5 Flash编程能力哈萨比斯

推荐理由:哈萨比斯直接反驳了 AI 裁员论,给焦虑的开发者吃了定心丸——做编程或技术决策的人看完会松口气,建议点开了解他的完整观点。
原文
精选全部日报登录