全部 AI 动态 · AI 热点

6月26日

10:46

10:46

arXiv cs.LG@Yingyu Lin, Qiyue Gao, Nikki Lijing Kuang, Xunpeng Huang, Kun Zhou, Tongtong Liang, Zhewei Yao, Yi-An Ma, Yuxiong He

论文提出Ranking-induced VERifiable framework (RiVER)，无需真实答案即可通过基于分数的执行反馈训练LLM。在12个AtCoder Heuristic Contest任务上训练后，Qwen3-8B在Algorithm Engineering Benchmark (ALE-Bench)上的rating rank提升8.9%，GLM-Z1-9B-0414提升9.4%。同时，RiVER在LiveCodeBench和USACO等精确求解基准上分别带来2.4%和3.5%的绝对平均提升。对比基线表明，仅用原始执行分数训练可提升ALE rating但无法泛化到精确求解任务。

论文 RiVER Qwen3-8B GLM-Z1-9B-0414 强化学习编程能力

推荐理由：论文介绍RiVER，用强化学习训练模型解决无标准答案的得分优化问题，还能顺带提升常规编程基准，实用思路值得一看。

6月23日

23:00

23:00

量子位@十三

73°

字节跳动发布豆包2.1，其Agent可在18小时内自动完成芯片设计代码编写。在编程基准测试中，豆包2.1的表现比肩Opus 4.7。该版本强化了自主编程和长时任务执行能力，适用于复杂工程场景。

AI模型豆包2.1 字节跳动智能体芯片设计编程能力

推荐理由：豆包2.1的Agent太能干了，独自跑18小时写出芯片代码，编程水平还追上了Opus 4.7，做硬件的可以关注下。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月28日

05:21

05:21

rohanpaul_ai@rohanpaul_ai

72°

Datacurve 推出 DeepSWE，一个更严格的编程基准测试，旨在揭示领先模型之间的真实差距。GPT-5.5 得分 70%，而 GPT-5.4 为 56%，Claude Opus 4.7 为 54%，差距在旧基准中常被掩盖。DeepSWE 使用原创任务而非公开 GitHub 问题，避免模型训练时见过答案。其提示词长度仅为 SWE-bench Pro 的一半，但解决方案需要 5.5 倍代码量和约 2 倍输出 token。评分方式也不同，DeepSWE 检查请求行为是否真正实现，而非仅依赖合并 PR 的测试。

AI模型基准测试编程能力 GPT-5.5 Claude Opus 软件工程

推荐理由：做 AI 模型评估或选型的团队，DeepSWE 能帮你看到模型在长周期软件工程任务上的真实差距，建议关注这个新基准。

5月26日

13:43

13:43IT之家（博客/媒体）

精选

阿里旗舰模型 Qwen3.7-Max 在权威编程榜单 Code Arena 上以 1541 分排名全球第二，仅次于 Claude 系列，超越了 Claude Opus 4.6、GLM-5.1 和 Kimi K2.6。Code Arena 采用用户随机盲测，防止刷榜，评估真实代码生成、调试和重构能力。此外，该模型在 Design Arena 榜单也位列第十。这标志着国产大模型在硬核编程能力上首次进入全球第一梯队。

AI模型 Qwen3.7-Max 阿里千问 Code Arena 编程能力国产大模型

推荐理由：国产模型首次在权威编程盲测中超越 Claude Opus 4.6，做 AI 编程工具选型或关注国产大模型进展的开发者值得关注，建议直接去 Code Arena 看榜单。

5月20日

09:19

09:19IT之家（博客/媒体）

谷歌 DeepMind CEO 戴米斯·哈萨比斯在 I/O 大会前接受《连线》采访，批评 AI 将导致大规模裁员的说法别有用心，认为企业应利用 AI 提升生产力做更多事，而非裁员。他提到谷歌新模型 Gemini 3.5 Flash 具备强大编程能力，但强调不会取代开发者，反而会创造更多需求。哈萨比斯指出，试图用 AI 替代开发者的公司缺乏想象力，可能犯下大错。谷歌在 I/O 大会上发布了 Antigravity 编程工具等 AI 产品，Gemini 3.5 Pro 将于下月发布。

行业 AI 裁员论 DeepMind Gemini 3.5 Flash 编程能力哈萨比斯

推荐理由：哈萨比斯直接反驳了 AI 裁员论，给焦虑的开发者吃了定心丸——做编程或技术决策的人看完会松口气，建议点开了解他的完整观点。