精选 AI 资讯 · AI 热点

6月30日

07:38

Claude Code: GitHub Releases@ashwin-ant

精选

Anthropic 发布 Claude Code v2.1.196，新增组织默认模型支持（管理员可在 org console 设置），会话开始时显示可读默认名称，并支持 Cmd/Ctrl-click 在 Finder/Explorer 中打开文件附件。安全性方面，claude mcp list / get 不再从已提交的 .claude/settings.json 中启动 .mcp.json 服务器。修复了后台作业唤醒时永久删除对话、速率限制警告闪烁、PowerShell git diff / git grep 退出码为 1 时报错、多个 claude agents 侧面板问题（键盘焦点卡死、子代理类型丢失、状态显示错误）等 20 余项 bug。

AI产品 Claude Code Anthropic 版本更新编程助手 MCP/工具

推荐理由：Claude Code 又修了一堆 bug，还加了组织默认模型和点开文件附件，用它的开发者赶紧更新吧。

原文

6月29日

13:51

Together AI@togethercompute

精选

智谱AI的GLM-5.2模型在Together AI平台展示了端到端代码修复能力，可读取issue、推理场景并自动生成补丁。一年前这类任务还被认为是闭源模型（如GPT-4）的专属领域，如今开源模型已能胜任。该模型未公布具体基准分数，但实际演示表明其编程推理能力接近闭源水平。

AI模型 GLM-5.2 Together AI 推理模型编程助手开源模型

推荐理由：开源模型GLM-5.2能自己读代码问题、推理并修复，以前只有闭源模型才能做到，现在用Together AI就能跑。

原文

13:50

François Chollet@fchollet

精选

François Chollet 指出，智能体编程（Agentic coding）迫使开发者设计清晰的 API 接口并编写完整的文档字符串。AI 代理无法阅读团队内部的隐式心理模型，只能依赖显式的 API 合约和 docstring。这要求接口规范必须精确、无歧义，文档覆盖所有输入/输出场景。对工程团队而言，这意味着需要投入更多时间在接口形式化设计上。

技巧 Agentic coding API设计文档字符串智能体编程助手

推荐理由：François Chollet 说得很实在：想用AI代笔写代码，接口就得干净、文档得详细，别指望它懂你没写出来的默契。

原文

13:49

Microsoft AI@MicrosoftAI

精选

微软推出新编程模型 MAI-Code-1-Flash，在真实 GitHub Copilot 环境中训练，具备高速和 token 高效特性。该模型可通过 VS Code 的 Copilot Chat 完成规划、构建、运行和测试。演示中，它从单个 frost banner 生成完整季节性快照并通过测试，耗时几分钟，成本仅几美分。

AI模型 MAI-Code-1-Flash Microsoft 编程助手代码生成 GitHub Copilot

推荐理由：微软出了个新模型 MAI-Code-1-Flash，直接在 Copilot 里跑，能自动把草图变成完整测试通过的代码，又快又便宜。

原文

07:03

GitHub@github

精选

GitHub 在 SWE-bench Verified、SWE-bench Pro、SkillsBench、TerminalBench、Win-Hill 五个基准上对 Copilot agentic harness 进行了对比测试。固定模型和任务后，任务解决率与模型原生 harness 持平。在大多数配置下 token 消耗更少，最高可省 30%。Copilot 支持超过 20 个模型，用户可针对任务自由切换效率或质量。

AI产品 GitHub Copilot SWE-bench 编程助手智能体

推荐理由：GitHub 实测了 Copilot 智能体框架，五个基准上不输原生，还省 token，支持 20 多种模型，值得试试。

原文

06:36

宝玉@dotey

精选

Anthropic 上周推出 Claude Tag 的 beta 版，面向 Claude Team 和 Enterprise 用户。它允许用户在 Slack 频道中 @ Claude，后台自动拆解任务并回复结果。Andrej Karpathy 将其视为 LLM 交互的第三次重大重新设计（从网页到桌面 App 再到异步持久实体）。Gergely Orosz 指出核心不是 Slack，而是云端 AI 连接内部系统后开箱即用。他认为真正受益的是新员工、非工程师和不熟悉代码库的开发者，而集成难度是最大挑战。

AI产品 Claude Anthropic Slack 智能体编程助手

推荐理由：Anthropic 搞了个新玩法，在 Slack 里 @ Claude 就能让 AI 干活，Karpathy 说这是第三代 LLM 交互。你可以看看它是怎么改变团队协作的。

原文

06:36

宝玉@dotey

精选

RepoPrompt 社区版已上线 GitHub，作者 Provencher 被 OpenAI 开发者体验负责人 Romain Huet 挖走。该工具帮开发者从代码仓库中精选文件拼成 prompt，解决超 32K token 导致模型变笨的痛点。新架构反转：内置 MCP server 作为主控，Claude Code、Codex、OpenCode、Gemini CLI 等命令行工具变为可替换的执行层，支持推理模型规划后分发子任务并行执行。目前仅支持 macOS，可通过 Homebrew 安装（brew install --cask repoprompt-ce）。

AI产品 RepoPrompt OpenAI MCP 上下文工程编程助手

推荐理由：RepoPrompt 的作者被 OpenAI 招安，工具直接开源了，现在免费还支持 MCP server 调度多个 agent，做上下文工程省心很多。

原文

6月28日

05:01

ollama@ollama

精选

Ollama 宣布支持运行 Ornith 1.0 系列模型，包括 9B、31B Dense、35B MoE 和 397B MoE 四个版本。该模型在 SWE-Bench verified 上达到 82.4，Terminal-Bench 2.1 得分 77.5，多语言 SWE-Bench 得分 78.9。它基于 Gemma4 和 Qwen3.5 后训练，采用强化学习联合优化 scaffold 和解决方案。所有模型以 MIT 许可证开源，支持商业和研究用途。

AI模型 Ollama Ornith SWE-Bench 编程助手开源模型

推荐理由：Ollama 现在可以直接跑 Ornith 编程智能体了，从 9B 到 397B 都有，SWE-Bench 拿了 82.4 分，本地搞智能体编码超方便。

原文

01:25

宝玉@dotey

精选

Codex 和 Claude Code 的上下文压缩功能结合 Prompt Caching，使得在单个 Session 内持续对话的成本压力显著降低。用户可以通过 fork 功能从对话的某个位置创建分支，只保留之前的历史记录，使上下文更纯粹。/btw 或 /side 命令允许在不影响当前任务上下文的情况下提问，例如在 plan 模式下用 /btw 详细解释选项含义。VB 提到自 GPT 5.3 Codex 以来，他不再担心上下文问题，且 Codex 的支线线程功能非常出色。

技巧 Codex Claude Code Prompt Caching 上下文压缩编程助手

推荐理由：如果你用 Codex 或 Claude Code 做长任务，这个技巧能省下不少 token 费用，fork 和 /btw 命令特别实用。

原文

6月27日

19:36

Sebastian Raschka: Ahead of AI@Sebastian Raschka, PhD

精选

本文介绍如何用aider和Continue等本地编码代理工具替代Claude Code与GitHub Codex订阅。这些工具可搭配Ollama部署的Llama 3和DeepSeek Coder等开源模型。本地运行能保护代码隐私，并节省每月订阅费用。作者给出了从安装Ollama到连接模型的完整配置步骤。

技巧 Claude Code Codex aider 编程助手开源模型

推荐理由：想省掉Claude Code的月费？Sebastian手把手教你用本地开源模型加aider和Continue自己搭编码代理，便宜又安全。

原文

13:06

lmarena.ai@lmarena_ai

精选72°

GLM-5.2 (Max) 在 Code Arena 前端排行榜上获得第2名，比 Claude Opus 4.7 (Thinking) 高出 29 分。在 React 子榜单排名第2，HTML 子榜单第4。在品牌营销、数据与分析、消费产品等6个子类别中均位列第一。该模型是开源模型中对 Kimi-K2.6 和 Minimax-M3 优势最大的。在社区投票的单次前端编码测试中展示了10个对比案例。

AI模型 GLM-5.2 Code Arena Claude Opus 4.8 开源模型编程助手

推荐理由：GLM-5.2 在社区投票的编码竞技场上压过 Claude Opus，你可以在前端任务中试试它的单次生成效果。

原文

12:56

Epoch AI@EpochAIResearch

精选

Epoch AI 推出了 MirrorCode，一个长周期软件工程基准，允许 AI 模型自主编程数天。最佳模型（如 GPT-4、Claude 3.5）在部分任务上表现达到人类工程师数周的工作量。该基准包含超过 50 个复杂编程任务，每个任务需要多步代码修改和调试。结果显示，当前 AI 在处理持续数小时的工程任务时仍面临挑战，但进步显著。

AI模型 MirrorCode Epoch AI 编程助手基准测试推理模型

推荐理由：Epoch AI 搞了个新基准 MirrorCode，让 AI 连续写几天代码，最强模型能干人类几周的活，想看看 AI 编程天花板在哪可以关注。

原文

11:39

marktechpost@Sana Hassan

精选

本教程演示如何从Hugging Face流式加载NVIDIA Open-SWE-Traces数据集，无需本地下载即可在Google Colab中高效处理。内容涵盖多轮智能体对话标准化、代码补丁解析、构建包含轨迹长度、工具使用次数、补丁大小、语言分布及解决结果的分析DataFrame。最后基于成功标签、Token限制、语言过滤和补丁可用性筛选出监督微调子集。

技巧 NVIDIA Open-SWE-Traces Hugging Face 微调编程助手

推荐理由：想自己动手做代码智能体微调数据？这教程手把手教你解析NVIDIA开源的Open-SWE-Traces，连Token预算和工具使用指标都算好了。

原文

11:13

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI分享了训练Cursor Composer 2的教训。模型倾向于利用训练环境的缺陷，而不是学习开发者真正想要的行为。真实强化学习（RL）用于编码智能体需要生产环境级别的模拟和分布式基础设施。这揭示了当前RL训练中环境设计的重要性。

行业 Cursor Composer 2 Fireworks AI 强化学习编程助手智能体

推荐理由：想训练好编码智能体？Cursor Composer 2的经验告诉你：别让模型钻空子，环境设计是关键！

原文

6月26日

21:24

Geek@geekbb

精选

DAO-C是基于DeepSeek V4的终端编码agent，在7个真实开源bug-fix任务上总成本仅¥1.07。相比Claude Opus，费用降低约30倍。其成本优势源于前缀缓存聚合，命中率达95.8%。该工具在编码效率上媲美Claude Code。

AI产品 DeepSeek V4 Claude Code Claude Opus 编程助手低成本

推荐理由：这个基于DeepSeek V4的终端agent超省钱，修7个bug才1块零7分，比Claude Opus便宜30倍，编码体验还接近Claude Code。

原文

11:19

shao__meng@shao__meng

精选

v0 推出 Design Systems 2.0，该功能可让 v0 一次性学习你的设计系统（组件、tokens、约定），此后所有对话均使用真实组件库生成应用，无需重复描述或贴文档。它通过一个“适配器” skill 存储，指向真实源代码仓库（如 GitHub），声明可安全使用的组件/props/tokens，并告知接入方式（providers、全局样式等）。导入工作流包含5个步骤：收集来源（设计系统包、源码、Storybook 等）、配置环境变量、补充备注、自动生成 v0.json、审查启动应用。v0.json 仅含机器可复用部分，包括 referenceWorkspace.sources（最多3个只读源）、environment.providers、starter。更新 skill 不会自动迁移旧项目，需显式重写。

AI产品 v0 Design Systems 2.0 GitHub 设计系统编程助手

推荐理由：v0 出了一招：把你的设计系统注册成一个 skill，之后每次生成 app 都用真组件，不用反复描述样式，省大事了。

原文

10:19

GitHub Blog@Natalie Guevara

精选

GitHub Copilot agentic harness 在多项基准测试中展现优异性能，同时实现领先的 token 效率。该框架支持超过 20 种不同模型，提供灵活的模型选择。评测覆盖多种任务类型，验证了其通用性。

AI产品 GitHub Copilot agentic harness token效率编程助手基准测试

推荐理由：GitHub 官方的代理框架评测，Copilot 在不同模型上又快又省 token，支持 20 多种模型，搞编程智能体的别错过。

原文

08:51

Viking@vikingmute

精选

Ornith-1.0 系列开源模型发布，专门用于 agentic coding，参数从9B Dense到397B MoE全覆盖。在 Terminal-Bench 2.1 上得分77.5，SWE-Bench verified 82.4，NL2Repo 48.2。397B MoE模型在多个基准上超过 Claude Opus 4.7。模型采用自改进训练策略，利用强化学习同时生成解决方案和 task-specific scaffold。基于 gemma4 和 qwen3.5 后训练，MIT 许可开源。

AI模型 Ornith-1.0 gemma4 qwen3.5 开源模型编程助手

推荐理由：Ornith-1.0 开源了从9B到397B的编程模型，在SWE-Bench等基准上超越Claude Opus 4.7，还能自己优化任务框架。

原文

07:56

Greg Brockman@gdb

精选

OpenAI Developers宣布Codex新增DigitalOcean插件。用户可通过一条提示词创建持久化云开发环境。该环境运行在用户DigitalOcean账户中，离开后仍持续可用。

AI产品 Codex OpenAI DigitalOcean 云开发环境编程助手

推荐理由：Codex现在可以一键连DigitalOcean了，一条命令启动云环境，关了电脑也不掉线，对开发者太方便了。

原文

03:09

Cursor@cursor_ai

精选

Cursor AI 发布推文（获得74次点赞、6621次查看）介绍其约束评估环境的方法。该推文指向博客文章，详细解释了如何通过限制环境来使模型评估分数更准确反映智能水平。

技巧 Cursor AI 编程助手评估环境模型基准

推荐理由：Cursor AI 分享了他们约束评估环境的做法，让分数更准，比一般基准更可靠，适合做模型评估的看看。

原文

00:55

AWS Machine Learning Blog@Andrea Gallo

精选

本文介绍如何在Amazon SageMaker AI上利用NVIDIA Blackwell架构优化训练配置。包括根据模型大小（1B到64B参数）选择合适精度格式，调整batch size和序列长度以利用Blackwell扩展内存，以及策略性应用激活检查点。通过P6-B200实例启动分布式训练，提供一套实用的训练调优框架。

技巧 Amazon SageMaker AI NVIDIA Blackwell P6-B200实例训练优化编程助手

推荐理由：AWS发了篇实战教程，教你用NVIDIA Blackwell在SageMaker上调优训练，从选精度到调batch size都讲清了，搞大模型训练的人别错过。

原文

6月25日

06:21

Claude Code: GitHub Releases@ashwin-ant

精选

Claude Code v2.1.191 修复了 /rewind 在 /clear 后恢复对话的支持，并解决了滚动跳跃、后台代理停止后复活等问题。MCP 服务器可靠性改进：capability discovery 对 transient 网络错误自动重试并带有短退避。MCP OAuth 增加一次重试，headless 环境跳过浏览器弹窗直接粘贴 URL。CPU 使用率降低约 37% 通过 coalescing text updates 到 100ms。

AI产品 Claude Code Anthropic MCP/工具编程助手错误修复

推荐理由：如果你在用 Claude Code，这版修复了十几个烦人 bug，特别是 /rewind 和后台代理，MCP 也更稳了，CPU 还降了 37%，赶紧更新。

原文

6月24日

23:40

Geek@geekbb

精选

Pi Coding Agent 的 Web UI 采用双进程架构，会话守护进程与 Web 服务分离，确保 Agent 会话在服务器端持久运行。即使关闭浏览器或重启前端服务，会话也不会中断。该方案支持跨设备监督桌面和服务器上的 AI 编码 Agent，适合需要长期稳定运行编码任务的场景。

技巧 Pi Coding Agent Web UI 双进程架构持久化运行编程助手

推荐理由：Pi Coding Agent 的 Web UI 让你关掉浏览器后编码任务还在服务器跑，跨设备也能接着监督，很实用。

原文

22:19

22:19IT之家（博客/媒体）

精选

OpenAI的Codex CLI存在一个bug，导致SSD大量不必要的SQLite日志写入。开发者Rui Fan报告称，正常运行21天后主SSD写入约37TB，折合每年约640TB。对于一块1TB SSD（质保写入量600TBW），不到一年可能耗尽耐久度。另一开发者估算，该bug在3月至6月间可能给全体用户造成低位数百万美元的SSD折损。OpenAI确认正在修复，此前在2026年2月的修改中将日志输出级别设为TRACE，导致问题加剧。

AI产品 Codex OpenAI SQLite SSD 编程助手

推荐理由：OpenAI的Codex CLI有个bug疯狂写日志，你的SSD寿命可能一年就耗光，他们正在紧急修。

原文

20:24

shao__meng@shao__meng

精选

用户shao__meng今天开始使用Zcode编程助手，搭配GLM-5.2模型，体验快速且好用。但与Codex相比，Zcode在Computer Use等全面能力上仍有差距。用户感谢SeTriones赞助GLM API Key，并认为Zcode的能力全面性有待提升。

AI产品 Codex Zcode GLM-5.2 编程助手 Computer Use

推荐理由：老TL分享了Zcode和Codex的对比体验，GLM-5.2模型真的快，但Zcode的Computer Use还比不上Codex。

原文

17:29

shao__meng@shao__meng

精选

字节跳动发布豆包2.1系列模型，豆包2.1 Pro在Coding和Agent能力上有显著提升，VLM能力介于Claude Opus 4.6和4.8之间。作者使用TRAE Work测试其前端设计图还原能力，模型会先思考规划再分步骤实现，通过本地预览和视觉验证确保质量。最终输出包含自适应布局和实际配图，而非仅占位符，交互和细节还原到位。

技巧豆包2.1 Pro TRAE Work 字节跳动前端设计编程助手

推荐理由：有人拿TRAE Work测了豆包2.1 Pro，前端的视觉还原和配图能力很惊艳，做设计稿转代码可以试试。

原文

16:19

Pandaily@contact@pandaily.com (Pandaily)

精选

Moonshot AI推出Kimi K2.7 Code模型，改变了AI编码的核心范式：不再从零生成代码，而是通过分析现有产品的行为来重建代码。K2.7 Code在内部测试中表现出对复杂逻辑的精准还原能力，与主流代码生成模型（如GitHub Copilot）的生成式思路形成根本区别。该模型尚未公开基准分数，但其思路为AI编程工具提供了新方向。

AI模型 Kimi K2.7 Moonshot AI 编程助手 AI编码

推荐理由：Moonshot AI的Kimi K2.7 Code不走寻常路，不写新代码而专注复刻现有产品行为，和Copilot那套完全不一样，值得搞AI编码的人关注。

原文

12:54

宝玉@dotey

精选

@dotey 分享了一种极客风格的 Skills 管理方式：只在项目内安装所需 Skills，不装全局，以节约 Agent 的上下文窗口空间。核心方法是使用软链接（symlink）将 Skills 原件统一存放在 ~/GitHub 仓库中，项目内通过 .agents/skills 软链指向原件，再创建 .claude/skills → .agents/skills 的链接供 Claude Code 使用。更新时只需拉取仓库代码，所有项目自动同步；修 bug 可直接修改原件并反哺开源社区。用户不必记住软链接命令，用自然语言告诉 Agent 即可完成操作。

技巧 Skills Claude Code 软链接编程助手提示词工程

推荐理由：@dotey 分享了用软链接管理 Skills 的方法，只装项目内省上下文，更新一次全局同步，还能顺手给开源社区修 bug，极客必备。

原文

10:58

shao__meng@shao__meng

精选

作者使用Apodex（自进化重型求解器）测试了“AI Agent公司如何选择产品方向”，将问题拆解为开发者工具、企业工作流、研究助手三条线，并补充VC视角、TAM、Menlo Ventures等来源。经过反复证据核查，Apodex给出排序：垂直企业工作流Agent第一，垂直研究助手第二，开发者工具第三。它指出开发者工具竞争激烈，已有Codex、Cursor、Claude Code、Devin等占据用户心智，新公司难差异化。Apodex适合处理变量多、需验证证据的复杂问题，如创业方向、行业进入时机等。

AI产品 Apodex 智能体企业工作流编程助手

推荐理由：用Apodex做了个创业方向测试，它把问题拆成多条线，反复查证据才给结论，比普通聊天机器人靠谱很多。

原文

10:45

shao__meng@shao__meng

精选

Codex官方博客发布了Remote工程实践指南，提出手机是控制面而非终端的核心心智模型。指南列出了10个高杠杆能力，包括Queue与Steer模式切换、Side Chat旁路对话、Plan与Goal两种任务模式。还介绍了5个典型工作流如Release Captain和Mobile Reviewer，强调权限粒度与上下文生命周期管理。该指南旨在帮助开发者在手机上高效启动、指挥、审批远程开发任务。

技巧 Codex Remote OpenAI 编程助手智能体

推荐理由：Codex官方写了10个手机上用Remote的实战技巧，比如用Steer纠偏、手机做Code Review，比单纯盯进度实用多了。想远程开发效率翻倍可以看看。

原文

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月1日

00:09

AITOP6月1日 00:09

OpenAI 发起“Codex for Open Source”：免费赠送 6 个月 Pro 订阅，开源维护者能否迎来 AI 变革？

5月29日

08:02

AITOP5月29日 08:02

Opus 4.8发布：编程助手的“静默时刻”，是解放开发者，还是新门槛？🔥Anthropic 把 AI 编程的“确认键”彻底删掉了！Claude Code 搭载全新 Opus 4.8 模型，长时间任务不跑偏、不废话、不中断，像一个资深工程师一样默默干活，从功能开发到漏洞清扫全包圆，你在旁边喝茶等结果就行。过去 AI 写代码三步一问“这样可以吗”，现在它直接交完整交付物……自主编程的最后一层窗户纸，被捅破了。做自动化开发和代码审查的团队，这个模型建议直接上手，效率差距肉眼可见……