全部 AI 动态 · AI 热点

6月28日

23:45

Aadit Sheth@aaditsh

Elon Musk 宣布 Grok 4.5 基于 1.5T 参数的 V9 基础模型，并加入 Cursor 代码数据进行补充训练，已在 SpaceX 和 Tesla 内部私有 beta 测试。早期评估显示其性能接近甚至可能超过 Opus 模型，RL 持续优化模型。SpaceX 计划今年每月发布一个完全从零训练的新模型。目前 Cursor 拥有 700 万日活开发者，多数因使用 Claude 开始使用 Cursor。

AI模型 Grok 4.5 Cursor SpaceX Opus 代码生成

推荐理由：Grok 4.5 用 Cursor 数据训练，性能直逼 Opus，而且 SpaceX 要每月发新模型，代码圈和 AI 圈都该看看。

原文

19:09

19:09IT之家（博客/媒体）

71°

马斯克称 Grok 4.5 基于 1.5 万亿参数的 V9 基础大模型，并引入 Cursor 数据训练。该模型已在 SpaceX 和特斯拉内部测试，早期评测显示其性能接近甚至有望超越 Opus 模型。马斯克还透露 SpaceX 今年每月推出一批完全从零训练的新模型。Grok 4.5 的强化学习及调度框架仍在持续迭代。

AI模型 Grok 4.5 SpaceX 特斯拉 Opus 基础模型

推荐理由：Grok 4.5 用了 1.5 万亿参数和 Cursor 数据，内部测试已接近 Opus，想了解马斯克最新大模型进展可以看这篇。

原文

6月27日

13:28

lmarena.ai@lmarena_ai

精选

Agent Arena通过代码编写、幻灯片制作等真实任务评估模型性能。Opus 4.8 Thinking每会话消耗较少token，质量提升+9.2%；Fable达到+14.1%的最高质量。GPT-5.5系列模型（+6.2%至+8.6%）以更少token超越前沿。Gemini-3.5 Flash消耗token最多但效果不佳，Grok Build 0.1消耗20K+ token却出现负提升。

AI模型 Agent Arena Opus Fable GPT-5.5 推理模型

推荐理由：想找token性价比高的模型？Agent Arena告诉你Opus和Fable有多能打，GPT-5.5也很省token。

原文

12:21

Nous Research@NousResearch

精选

NousResearch发布Hermes Agent，通过暴露MoA预设作为虚拟模型，提供超越公共前沿的能力。在即将发布的基准测试上，Hermes Agent比Opus 4.8高8%，比GPT 5.5高11%。该模型目前被限制访问，仅授予少数人。

AI模型 Hermes Agent Opus GPT 5.5 NousResearch 智能体

推荐理由：Hermes Agent的MoA虚拟模型比Opus 4.8和GPT 5.5都强，分别高8%和11%，不过目前只能少数人用。

原文

6月26日

10:02

shao__meng@shao__meng

71°

Snowflake CEO使用103个dbt任务对GLM和Opus进行3轮测试。GLM原始token消耗860M，Opus 439M，差距约2倍。差距源于GLM平均轮次99次（Opus 80次）、工具调用为原子化（Opus批量化）、缓存命中率53%（Opus 96%）。尾部失败案例主导均值：少数任务中GLM陷入400+次调用。归一化到90%缓存率后，GLM成本$1.12/session，Opus $2.14/session，GLM便宜48%。

AI模型 GLM Opus Snowflake 推理模型成本对比

推荐理由：Snowflake CEO用103个真实任务实测GLM和Opus，发现调整缓存后GLM成本不到Opus一半，适合注重预算的团队。

原文

6月25日

05:39

lmarena.ai@lmarena_ai

71°

GLM-5.2 (Max) 在 Code Arena: Frontend 排名第二，仅次于 Fable 5，但击败了 Claude Opus 4.8 (Thinking) 和 Opus 4.7 (Thinking)。对 Kimi-K2.6 胜率 61.0%，对 Sonnet 4.6 胜率 59.4%，对 Opus 4.7 (Thinking) 胜率 55.0%。最接近的挑战来自 GPT-5.5 (xHigh)（41.7% vs 40.0%）和 Opus 4.6（47.0% vs 42.4%）。与前任 GLM-5.1 打成平手（45.5% - 45.5%）。在 Brand & Marketing、Data & Analytics 等多项子类别中排名第一。

AI模型 GLM-5.2 Opus Kimi-K2.6 代码生成前端开发

推荐理由：GLM-5.2 在前端任务上干掉了 Claude Opus 系列，对 Kimi 和 Sonnet 胜率超 60%，开源模型里相当能打。

原文

6月23日

12:04

arXiv: DeepSeek@Haifeng Wu, Srinivasan Manoharan, Fangbo Tu, Junhua Zhao, Jian Wan

精选

RLM-Cascade是一个代理层投机解码系统，在响应级别优化LLM API调用。它使用DeepSeek作为草稿模型、Opus作为验证模型，并通过轻量复杂度路由器选择路径。在Claude Code生产环境中，系统达到88.8%的草稿使用率，API成本相比直接使用Opus降低45.8%。P50延迟从3698毫秒降至2026毫秒，实现1.83倍加速。在20个Code/Math/Instruct任务基准上，RLM-Cascade通过率达100%，高于Opus的95%。

AI模型 RLM-Cascade DeepSeek Opus 投机解码智能体

推荐理由：这个系统把DeepSeek和Opus组合起来，用投机解码省了近一半API成本，还快了一倍，质量也有提升，而且开源可部署。

原文

6月17日

14:19

14:19IT之家（博客/媒体）

73°

Anthropic 于 5 月 13 日宣布，Claude Agent SDK（包括通过第三方应用及 'claude -p' 调用）的计费方式将从标准订阅调整为按 API Token 用量计费，原定 6 月 15 日生效。开发者 Matthew Diakonov 分析，若以 Opus 模型作为主编码助手，第一周就会超过盈亏平衡点。代码编辑器 Zed 团队也警告用户这是一次“重大成本增加”。Anthropic 于 6 月 15 日更新支持页面，宣布暂停该变更，并表示目前没有任何变化。

行业 Anthropic Claude Agent SDK Opus 智能体计费政策

推荐理由：Anthropic 听取了开发者意见，暂停了 Claude Agent SDK 的 Token 计费变更，避免了成本飙升。如果你在用这个 SDK，现在可以松口气了。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

13:35

宝玉@dotey

宝玉(@dotey)介绍了其日常整理AI资讯的Skill「info-digest」，该Skill基于Claude网页版+Opus 4.6生成初稿，再人工校验微调后发布到X和微博。提示词设计要点包括：从读者关心角度写作、联网检索做事实核查、交代背景信息、生成格式适配平台（纯文本、短小精炼）。完整Skill提示词开源于GitHub仓库JimLiu/Illustrated-Agent-Skill。

技巧 Claude Opus GitHub 提示词工程写作技巧

推荐理由：宝玉分享了他写AI资讯的Skill，提示词设计思路很实用——怎么让AI生成读者想看的内容、怎么联网查证避坑。

原文

6月12日

13:20

AI Will@FinanceYF5

Dan McAteer 分享了一种在 Claude Code 中高效使用 Claude Fable 的方法：将模型设置为 Fable 5，推理模式设为 Max，并让 Fable 作为编排者，Opus 负责推理重任务。这样能避免频繁触发使用限制，同时发挥各模型优势。该方法适用于需要复杂推理和长流程的自动化场景，能显著提升效率。

技巧 Claude Code Fable Opus 模型编排最佳实践

推荐理由：做复杂自动化流程的开发者，用这个方法能避开 Fable 的限额瓶颈，让 Fable 当调度、Opus 干重活，效率翻倍，值得一试。

原文

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

5月23日

02:47

AI Engineer@aiDotEngineer

精选

Codex Spark生成代码速度达1200 tokens/秒，而Sonnet和Opus仅40-60 tokens/秒，快了约20倍。Cerebras的@MilksandMatcha指出，若开发者习惯不佳，更快速度只会导致更快生产坏代码。他提供了实用指南视频，帮助适应高速生成。

技巧 Codex Spark Sonnet Opus Cerebras 编程助手

推荐理由：Cerebras教你避免快速写坏代码

原文

5月18日

17:42

AI Will@FinanceYF5

Anthropic 内部工程负责人已几乎不再亲自写代码，而是依赖其模型 Opus 完成主要编码工作，自己仅负责编辑和审查。这表明 AI 编程能力已接近替代初级工程师的日常任务。虽然目前软件工程师仍有价值，但随着模型能力持续提升，这种角色转变可能加速。该趋势对开发者职业规划和技术团队分工有深远影响。

行业 Anthropic Opus AI 编程软件工程师职业转型

推荐理由：AI 编程正在从辅助工具变成主力，做软件开发的团队和个人需要重新思考自己的角色定位——是继续写代码还是转向编辑和架构设计，建议点开看看这个真实案例。

原文

5月17日

01:41

berryxia@berryxia

Slides Arena 发布了基于 370 万+ 真实创作者使用场景的 Agentic Slides 排行榜，Anthropic 的 Opus 4.7 包揽前两名，智谱的 GLM 5.1 位列第三。该排行榜基于真实世界的幻灯片生成场景，强调逻辑、创意和设计感，而非实验室 benchmark。结果显示 Claude 在 Agentic 设计领域仍具领先优势，但 GLM 表现亮眼。

AI产品 GLM Opus Agentic Slides PPT设计排行榜

推荐理由：做 PPT 设计或 Agentic 内容生成的团队，这份基于 370 万真实场景的排行榜值得参考——GLM 5.2 能紧追 Opus 4.7，说明国产模型在创意密集型任务上已有竞争力，建议点开看看完整榜单。

原文