23:45Aadit Sheth@aaditshElon Musk 宣布 Grok 4.5 基于 1.5T 参数的 V9 基础模型,并加入 Cursor 代码数据进行补充训练,已在 SpaceX 和 Tesla 内部私有 beta 测试。早期评估显示其性能接近甚至可能超过 Opus 模型,RL 持续优化模型。SpaceX 计划今年每月发布一个完全从零训练的新模型。目前 Cursor 拥有 700 万日活开发者,多数因使用 Claude 开始使用 Cursor。AI模型Grok 4.5CursorSpaceXOpus代码生成10 个信源在谈推荐理由:Grok 4.5 用 Cursor 数据训练,性能直逼 Opus,而且 SpaceX 要每月发新模型,代码圈和 AI 圈都该看看。原文
19:09IT之家(博客/媒体)71°马斯克称 Grok 4.5 基于 1.5 万亿参数的 V9 基础大模型,并引入 Cursor 数据训练。该模型已在 SpaceX 和特斯拉内部测试,早期评测显示其性能接近甚至有望超越 Opus 模型。马斯克还透露 SpaceX 今年每月推出一批完全从零训练的新模型。Grok 4.5 的强化学习及调度框架仍在持续迭代。AI模型Grok 4.5SpaceX特斯拉Opus基础模型7 个信源在谈推荐理由:Grok 4.5 用了 1.5 万亿参数和 Cursor 数据,内部测试已接近 Opus,想了解马斯克最新大模型进展可以看这篇。原文
13:28lmarena.ai@lmarena_ai精选Agent Arena通过代码编写、幻灯片制作等真实任务评估模型性能。Opus 4.8 Thinking每会话消耗较少token,质量提升+9.2%;Fable达到+14.1%的最高质量。GPT-5.5系列模型(+6.2%至+8.6%)以更少token超越前沿。Gemini-3.5 Flash消耗token最多但效果不佳,Grok Build 0.1消耗20K+ token却出现负提升。AI模型Agent ArenaOpusFableGPT-5.5推理模型推荐理由:想找token性价比高的模型?Agent Arena告诉你Opus和Fable有多能打,GPT-5.5也很省token。原文
12:21Nous Research@NousResearch精选NousResearch发布Hermes Agent,通过暴露MoA预设作为虚拟模型,提供超越公共前沿的能力。在即将发布的基准测试上,Hermes Agent比Opus 4.8高8%,比GPT 5.5高11%。该模型目前被限制访问,仅授予少数人。AI模型Hermes AgentOpusGPT 5.5NousResearch智能体推荐理由:Hermes Agent的MoA虚拟模型比Opus 4.8和GPT 5.5都强,分别高8%和11%,不过目前只能少数人用。原文
10:02shao__meng@shao__meng71°Snowflake CEO使用103个dbt任务对GLM和Opus进行3轮测试。GLM原始token消耗860M,Opus 439M,差距约2倍。差距源于GLM平均轮次99次(Opus 80次)、工具调用为原子化(Opus批量化)、缓存命中率53%(Opus 96%)。尾部失败案例主导均值:少数任务中GLM陷入400+次调用。归一化到90%缓存率后,GLM成本$1.12/session,Opus $2.14/session,GLM便宜48%。AI模型GLMOpusSnowflake推理模型成本对比推荐理由:Snowflake CEO用103个真实任务实测GLM和Opus,发现调整缓存后GLM成本不到Opus一半,适合注重预算的团队。原文
05:39lmarena.ai@lmarena_ai71°GLM-5.2 (Max) 在 Code Arena: Frontend 排名第二,仅次于 Fable 5,但击败了 Claude Opus 4.8 (Thinking) 和 Opus 4.7 (Thinking)。对 Kimi-K2.6 胜率 61.0%,对 Sonnet 4.6 胜率 59.4%,对 Opus 4.7 (Thinking) 胜率 55.0%。最接近的挑战来自 GPT-5.5 (xHigh)(41.7% vs 40.0%)和 Opus 4.6(47.0% vs 42.4%)。与前任 GLM-5.1 打成平手(45.5% - 45.5%)。在 Brand & Marketing、Data & Analytics 等多项子类别中排名第一。AI模型GLM-5.2OpusKimi-K2.6代码生成前端开发推荐理由:GLM-5.2 在前端任务上干掉了 Claude Opus 系列,对 Kimi 和 Sonnet 胜率超 60%,开源模型里相当能打。原文
12:04arXiv: DeepSeek@Haifeng Wu, Srinivasan Manoharan, Fangbo Tu, Junhua Zhao, Jian Wan精选RLM-Cascade是一个代理层投机解码系统,在响应级别优化LLM API调用。它使用DeepSeek作为草稿模型、Opus作为验证模型,并通过轻量复杂度路由器选择路径。在Claude Code生产环境中,系统达到88.8%的草稿使用率,API成本相比直接使用Opus降低45.8%。P50延迟从3698毫秒降至2026毫秒,实现1.83倍加速。在20个Code/Math/Instruct任务基准上,RLM-Cascade通过率达100%,高于Opus的95%。AI模型RLM-CascadeDeepSeekOpus投机解码智能体推荐理由:这个系统把DeepSeek和Opus组合起来,用投机解码省了近一半API成本,还快了一倍,质量也有提升,而且开源可部署。原文
14:19IT之家(博客/媒体)73°Anthropic 于 5 月 13 日宣布,Claude Agent SDK(包括通过第三方应用及 'claude -p' 调用)的计费方式将从标准订阅调整为按 API Token 用量计费,原定 6 月 15 日生效。开发者 Matthew Diakonov 分析,若以 Opus 模型作为主编码助手,第一周就会超过盈亏平衡点。代码编辑器 Zed 团队也警告用户这是一次“重大成本增加”。Anthropic 于 6 月 15 日更新支持页面,宣布暂停该变更,并表示目前没有任何变化。行业AnthropicClaude Agent SDKOpus智能体计费政策10 个信源在谈推荐理由:Anthropic 听取了开发者意见,暂停了 Claude Agent SDK 的 Token 计费变更,避免了成本飙升。如果你在用这个 SDK,现在可以松口气了。原文
13:35宝玉@dotey宝玉(@dotey)介绍了其日常整理AI资讯的Skill「info-digest」,该Skill基于Claude网页版+Opus 4.6生成初稿,再人工校验微调后发布到X和微博。提示词设计要点包括:从读者关心角度写作、联网检索做事实核查、交代背景信息、生成格式适配平台(纯文本、短小精炼)。完整Skill提示词开源于GitHub仓库JimLiu/Illustrated-Agent-Skill。技巧ClaudeOpusGitHub提示词工程写作技巧推荐理由:宝玉分享了他写AI资讯的Skill,提示词设计思路很实用——怎么让AI生成读者想看的内容、怎么联网查证避坑。原文
13:20AI Will@FinanceYF5Dan McAteer 分享了一种在 Claude Code 中高效使用 Claude Fable 的方法:将模型设置为 Fable 5,推理模式设为 Max,并让 Fable 作为编排者,Opus 负责推理重任务。这样能避免频繁触发使用限制,同时发挥各模型优势。该方法适用于需要复杂推理和长流程的自动化场景,能显著提升效率。技巧Claude CodeFableOpus模型编排最佳实践推荐理由:做复杂自动化流程的开发者,用这个方法能避开 Fable 的限额瓶颈,让 Fable 当调度、Opus 干重活,效率翻倍,值得一试。原文
02:47AI Engineer@aiDotEngineer精选Codex Spark生成代码速度达1200 tokens/秒,而Sonnet和Opus仅40-60 tokens/秒,快了约20倍。Cerebras的@MilksandMatcha指出,若开发者习惯不佳,更快速度只会导致更快生产坏代码。他提供了实用指南视频,帮助适应高速生成。技巧Codex SparkSonnetOpusCerebras编程助手推荐理由:Cerebras教你避免快速写坏代码原文
17:42AI Will@FinanceYF5Anthropic 内部工程负责人已几乎不再亲自写代码,而是依赖其模型 Opus 完成主要编码工作,自己仅负责编辑和审查。这表明 AI 编程能力已接近替代初级工程师的日常任务。虽然目前软件工程师仍有价值,但随着模型能力持续提升,这种角色转变可能加速。该趋势对开发者职业规划和技术团队分工有深远影响。行业AnthropicOpusAI 编程软件工程师职业转型5 个信源在谈推荐理由:AI 编程正在从辅助工具变成主力,做软件开发的团队和个人需要重新思考自己的角色定位——是继续写代码还是转向编辑和架构设计,建议点开看看这个真实案例。原文
01:41berryxia@berryxiaSlides Arena 发布了基于 370 万+ 真实创作者使用场景的 Agentic Slides 排行榜,Anthropic 的 Opus 4.7 包揽前两名,智谱的 GLM 5.1 位列第三。该排行榜基于真实世界的幻灯片生成场景,强调逻辑、创意和设计感,而非实验室 benchmark。结果显示 Claude 在 Agentic 设计领域仍具领先优势,但 GLM 表现亮眼。AI产品GLMOpusAgentic SlidesPPT设计排行榜10 个信源在谈推荐理由:做 PPT 设计或 Agentic 内容生成的团队,这份基于 370 万真实场景的排行榜值得参考——GLM 5.2 能紧追 Opus 4.7,说明国产模型在创意密集型任务上已有竞争力,建议点开看看完整榜单。原文