全部 AI 动态 · AI 热点

6月29日

13:49

Ethan Mollick@emollick

GLM-5.2是一款开源模型，其性能不及GPT-5.5和Opus 4.8，更远不及Mythos。但它表现扎实，表明开源模型持续追赶前沿。当前开源权重已触及GPT-5.2水平，在该能力区间表现显著。这一进展说明开源模型正在缩小与闭源前沿的差距。

AI模型 GLM-5.2 GPT-5.5 Opus 4.8 Mythos 开源模型

推荐理由：GLM-5.2虽然没追上GPT-5.5，但开源模型又往前迈了一大步，能力提升明显，值得关注。

原文

13:48

Ethan Mollick@emollick

技巧 GLM-5.2 Opus 4.8 提示词工程推理模型

推荐理由：想看看AI怎么思考？让GLM-5.2或Opus 4.8帮你选诗，能看到它的推理过程，挺有意思的。

原文

6月26日

02:18

Fireworks AI@FireworksAI_HQ

Fireworks与Faros_AI联合对211个真实软件工程任务进行了评估。Claude Code搭配GLM-5.2的Judge得分0.568，每任务耗时321秒，成本0.92美元。对比组Claude Code + Opus 4.8得分为0.521、耗时775秒、成本1.76美元；Codex + GPT-5.5得分为0.466、耗时392秒、成本2.06美元。评测基于Faros自有代码库而非公开基准，更贴近实际开发场景。

AI模型 GLM-5.2 Claude Code Opus 4.8 GPT-5.5 编程助手

推荐理由：Fireworks和Faros拿真实工程任务实测GLM-5.2，结果比Opus 4.8和GPT-5.5都更便宜更快，得分还高。想为代码任务选模型可以看看这个。

原文

6月25日

14:45

Fireworks AI@FireworksAI_HQ

精选

Fireworks AI 与 Harvey 合作研究发现，将前沿闭源模型（如 Opus 4.8）作为顾问代理，与微调的开源工作代理结合，在三个基准测试中均取得更优结果。相比全部使用 Opus 4.8，该混合方案成本降低40-67%。该方法简单部署即可提升效果，为模型调用提供新思路。

AI模型 Fireworks AI Harvey Opus 4.8 开源模型推理模型

推荐理由：Fireworks AI 的实验证明，把闭源大模型当参谋、开源模型当打手，效果更好还省40%-67%的钱，值得关注。

原文

6月23日

20:18

SiliconFlowAI@siliconflowai

SiliconFlow 对 GLM-5.2、GPT-5.5、Opus 4.8 和 GLM-5.1 进行了同提示词测试。结果显示 GLM-5.2 在性能上逼近 Opus 4.8，同时输入成本仅为 Opus 的约 1/3.6，输出成本为约 1/5.7。这意味着用户可以在 SiliconFlow 平台上以大幅降低的成本获得接近 Opus 级别的前端生成能力。

AI模型 GLM-5.2 Opus 4.8 SiliconFlow 推理模型模型对比

推荐理由：SiliconFlow 测了 GLM-5.2，性能跟 Opus 4.8 差不多，但输入输出成本都低了好几倍，想省钱的可以试试。

原文

6月19日

18:39

Together AI@togethercompute

Together Compute 测试了闭源和开源模型构建小型可玩游戏的能力。结果显示，开源模型成本更低、速度更快，生成游戏质量接近闭源模型。例如，Opus 4.8 成本是 MiniMax M3 的 15 倍，GPT-5.5 是 Nemotron Ultra 的 10 倍，而 Kimi K2.7 Code 比 Opus 4.8 便宜 7 倍。

AI模型 Opus 4.8 MiniMax M3 GPT-5.5 开源模型游戏生成

推荐理由：Together Compute 实测：闭源模型贵几倍，开源做小游戏又快又便宜，质量还接近，想省钱就选开源。

原文

12:42

Fireworks AI@FireworksAI_HQ

Jeremy Howard在X平台上称赞Zai_org的GLM 5.2模型，称其至少与Opus 4.8和GPT 5.5一样优秀。他指出该模型速度极快、成本低廉且回答不冗长，在处理长上下文时表现非常出色。Howard表示从未见过如此优秀的开源权重模型。

AI模型 GLM 5.2 Zai_org Opus 4.8 GPT 5.5 开源模型

推荐理由：想试试媲美顶级闭源模型的开源模型吗？GLM 5.2又快又便宜，长上下文超强，看看Jeremy Howard怎么夸的。

原文

6月18日

13:02

@atomic_chat_hq@atomic_chat_hq

精选

Fable 5 模型在三个真实物理模拟任务（混沌双摆、高尔顿板、WCSPH 旋转桶中水）中生成的 HTML5 仿真效果优于 Opus 4.8。水模拟中，Fable 5 生成的水体更连续稳定，而 Opus 4.8 在器壁附近出现较大空隙、粒子散落且流体不稳定。Fable 5 的生成成本为 3.35 美元（68.7k tokens，耗时 14 分 47 秒），Opus 4.8 为 0.93 美元（38.9k tokens，耗时 8 分 10 秒）。

AI模型 Fable 5 Opus 4.8 物理模拟代码生成 HTML5

推荐理由：Fable 5 写物理仿真比 Opus 4.8 更扎实，尤其水粒子效果更真实，虽然贵了点但值得一试。

原文

6月17日

23:32

Guillermo Rauch@rauchg

Vercel CEO指出，在模型竞争加剧的当下，ai-sdk比以往更重要。开源模型GLM 5.2在Next.js Evals中击败了Opus 4.8。同时Vercel推出eve.dev，提供构建和部署智能体的实用解决方案，类比React与Next.js的关系。

AI产品 GLM 5.2 Opus 4.8 Next.js eve.dev 智能体

推荐理由：Vercel发了eve.dev，帮你快速搞Agent；还有GLM 5.2在Next.js评测里赢了Opus 4.8，开源再进一步。

原文

10:44

arXiv cs.AI@Nicola Franco

Anthropic发布了对两个前沿模型Fable 5和Opus 4.8的红队研究。研究使用HackAgent框架，对7,826个有害意图进行自动化越狱攻击，覆盖十类危害。最强自适应树状攻击在Opus 4.8上成功率达11.5%，而在Fable 5上仅为6.1%。两个模型分别产生了1,620和702个经专家确认的有害输出。结论表明，即使经过充分测试的前沿模型仍可在持续自动化攻击下被可靠破解。

论文 Anthropic Fable 5 Opus 4.8 AI安全越狱攻击

推荐理由：Anthropic公开了Fable 5和Opus 4.8的对抗性测试结果：树状攻击破Opus 4.8的11.5%，但Fable 5更抗打，仅6.1%。别被整体数字骗了，残存风险不小。

原文

03:37

The Rundown AI@therundownai

73°

Z AI发布了GLM-5.2，一款开源权重模型，支持1M token上下文窗口。在long-horizon coding基准上得分为74.4，超过GPT-5.5的72.6。在SWE-bench Pro上得分为62.1，同样领先GPT-5.5。AIME 2026数学测试得分为99.2，高于Opus 4.8和GPT-5.5。该模型在Designarena排名第一，并以MIT许可证发布。

AI模型 GLM-5.2 Z AI Opus 4.8 GPT-5.5 开源模型

推荐理由：Z AI的GLM-5.2开源，百万token上下文，数学和编程全面超过GPT-5.5，值得试玩。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月15日

15:29

AI Will@FinanceYF5

Anthropic原计划举办仅邀请全球顶级开发者的独家黑客松，提供Fable 5模型的无限使用权。该活动被政府叫停后，开发者改用Opus 4.8模型继续开发。最终作品质量很高，有人整理了Anthropic开发者日的所有演示，展示了Opus 4.8的多领域潜力。

AI模型 Anthropic Fable 5 Opus 4.8 黑客松

推荐理由：虽然Fable 5被禁，但Opus 4.8在黑客松中的表现依然惊艳，看演示就知道多强了

原文

6月14日

12:51

宝玉@dotey

设计师dotey分享用AI Agent辅助设计后，修改字型字号颜色的新方式。首先，使用设计系统规范按钮圆角、字号、间距，避免3px、5px等随意值。其次，设计师通过文字指令指挥Agent修改，Opus 4.8+结合设计系统可做到“言出法随”。最后，设计师负责把控大方向和验收结果，Agent执行具体调整。

技巧 AI Agent 设计系统 Opus 4.8 提示词工程

推荐理由：设计师用Agent改设计的新思路

原文

04:21

elvis@omarsar0

精选

Elvis 在讨论中分享了运行自主长期编码智能体的经验，指出大多数模型难以协调长期任务，容易过早暂停或出现奖励黑客行为。他建议使用 Opus 4.8 进行规划，GPT-5.5 执行任务，并用 Deepseek、Qwen、Kimi 等模型作为评估器。强调多模态目标比纯文本目标更有效，能帮助智能体保持方向。

技巧 Opus 4.8 GPT-5.5 Deepseek Qwen 智能体

推荐理由：Opus 4.8 规划 + GPT-5.5 执行，长期智能体实战配方

原文

6月13日

16:21

marktechpost@Asif Razzaq

美国以国家安全为由发布出口管制指令，要求Anthropic禁用其Claude Fable 5和Mythos 5模型。Anthropic已执行该指令，但其他模型如Opus 4.8仍可正常使用。此举涉及Anthropic旗下两款特定模型，未影响其整体产品线。

行业 Anthropic Claude Fable 5 Mythos 5 Opus 4.8 AI安全

推荐理由：美国政府出手，两款Claude模型被禁

原文

13:09

elvis@omarsar0

精选

Omar Sanseviero分享运行自主长时编码智能体的经验，建议用Opus 4.8做规划、GPT-5.5执行，并用Deepseek、Qwen、Kimi或MiniMax等模型作为评估器。他强调多模态目标比纯文本目标更强，能帮助智能体保持方向。清晰定义目标、消除模型假设、避免奖励黑客行为是关键。

技巧 Opus 4.8 GPT-5.5 Deepseek Qwen Kimi MiniMax 智能体

推荐理由：Opus 4.8+GPT-5.5分工跑长任务

原文

13:02

elvis@omarsar0

用户elvis在X上分享使用Opus 4.8进行规划、GPT-5.5执行任务的组合工作流。他指出将步骤分解为更小的部分能显著提升输出质量，并强调动态工作流的重要性被低估。该技巧适用于需要高质量输出的AI任务场景。

技巧 Opus 4.8 GPT-5.5 工作流提示词工程

推荐理由：Opus 4.8规划+GPT-5.5执行

原文

11:04

elvis@omarsar0

精选

Anthropic 因美国政府指令暂停 Claude Fable 5 模型访问，所有新会话切换到 Opus 4.8 或用户默认模型，现有 Fable 5 会话报错。AI 研究员 Omar 评论称 Fable 5 对多数任务不划算，且被削弱，而 Opus 4.8（规划）和 GPT-5.5（执行）仍是最佳选择。

行业 Claude Fable 5 Opus 4.8 GPT-5.5 监管

推荐理由：Fable 5 被停，看看大家选谁

原文

11:00

Decoder@Matthias Bastian

Anthropic发布的Claude Fable 5在Artificial Analysis Intelligence Index上获得64.9分，创下十项基准测试中的五项纪录。相比Opus 4.8，性能仅提升5.7%，但token价格翻倍。安全过滤器和回退路由进一步推高使用成本。

AI模型 Claude Fable 5 Anthropic Opus 4.8 推理模型基准测试

推荐理由：性能微涨价格翻倍，谨慎升级

原文

6月12日

13:31

swyx (AI Engineer)@swyx

Mythos 正式上线，其 FrontierCode 被认定为下一代编程基准。在 FC Diamond 测试中，Opus 4.8 和 GPT 5.5 在随努力扩展方面表现不佳。Mythos/Fable 的后训练方法首次将测试时计算应用于解决超长任务，相当于数十小时人类工作、每任务数百美元。该功能现已在 Cognition 和 Devin 中可用，仅需 1.4x ACUs。

AI产品编程基准 Mythos FrontierCode Opus 4.8 GPT 5.5 Devin

推荐理由：Mythos 的 FrontierCode 基准揭示了当前顶级模型在长任务上的扩展瓶颈，做 AI 编程评估或开发长流程自动化的团队值得关注，可以直接在 Devin 中体验。

原文

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

06:06

elvis@omarsar0

一位开发者分享使用 Opus 4.8 进行规划、GPT-5.5 执行代码的体验，强调将任务拆解为小步骤能显著提升输出质量。他提到动态工作流比多数人认为的更重要，并指出用 AI 生成 1 万行代码的 PR 花费 250 美元并不划算。他仍每日使用 Cursor AI，认为小步骤配合高质量模型效果更好。

AI产品 Opus 4.8 GPT-5.5 Cursor AI 编程助手工作流优化

推荐理由：这条推文点出了 AI 编程中常被忽视的「步骤拆分」策略，做复杂代码生成的开发者看完会重新评估自己的工作流，值得一试。

原文

6月11日

16:58

歸藏(guizang.ai)@op7418

Anthropic 承认在 Fable 5 模型的安全防护上犯了错误，此前他们默认使用不可见的安全机制，导致用户无法感知模型何时被降级到 Opus 4.8。现在他们承诺未来几天内，当请求被标记并触发降级时，会提供明显的通知，包括在 Claude Code、Claude.ai 或 API 中显示降级原因。这一改变是为了平衡安全与透明度，但短期内可能增加误报。用户可以通过反馈帮助改进分类器。

AI产品 Anthropic Fable 5 Opus 4.8 安全机制透明度

推荐理由：Anthropic 终于承认了安全机制不透明的问题，做 AI 应用开发或使用 Claude API 的团队，建议关注这个变化——未来降级会有明确提示，误报也会减少，值得跟进。

原文

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

03:45

OpenRouter@OpenRouterAI

OpenRouter 数据显示，模型 Fable 的使用量已达到 Opus 4.8 的两倍。尽管两者每日 token 使用量相同，但 Fable 的价格是 Opus 4.8 的两倍。这表明用户愿意为 Fable 支付更高费用，可能因其性能或特定优势。该趋势反映了 AI 模型市场对高质量付费模型的接受度提升。

AI产品 Fable Opus 4.8 OpenRouter 模型使用量定价趋势

推荐理由：Fable 在相同 token 消耗下价格翻倍却使用量翻倍，说明用户认可其价值。做模型选型或 API 调用的开发者值得关注这一市场信号。

原文

6月10日

22:20

berryxia@berryxia

一条推文对比了 Fable 5、Opus 4.8、Gemini 3.1 Pro 和 GPT 5.5 四款模型，指出只有 Google 还在使用去年的模型。这反映了当前 AI 模型迭代速度的差异，Google 的 Gemini 3.1 Pro 相对落后于其他厂商的新模型。

AI模型模型对比 Fable 5 Opus 4.8 Gemini 3.1 Pro GPT 5.5

推荐理由：关注模型迭代节奏的开发者可以快速了解各厂商最新进展，Google 用户会意识到其模型可能落后了。

原文

12:58

AI Will@FinanceYF5

一条推特展示了Fable 5、Opus 4.8、GPT-5.5 Standard和GPT-5.5 Pro四个模型在相同Prompt下生成纽约天际线图像的结果对比。@aipulseda1ly 称这是目前见过最好的结果，差距肉眼可见。该对比直观反映了各模型在图像生成质量上的差异，对关注AI图像生成能力的用户有参考价值。

AI模型 Fable 5 Opus 4.8 GPT-5.5 图像生成模型对比

推荐理由：四个主流模型同Prompt出图对比，做AI绘画或模型评测的可以直接看结果，省去自己跑实验的时间。

原文

11:54

AI Will@FinanceYF5

一条推文展示了 Fable 5 和 Opus 4.8 在相同 prompt 下生成的 5000 个天体太空模拟结果对比。两者在模拟的细节、真实感和物理准确性上存在显著差异，Fable 5 的表现明显优于 Opus 4.8。该对比直观反映了当前 AI 模型在复杂物理场景生成能力上的差距，对关注 AI 生成内容质量和模型选型的开发者有直接参考价值。

AI模型 Fable 5 Opus 4.8 太空模拟模型对比物理模拟

推荐理由：做 AI 生成或物理模拟的开发者，这个对比能帮你快速判断哪个模型更适合复杂场景，值得点开看差距有多大。

原文

11:52

AI Will@FinanceYF5

83°

开发者 Victor Taelin 测试其编写的 HVM5 交互网求值器优化效果，使用 32 个 GPT-5 agent 运行 20 小时仅获得最多 2 倍加速，Opus 4.8 运行 8 小时最多提升 34%，而 Fable 5 仅用 2 小时就实现了单个基准 1770% 的加速，其他 4 个基准超 100%，平均 22%。Fable 不仅找到了最高效的优化策略（动态模式匹配节点的垃圾回收），还发现了作者代码中一个深层 bug。Taelin 称这是他的“个人奇点时刻”，并表达了对 AI 不平等问题的担忧。

AI产品 Fable 5 HVM5 GPT-5 Opus 4.8 系统优化

推荐理由：Fable 5 用 2 小时干赢了 32 个 GPT-5 agent 跑 20 小时，做系统优化或高性能计算的开发者看完会沉默——这不仅是效率碾压，还顺手修了作者都没发现的 bug，值得点开看细节。

原文

03:18

AI SDK@aisdk

Claude Fable 5 模型因内置安全护栏，可能拒绝处理某些请求。用户可配置回退机制，当 Fable 5 拒绝时自动切换到 Opus 4.8 等模型。这一设计在提升安全性的同时，也提供了灵活性，避免因单一模型限制导致任务中断。对于需要高可用性的开发者或团队，合理配置回退策略可确保工作流顺畅。

AI产品 Claude Fable 5 安全护栏模型回退 Opus 4.8 AI 产品

推荐理由：安全护栏让模型更可控，但可能误伤正常请求——做自动化流程的开发者建议配置回退，避免任务卡死。

原文

6月8日

14:42

歸藏(guizang.ai)@op7418

Notion官方在状态页面公开指出Anthropic的Opus 4.7和4.8模型出现性能下降，导致用户使用Notion AI时失败率升高。为缓解影响，Notion已禁用所有Anthropic模型并将请求路由到其他供应商。Anthropic回应称此类问题在所有模型中都会发生，目前性能已恢复。但观察者指出，Anthropic模型出问题的频率明显高于其他两家，其状态页面甚至显示可用性未达99%。

AI产品 Anthropic Opus 4.7 Opus 4.8 模型性能 Notion AI

推荐理由：Anthropic模型频繁出问题，做AI产品集成的团队需要评估供应商稳定性——Notion的公开点名就是信号，建议关注Anthropic的可用性记录再决定是否深度依赖。

原文

6月5日

02:16

宝玉@dotey

博主建议用户根据自身条件选择2-3个最聪明的AI模型使用，而非追求数量。他认为单一模型不够稳定和全面，例如GPT-5.5不如Opus 4.8稳定，写作时甚至需要退回Opus 4.6。翻译任务他偏好Gemini 3.1 Pro，画图则选GPT Image 2。即使Opus 4.8表现不错，复杂任务也会让GPT-5.5同时出方案对比。他强调Token贵的省时间，时间比Token更宝贵。

技巧模型选择 GPT-5.5 Opus 4.8 Gemini 3.1 Pro GPT Image 2

推荐理由：这条建议直击AI用户选模型的痛点——不是越多越好，而是选对2-3个最聪明的。经常用AI做复杂任务的开发者或创作者，看完会重新思考自己的模型组合，省下时间比省Token更划算。

原文

6月4日

02:45

Amjad Masad@amasad

78°

尽管 GPT 5.5 在 SWE 基准测试中表现最佳，但 Opus 4.8 在端到端应用创建任务上仍保持价格与性能的双重优势。为此，团队推出了 ViBench——首个基于真实世界任务的应用创建基准测试。该基准旨在更准确地评估模型在实际开发场景中的表现，而非仅关注代码修复或补全。结果显示，Opus 4.8 在 Vibe Coding 场景下依然是最优选择。

AI模型 GPT 5.5 Opus 4.8 ViBench Vibe Coding 基准测试

推荐理由：ViBench 填补了现有基准只测代码修复、不测完整应用创建的空白，做全栈原型或快速验证想法的开发者值得关注——Opus 4.8 可能才是你的性价比之选。

原文

6月3日

10:55

Yangyi@Yangyixxxx

开发者 yetone 指出，Anthropic 在推出新模型 Opus 4.8 时未经过充分内部测试，导致推理基础设施出现各种 bug，包括 edit tool 调用时 old_string 参数传错等降智行为。模型发布后，用户成为众包测试员，反馈真实问题后 Anthropic 偷偷修复了这些 bug，舆论随之回暖。这导致早期吐槽模型的用户被嘲笑，而后期用户评价截然不同。问题核心在于如何低成本发现 bug，而非修复本身。

行业 Anthropic Opus 4.8 模型测试用户反馈 bug修复

推荐理由：这条吐槽戳中了 AI 模型发布「先上线再修 bug」的行业潜规则，如果你是重度使用 Claude 的开发者或团队，看完会明白为什么同一模型前后体验差异巨大——建议点开了解背后的不公平逻辑。

原文

6月2日

10:40

宝玉@dotey

博主提出不要指望单一模型在所有场景最强，应像渣男一样组合使用多个模型。Opus 4.8在写作上不如GPT-5.5，但在UI设计、系统设计和计划方面表现更优。建议先用Claude Design设计UI，再分别交给GPT-5.5和Opus 4.8实现对比。每个模型有独特特性，需针对性调优提示词。

AI产品 Opus 4.8 GPT-5.5 Claude Design 模型组合 UI设计

推荐理由：这条建议解决了AI模型选择焦虑——不用纠结哪个最好，组合用才是王道。做UI设计、系统架构的开发者可以立刻试试Claude Design+GPT-5.5/Opus 4.8的搭配，效果立竿见影。

原文

10:36

Skywork@Skywork_ai

精选

Skywork 宣布其模型 Opus 4.8 升级，主要提升了两项能力：长文档分析速度更快，能从密集文件中快速提取关键信息而不拖慢工作流；跨域多步推理能力增强，能更精准地规划、决策和执行复杂任务。这标志着 Skywork 在文档处理与复杂推理场景的实用化迈出一步，适合需要处理大量文档或进行多步骤推理的用户。

AI模型 Opus 4.8 Skywork 长文档分析多步推理模型升级

推荐理由：做文档密集型工作或复杂推理的团队，可以关注 Opus 4.8 带来的速度与精准度提升，值得一试。

原文

6月1日

12:56

Aadit Sheth@aaditsh

Anthropic 在发布 Opus 4.7 仅 42 天后就推出了 Opus 4.8，而 Andrej Karpathy 两周前刚加入公司。观察者认为，这种极快的发布节奏与顶尖人才的加入密切相关。Anthropic 的工程师和研究员在 X 上公开分享他们的工作进展，这种文化成为比传统招聘页面更有效的招募工具。对于追求硬核问题、快速团队和自豪感的顶尖人才来说，Anthropic 的 shipping 速度和公开热情极具吸引力。这暗示着，快速交付并适度高调，正成为科技行业最强大的招聘策略。

行业 Anthropic Opus 4.8 Karpathy 招聘策略发布速度

推荐理由：Anthropic 用 42 天迭代 Opus 4.8 并吸引 Karpathy 加入，证明了 shipping 速度本身就是最好的招聘广告——做 AI 或创业的团队，可以反思自己的发布节奏和团队文化。

原文

5月31日

22:54

Viking@vikingmute

DeepSWE 对 Opus 4.8 的评分显示，该模型在性能上优于 Opus 4.7，且成本更低、效率更高，但相比 GPT5.5 仍有明显差距。作者表示尚未深度使用 4.8，仍在使用更便宜的 4.6 版本，并指出对基准测试已逐渐祛魅，更看重推特上的真实用户评价。目前普遍认为 GPT5.5 仍是大多数用户的最强模型。

AI模型 Opus 4.8 GPT5.5 模型评测成本效率基准测试

推荐理由：如果你在纠结是否升级到 Opus 4.8，这篇推文帮你省了试错成本——作者用真实体验告诉你，4.8 性价比提升但远不及 GPT5.5，做模型选型的开发者建议看看推文下的真实讨论。

原文

5月30日

16:04

Gary Marcus@GaryMarcus

Anthropic 发布 Opus 4.8 模型后，开发者 Kaito 尝试用它重构整个代码库，耗时 2 小时、消耗 1 亿 token。尽管最终架构重置未能成功运行，但过程令人惊叹。这一事件展示了前沿 AI 模型在大型代码重构中的潜力与当前局限，引发社区对模型能力边界和成本效益的讨论。

AI产品 Anthropic Opus 4.8 代码重构 token 消耗开发者体验

推荐理由：想用 AI 做大规模代码重构的开发者，看完这个真实案例会重新评估 token 预算和失败预期——1 亿 token 换来的教训比成功更有价值。

原文

5月29日

21:35

The Rundown AI@therundownai

今日 AI 头条：Anthropic 的 Opus 4.8 模型估值接近 1 万亿美元；Apple 新 AI Siri 将直接对标 ChatGPT；Codex 可用一条提示词构建游戏；AI 使开发者产出翻倍但并非人人受益；另有 4 款新 AI 工具及社区工作流发布。

行业 Anthropic Opus 4.8 Apple Siri ChatGPT AI 工具

推荐理由：AI 行业格局正在重塑——Anthropic 估值逼近万亿、Apple 入局对话 AI，关注模型竞争和工具生态的开发者值得一看。

原文

18:16

Browser Use@browser_use

Browser Harness 推出新功能，支持 Claude Code 通过 Opus 4.8 模型直接操控浏览器。用户只需一条命令即可安装并开始自动化任何网站。该工具简化了浏览器自动化流程，降低了使用门槛，适合需要网页自动化的开发者和团队。

AI产品浏览器自动化 Claude Code Opus 4.8 工具自动化

推荐理由：做网页自动化的开发者终于有了更简单的方案——一条命令就能让 Claude Code 操控浏览器，建议试试看。

原文

12:25

Latent.Space@latentspacepod

88°

Anthropic 宣布完成 9650 亿美元 H 轮融资，并同步推出新一代模型 Opus 4.8 以及 Dynamic Workflows/ultracode 功能。Opus 4.8 在推理和代码生成能力上有显著提升，而 Dynamic Workflows 旨在优化复杂任务的多步骤执行。此次融资规模创下 AI 领域新高，显示投资者对 Anthropic 技术路线和商业化前景的强烈信心。新功能将直接面向开发者和企业用户，提升 AI 在编程和自动化场景中的实用性。

AI产品 Anthropic Opus 4.8 Dynamic Workflows 融资推理模型

推荐理由：Anthropic 的巨额融资和 Opus 4.8 发布表明其正在加速追赶 OpenAI，做 AI 应用开发或模型选型的团队值得关注 Dynamic Workflows 对复杂任务编排的改进。

原文