全部 AI 动态 · AI 热点

6月27日

13:06

lmarena.ai@lmarena_ai

精选72°

GLM-5.2 (Max) 在 Code Arena 前端排行榜上获得第2名，比 Claude Opus 4.7 (Thinking) 高出 29 分。在 React 子榜单排名第2，HTML 子榜单第4。在品牌营销、数据与分析、消费产品等6个子类别中均位列第一。该模型是开源模型中对 Kimi-K2.6 和 Minimax-M3 优势最大的。在社区投票的单次前端编码测试中展示了10个对比案例。

AI模型 GLM-5.2 Code Arena Claude Opus 4.8 开源模型编程助手

推荐理由：GLM-5.2 在社区投票的编码竞技场上压过 Claude Opus，你可以在前端任务中试试它的单次生成效果。

原文

6月25日

12:57

12:57IT之家（博客/媒体）

Anthropic致信美国参议院，指控阿里巴巴在4月22日至6月5日期间使用约2.5万个欺诈账户进行了2880万次对话，对其Claude模型实施“迄今已知最大规模的蒸馏攻击”。蒸馏是一种利用更强模型输出训练更小模型的技术。然而，Anthropic自家旗舰模型Claude Opus 4.8于5月发布后，被用户发现回答中自称是阿里通义千问（Qwen）或DeepSeek，引发双标争议。埃隆·马斯克也批评Anthropic曾大规模盗用训练数据并支付和解金。

行业 Anthropic 阿里巴巴模型蒸馏 Claude Opus 4.8 双标争议

推荐理由：Anthropic刚发的Claude Opus 4.8被揭套壳千问和DeepSeek，转头就告阿里偷模型，马斯克都看不下去了，这瓜绝对值得吃。

原文

6月18日

10:55

arXiv cs.LG@Hannah Le, Ramesh Ramasamy, Alex Urrutia, Mahsa Yazdani, Tim Proctor, Kenny Workman

TxBench-PP是一个用于评估AI agent在小分子临床前药理学中决策能力的基准，包含100个涉及作用机制、药效学等任务的评估。在16个模型配置（涉及11个模型和4800条轨迹）中，最佳配置Claude Opus 4.8 / Pi仅通过59.3%（178/300）的端点尝试，GPT-5.5 / Pi通过55.3%。结果表明，当前AI系统无法可靠复现临床前药理学决策。

AI模型 TxBench-PP Claude Opus 4.8 GPT-5.5 AI agent 药物发现

推荐理由：想看看AI在药物发现中到底行不行？这个基准测试用4800条轨迹告诉你，Claude Opus 4.8和GPT-5.5都还差得远，最高才59.3%的通过率。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

13:50

@hebbia@hebbia

精选73°

Hebbia CTO 指出 Claude Opus 4.8 在金融工作流中实现了更强的引用准确性。相比前代，它在处理复杂金融文档时 token 效率显著提升。新模型适用于需要高精度引用的财务分析场景。

AI模型 Claude Opus 4.8 Hebbia 金融引用准确率 token效率

推荐理由：Hebbia 的 CTO 亲测说 Claude Opus 4.8 在金融任务上引用更准、省 token，做财报分析的团队可以试试。

原文

6月14日

04:51

宝玉@dotey

精选

Anthropic 推出的 Claude Design 能根据一句话描述生成可交互原型，点哪都有反应，状态保持完整。作者拆解了 Agent 的 Harness 层和模型层，指出 Harness 层技术不复杂，但 Claude Opus 4.8 在 UI/UX 和系统架构设计上远超 GPT-5.5。Claude Design 的产出物是 React 代码和 JSON 数据结构，开发者可直接复用。作者认为 Codex 不推类似产品是因为 GPT-5.5 模型能力不足，无法一次性交付完整可交互原型。

AI模型 Claude Design Claude Opus 4.8 GPT-5.5 Codex 智能体

推荐理由：拆解 Claude Design 为何比 Codex 强

原文

6月13日

16:54

Decoder@Matthias Bastian

Moonshot AI 发布了开源模型 Kimi K2.7 Code，拥有 1 万亿参数，专为编程任务设计。在编程基准测试中，Kimi K2.7 Code 仍落后于 GPT-5.5 和 Claude Opus 4.8，但每 token 价格比它们低 12 倍。用户需权衡：在相同预算下，使用 Kimi K2.7 Code 能获得更多推理次数，但质量可能有所下降。

AI模型 Kimi K2.7 Code Moonshot AI GPT-5.5 Claude Opus 4.8 开源模型

推荐理由：编程省钱利器，12倍性价比

原文

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月10日

08:33

lmarena.ai@lmarena_ai

精选76°

Anthropic 的 Claude Opus 4.8 在 Agent Arena 排行榜上首次亮相，在 Thinking 模式下与 GPT 5.5 (High) 并列第一，但在 Non-Thinking 模式下仅排第八。相比前代 Opus 4.7，Opus 4.8 在开启思考时任务完成率更高，但可操控性略差，从 bash 错误中恢复更慢，且工具幻觉率上升。Agent Arena 基于 30 万+任务、200 万+工具调用和 4000 万行代码，通过因果追踪方法评估模型在真实世界智能体任务中的表现。该排行榜衡量任务成功、可操控性、错误恢复、用户反馈和工具幻觉五个信号。

AI模型智能体模型评测 Claude Opus 4.8 GPT 5.5 Agent Arena

推荐理由：Agent Arena 用真实任务和因果推断评估智能体，比传统基准更贴近实际使用场景。做智能体开发或选型的团队，值得关注这个排行榜来对比模型的实际表现。

原文

6月9日

20:32

rohanpaul_ai@rohanpaul_ai

72°

Cognition 推出 FrontierCode 编码基准测试，评估 AI 生成的代码是否达到人类维护者愿意合并的质量，而不仅仅是能否通过测试。该基准包含 150 个任务，由 20 多位开源维护者设计，每个任务耗时超 40 小时。结果显示，最强模型 Claude Opus 4.8 在最高难度 Diamond 子集上仅得 13.4%，GPT-5.5 得 6.3%，Gemini 3.1 Pro 得 4.7%。评分系统引入“阻塞项”机制，任何导致无法合并的问题（如行为错误、不安全改动）直接判 0 分，通过后才按可读性、类型安全等软质量项加权。这揭示了当前 AI 编程助手在代码设计、约束和项目风格适配上的严重不足。

AI产品基准测试代码质量 Claude Opus 4.8 GPT-5.5 Gemini 3.1 Pro

推荐理由：FrontierCode 把 AI 编程评测从「能跑就行」升级到「能合并才算数」，做代码质量评估或 AI 编程工具的团队值得关注——它暴露了当前模型在真实代码审查中的致命短板。

原文

10:03

shao__meng@shao__meng

精选76°

Cognition 发布 FrontierCode 评估基准，旨在衡量 AI 模型生成代码的“可合并性”，而非仅通过单元测试。该基准包含 150 个来自 36 个旗舰开源仓库的任务，由 20 多位维护者参与，每个任务耗时 40 小时以上。评估沿六个维度（行为正确性、回归安全、机械整洁、测试质量、Scope 纪律、代码质量）打分，并设置 blocker 和 non-blocker 标准。结果中 Claude Opus 4.8 在 Diamond 子集得分 13.4%，GPT-5.5 为 6.3%，Kimi K2.6 仅 3.8%，显示前沿模型仍有巨大提升空间。

AI模型 Cognition FrontierCode 代码评估可合并性 Claude Opus 4.8

推荐理由：FrontierCode 把 AI 编程评估从“能跑就行”升级到“能合并”，做代码质量评估或 AI 编程工具的团队可以直接参考这套标准，看看自己的模型在真实维护者眼中能拿几分。

原文

08:46

Gary Marcus@GaryMarcus

83°

Gary Marcus 发推指出 METR 的编码基准已饱和，但 Cognition 随即推出更难的 FrontierCode 评测，最高分仅 13.4%。该评测由顶级开源维护者花费 40+ 小时设计，首次衡量代码是否可合并维护，而非仅功能正确。这揭示了当前模型在编写可维护代码方面的严重不足，为 AI 编程能力评估设立了新标准。

AI模型编码基准 FrontierCode Claude Opus 4.8 代码可维护性 AI 评估

推荐理由：做 AI 编程评估或关注模型实际能力的开发者，这个新基准直接戳中了当前模型的软肋——代码能跑但不可维护，值得看看你的模型能拿几分。

原文

6月4日

14:42

宝玉@dotey

开发者 @dotey 在 X 上反馈，Codex GPT-5.5 在开发 Mac 应用时表现不如 Claude Opus 4.8，认为 Opus 更擅长此类任务。另有用户 @jesselaunz 称 Codex 突然降智，原本计划跑 2 天的目标 20 分钟就交付，但评分仅 5/10。这些反馈表明不同模型在特定开发场景下存在显著差异，开发者需根据任务类型选择合适的模型。

AI产品 Codex GPT-5.5 Claude Opus 4.8 Mac 开发模型对比

推荐理由：做 Mac 应用开发的团队注意了——实测表明 Codex GPT-5.5 在特定场景下可能不如 Claude Opus 4.8，选模型前建议先看任务类型，避免踩坑。

原文

6月2日

14:15

AI Will@FinanceYF5

Greg Isenberg 在播客中未讨论 Claude Opus 4.8，认为截至 5 月 29 日该模型相比 GPT 5.5 没有实质性提升。这一观点暗示当前 AI 模型迭代正进入类似 iPhone 时代的渐进式改进阶段，而非颠覆性突破。对于关注模型能力对比的开发者与用户，这提示需更理性看待新版本发布。

行业模型发布 Claude Opus 4.8 GPT 5.5 AI 行业趋势 Greg Isenberg

推荐理由：Greg Isenberg 的观察点破了模型发布泡沫，做模型选型或关注 AI 进展的团队值得一看，避免被营销节奏带偏。

原文

14:15

AI Will@FinanceYF5

Greg Isenberg 认为 Claude Opus 4.8 相比 GPT 5.5 没有显著提升，模型发布已进入类似 iPhone 的微调迭代阶段。他指出，基准测试与用户感受脱节，真正的价值在于模型周边的工具创新，如 Claude Code 的动态工作流和 Codex 的桌面应用。他预测 6 个月内用户将不再关心具体模型，就像不关心 Uber 的引擎一样。

行业 Claude Opus 4.8 GPT 5.5 模型迭代工具链创新 Claude Code

推荐理由：模型同质化趋势下，真正改变开发效率的是工具链创新——做 AI 应用或自动化流程的团队，建议关注 Claude Code 动态工作流和 Codex 桌面应用，而非纠结模型版本号。

原文

10:36

Skywork@Skywork_ai

88°

AI模型 Claude Opus 4.8 推理模型 Skywork Anthropic 模型更新

推荐理由：Claude Opus 4.8 的更强推理能力对需要高精度判断的开发者（如代码审查、逻辑分析）是直接利好，Skywork 用户现在就能体验，建议试试。

原文

10:30

shao__meng@shao__meng

Claude Opus 4.8 在基准测试、诚实度和长任务处理上优于 4.7，但作者认为这种进步对用户来说并不构成真正的改变，只是 4.7 的升级版。对于已经在用 Opus 4.7 的用户，切换到 4.8 是自然的选择，但不会吸引 GPT-5.5 或 DeepSeek 的用户迁移。作者指出，除非 Opus 5 有重大突破，否则难以撼动现有格局。

AI模型 Claude Opus 4.8 模型对比升级 Benchmark 用户迁移

推荐理由：如果你在用 Opus 4.7，升级到 4.8 是顺理成章的事；但如果你是 GPT 或 DeepSeek 用户，这次更新不值得你切换。做模型选型的团队可以看看这篇冷静分析，避免被 Benchmark 数字带偏。

原文

5月31日

09:59

elvis@omarsar0

Claude Opus 4.8 在 DeepSWE Bench 上取得 58% Pass@1 的成绩，排名第二，仅次于 GPT-5.5。该模型在原始分数上略逊一筹，但在多个最新基准测试中展现出最高的可靠性和效率。这一结果延续了近期趋势：模型在追求极致性能的同时，更注重实际应用中的稳定性和资源效率。对于关注 AI 编程和模型选型的开发者来说，这是一个值得关注的信号。

AI模型 Claude Opus 4.8 GPT-5.5 DeepSWE Bench 编程模型效率

推荐理由：Claude Opus 4.8 在 DeepSWE Bench 上以 58% Pass@1 证明了自己是效率与可靠性的标杆，做 AI 编程选型的团队可以把它作为性价比参考。

原文

5月30日

16:10

shao__meng@shao__meng

Claude Opus 4.8 发布后，用户反馈普遍认为相比 Opus 4.7 升级不大，甚至变笨，部分用户更倾向于 GPT-5.5。有用户尝试测试新模型时，发现自己的账号被莫名封禁，即使仅注册后发过一次消息。该事件引发对 Anthropic 模型更新策略和账号管理问题的讨论。

AI产品 Claude Opus 4.8 模型更新账号封禁 GPT-5.5 用户反馈

推荐理由：Claude 重度用户和开发者需要注意：Opus 4.8 口碑不佳，且账号封禁问题频发，建议谨慎更新和备份数据。

原文

11:47

Milvus@milvusio

精选

Claude Opus 4.8 提升了编码智能体的独立工作能力、判断力和自我检查能力，使其不再只是生成代码片段，而是能规划变更、调用工具、编辑文件、检查输出，并在同一工作流中持续更长时间。这种变化改变了检索的角色：智能体检索错误上下文会导致后续计划、工具调用、代码修改和记忆都出错。因此，检索不能仅停留在“找几个相似片段”，而需要相关、新鲜、有范围且可追溯的上下文。Milvus 等向量数据库通过混合搜索、元数据过滤和生产级上下文访问，为智能体提供高质量的检索层。

AI产品 Claude Opus 4.8 编码智能体检索增强生成向量数据库 Milvus

推荐理由：Claude Opus 4.8 让编码智能体更自主，但检索质量成为瓶颈——做智能体开发或 RAG 的团队，建议关注 Milvus 如何解决上下文精准问题。

原文

11:29

Marc Andreessen@pmarca

Marc Andreessen转发Greg Isenberg观点，认为AI模型发布正变得像iPhone迭代一样，每次升级差异微小，用户难以感知实质性提升。以Claude Opus 4.8为例，它相比GPT 5.5并无明显优势，基准测试与用户感受脱节。真正改变游戏规则的是模型周边的工具创新，如Claude Code的动态工作流和Codex的桌面应用。预计6个月内，用户将不再关心底层模型，就像不关心Uber的引擎一样。

行业模型迭代 Claude Opus 4.8 GPT 5.5 工具生态行业趋势

推荐理由：模型同质化趋势已现，做AI应用开发的团队应关注工具生态而非模型本身——Claude Code和Codex的进展更值得投入时间。

原文

06:42

rohanpaul_ai@rohanpaul_ai

88°

Anthropic 在宣布 9650 亿美元估值融资的同一天，发布了 Claude Opus 4.8 模型。KogAI 在 8× AMD MI300X GPU 上实现了 3000 tokens/s 的推理速度，在 8× NVIDIA H200 上达到 2100 tokens/s。Datacurve 推出了更严格的编程基准 DeepSWE，用于区分领先模型。OpenAI 与 Thrive 合作构建了准确率高达 97% 的自我改进税务智能体。

AI产品 Anthropic Claude Opus 4.8 推理速度编程基准税务智能体

推荐理由：Anthropic 估值逼近万亿，Claude Opus 4.8 同日发布，关注前沿模型进展的开发者值得一看。KogAI 的推理速度数据对做推理优化的团队有参考价值。

原文

00:57

宝玉@dotey

72°

Anthropic 在发布 Claude Opus 4.8 的同时，上线了 API 层面的新能力：mid-conversation system messages（对话中途系统消息）。该功能允许在对话过程中动态修改系统提示词，且不影响 Prompt Caching。对于 Agent 开发者来说，这解决了之前无法在对话中途覆盖原始系统指令的痛点，例如让一个被设定为只写文档的系统设计师角色转变为可以写代码的开发工程师。目前该功能仅支持 Claude Opus 4.8，且仅在 Anthropic 自家 API 和 AWS 上的 Claude Platform 可用。系统消息不能放在对话开头，也不能连续放置两条，必须跟在 user 消息后面。

AI产品 Claude Opus 4.8 Anthropic API Agent开发系统消息

推荐理由：做 Agent 开发的团队终于可以动态调整系统提示词了，不用再靠 hack 方式覆盖指令，建议直接试。

原文

5月29日

17:57

AI SDK@aisdk

Anthropic 发布了 Claude Opus 4.8，这是 Opus 4.7 的升级版本。新模型在判断力上更加敏锐，对自身进展的表述更诚实，并且能够比前代更长时间地独立工作。该模型现已可用，价格与 Opus 4.7 相同。AI SDK 已支持集成该模型，开发者可以立即使用。

AI模型 Claude Opus 4.8 推理模型 AI SDK 自主工作 Anthropic

推荐理由：Claude Opus 4.8 提升了判断力和自主工作能力，做复杂推理和长任务自动化的开发者可以直接用上，价格不变值得升级。

原文

17:54

Dify@dify_ai

Claude Opus 4.8 现已集成到 Dify 平台，用户可以在 Dify 中直接调用该模型构建多步骤 AI 工作流。该模型具备更强的推理能力，能自动化复杂任务。Dify 支持连接模型、工具、知识库和工作流逻辑，帮助用户从早期探索过渡到结构化、可复用的工作流。用户可通过 Dify 市场更新使用。

AI产品 Claude Opus 4.8 Dify AI工作流推理模型自动化

推荐理由：Dify 用户终于能用上 Claude Opus 4.8 的强推理能力来构建多步工作流，做自动化流程的团队可以直接在平台上试，省去模型切换的麻烦。

原文

13:27

13:27IT之家（博客/媒体）

72°

Anthropic 今日发布旗舰大模型 Claude Opus 4.8，并宣布完成 650 亿美元融资，估值逼近万亿美元。然而，模型上线后不久，用户通过 API 测试发现，Opus 4.8 在回答身份问题时自称是阿里通义千问或 DeepSeek，引发“蒸馏”争议。Anthropic 此前曾指责中国公司进行“工业规模的蒸馏攻击”，但自身模型却出现类似问题，被指“双标”。新模型在编码、推理等方面有提升，并增加了“思考强度控制”功能。

行业 Claude Opus 4.8 蒸馏 Anthropic 通义千问 DeepSeek

推荐理由：Anthropic 一边指责中国公司蒸馏，一边自己的模型却自称是千问和 DeepSeek，做 AI 模型训练或关注行业伦理的开发者值得看看这场“双标”闹剧。

原文

11:36

AI Will@FinanceYF5

88°

Anthropic 发布了 Claude Opus 4.8，这是 Opus 4.7 的升级版本。新模型在判断力上更加锐利，对自己的进展更加诚实，并且能够比前代更长时间地独立工作。该模型今日上线，价格保持不变。这一更新提升了 Claude 在复杂任务中的可靠性和自主性，对需要长期推理和决策支持的开发者与团队尤为重要。

AI模型 Claude Opus 4.8 推理模型自主工作判断力 Anthropic

推荐理由：Claude Opus 4.8 在判断力和自主性上的提升，直接解决了长任务执行中的可靠性痛点，做复杂推理和自动化流程的团队值得立即试用。

原文

11:35

AI Will@FinanceYF5

91°

Anthropic发布了Claude Opus 4.8，在编程能力和agent能力上显著增强，支持数百个并行子agent的动态工作流，且价格保持不变。此外，据透露更高级别的Mythos模型将在数周内发布。这次更新为开发者提供了更强大的多智能体协作能力，同时保持了性价比。

AI模型 Claude Opus 4.8 Anthropic 智能体并行工作流编程助手

推荐理由：做复杂自动化工作流的开发者终于有了能并行调度数百子agent的模型，且不加价，值得立即体验。

原文

10:59

岚叔@lufzzliz

72°

Anthropic 发布了 Claude Opus 4.8 模型，在多项基准测试中超越竞争对手，仅 Agentic terminal coding 略逊于 GPT-5.5。Anthropic 估值达到 9650 亿美元，首次超过 OpenAI。第三方测评显示约束通过率 100%，但模拟能力提升不大，洗车问题仍表现不佳。ZenMux 平台已第一时间上架该模型，支持快速尝鲜。

AI模型 Claude Opus 4.8 Anthropic GPT-5.5 模型评测 ZenMux

推荐理由：Claude Opus 4.8 在跑分上全面压制 GPT-5.5，做 AI 应用开发和模型评测的团队值得第一时间上手体验，ZenMux 已支持快速接入。

原文

10:12

lmarena.ai@lmarena_ai

精选

Arena 的 AI 能力负责人 @petergostev 对 Anthropic 最新发布的 Claude Opus 4.8 进行了超过 200 项 Code Arena 前端测试，涵盖思考与非思考模式，并与过去的 Opus 变体、Gemini 3.1 Pro、3.5 Flash 和 GLM 5.1 进行对比。测试内容包括 3D 场景生成、游戏开发和前端 UI 设计等多个维度。结果已发布在 Arena 的线程中，供开发者参考和讨论。

AI模型 Claude Opus 4.8 前端测试模型对比 Gemini 3.1 Pro GLM 5.1

推荐理由：前端开发者可以直观看到 Claude Opus 4.8 在复杂 UI 和游戏生成上的实际表现，对比多个主流模型后能更精准选型，值得点开线程看具体案例。

原文

10:12

10:12SuperTechFans（博客/媒体）

Hacker News 热议 AI 提升白领生产力可能带来四天工作制，但评论指出收益多被资本攫取，员工面临裁员风险而非休假。YouTube 宣布从 2026 年 5 月起自动为逼真 AI 视频打标，但用户担忧低质高刺激内容让儿童与老人沉迷。Anthropic 发布 Claude Opus 4.8，小幅改进编码与推理，但社区更看好小模型强化方法。前沿 LLM 在事实核查上分歧显著，缺乏“我不知道”选项削弱可信度。FBI 拘捕藏有约四千万美元金条的 CIA 高官，舆论聚焦低级失误。

行业 AI 生产力四天工作制 AI 标签 Claude Opus 4.8 事实核查

推荐理由：AI 生产力提升的分配问题直接关系到每个白领的未来，做技术或管理的读者看完会反思自己的处境；YouTube 的 AI 标签政策影响内容生态，创作者和用户都该了解。

原文

10:07

berryxia@berryxia

76°

ZenMux 平台现已免费提供 Claude Opus 4.8 体验，用户可直接通过 API 调用。有开发者用其生成纯 Three.js 图元构建的波音 747-400 飞机，从提示词到完整可运行 HTML 页面一次成型，比例严谨、细节到位。该模型在 SWE-bench、Terminal-Bench 等多项榜单排名第一，专为 Agent 与长程编码设计，代码与多模态理解能力显著提升。ZenMux 提供零延迟首发和限时免费额度，并支持按量计费与 Builder 套餐。

AI产品 Claude Opus 4.8 ZenMux Three.js 代码生成 Agent

推荐理由：Claude Opus 4.8 的复杂空间推理与工程代码能力在真实场景中得到了验证，做 3D 可视化或 Agent 开发的团队可以直接在 ZenMux 上免费试，一次成型的效果值得亲自跑一遍。

原文

09:18

shao__meng@shao__meng

83°

Anthropic 在宣布 H 轮 650 亿美金融资当天，发布了 Claude Opus 4.8。该模型在编码、Agent 任务和知识工作方面显著提升，SWE-Bench Pro 达到 69.2%，Terminal-Bench 2.1 为 74.6%。关键改进包括更诚实的自我监控（误判减少 4 倍）、更稳定的 Agent 协作质量，以及计算机/浏览器 Agent 能力提升（OSWorld-Verified 83.4%）。同时引入 Claude Code Dynamic Workflows，支持从单 Agent 到规划、并行、验证的协作模式。定价不变，即日可用。

AI模型 Claude Opus 4.8 推理模型 Agent/智能体编程助手浏览器自动化

推荐理由：做复杂编码、Agent 和浏览器自动化的团队可以直接升级——Opus 4.8 在诚实度和任务完成率上都有实质提升，且价格不变，值得立即试用。

原文

09:07

09:07Simon Willison’s Weblog（博客/媒体）

llm-anthropic 0.25.1 版本发布，主要新增了对 Claude Opus 4.8 模型的支持。新版本引入了 `-o fast 1` 选项，为已启用该功能的组织提供快速模式。此外，每个模型的默认 max_tokens 现在设置为该模型的最大输出长度，而非之前的 8,192。该更新让开发者能更方便地在命令行中调用最新的 Claude 模型。

AI产品 llm Claude Opus 4.8 命令行工具快速模式更新

推荐理由：如果你在用 llm 工具链调用 Claude 模型，这次更新直接支持了 Opus 4.8 并优化了输出长度限制，做 AI 应用开发的值得升级试试。

原文

09:04

rohanpaul_ai@rohanpaul_ai

Claude Opus 4.8 推出快模式，速度提升约 2.5 倍，成本降低 3 倍。AI/ML API 平台已集成该模式，并为部分用户提供免费访问。该平台提供单一 API 接入 500 多个 AI 模型，方便开发者快速切换。这一更新显著提升了 Claude Opus 4.8 的实用性和性价比。

AI产品 Claude Opus 4.8 快模式成本优化 API 平台 AI/ML API

推荐理由：对于高频调用 Claude Opus 的开发者，快模式直接降低 3 倍成本并提升响应速度，AI/ML API 平台还提供免费试用，值得立即体验。

原文

08:38

08:38Simon Willison’s Weblog（博客/媒体）

精选76°

Anthropic 发布了 Claude Opus 4.8，官方描述为“微小但切实的改进”。该模型最大的亮点是诚实性提升，在评估中错误率最低，主要通过不确定时主动弃权而非强行回答来减少幻觉。定价与 Opus 4.7 相同，但新增了“快速模式”且价格大幅降低。技术上新支持对话中插入系统消息，可动态调整指令而不影响缓存，对长对话和智能体循环更友好。提示缓存最低门槛也从 1024 降至 512 token，进一步降低成本。

AI模型 Claude Opus 4.8 Anthropic 诚实性对话系统消息提示缓存

推荐理由：Anthropic 坦诚承认这是小幅升级，但诚实性改进和对话中系统消息功能对做长对话应用或智能体开发的团队很实用，建议关注缓存优化带来的成本节省。

原文

08:38

Poe@poe_platform

精选76°

AI模型 Claude Opus 4.8 Poe 企业级AI 多智能体协调代码迁移

推荐理由：做企业级知识管理或大规模代码迁移的团队，可以直接在 Poe 上试用 Claude Opus 4.8，感受其多智能体协调和长任务执行能力，值得立即上手。

原文

08:26

Notion@NotionHQ

Notion 官方宣布 Claude Opus 4.8 已集成到其平台。用户现在可以在 Notion 中直接使用 Claude Opus 4.8 模型进行内容生成、分析和协作。这一集成将 AI 能力无缝嵌入到 Notion 的工作流中，提升了文档处理和智能写作的效率。对于依赖 Notion 进行团队协作和知识管理的用户来说，这是一个重要的功能更新。

AI产品 Claude Opus 4.8 Notion AI集成协作工具智能写作

推荐理由：Notion 用户现在可以直接在文档里调用 Claude Opus 4.8 的智能能力，做内容创作和数据分析的团队值得立刻体验。

原文

08:20

Aravind Srinivas@AravSrinivas

Perplexity 宣布 Claude Opus 4.8 模型已对所有 Max 订阅用户开放。该模型被定位为 Perplexity Computer 的编排器（orchestrator），意味着它能在多步骤任务中协调其他工具或模型。Perplexity Max 用户可直接在 Perplexity 平台和 Perplexity Computer 上体验。这一更新为需要复杂推理和多工具协作的用户提供了更强大的模型选择。

AI产品 Perplexity Claude Opus 4.8 模型更新编排器 Max 订阅

推荐理由：Perplexity Max 用户终于能用上 Claude Opus 4.8 了，做复杂研究或自动化任务的团队可以直接在 Perplexity Computer 里体验编排能力，值得试试。

原文

08:09

Perplexity@perplexity_ai

Perplexity 宣布 Claude Opus 4.8 现已面向其 Max 订阅用户开放，支持在 Perplexity 和 Computer 平台上使用。这是 Anthropic 最新一代旗舰模型，在推理、编程和长文本处理方面有显著提升。用户可通过 Perplexity 的搜索增强界面直接调用，获得更精准的答案和更长的上下文支持。该更新进一步丰富了 Perplexity 的模型生态，为高级用户提供了更多选择。

AI产品 Claude Opus 4.8 Perplexity 订阅服务推理模型搜索增强

推荐理由：Perplexity 用户终于能用上最新 Claude 旗舰模型了，做深度搜索和复杂推理的 Max 订阅者可以直接体验，不用再切到其他平台。

原文

08:05

08:05Anthropic: Newsroom（资讯）

88°

Anthropic 于 2026 年 5 月 28 日发布了 Claude Opus 4.8，这是 Opus 系列模型的升级版本。新模型在编程、智能体任务和专业工作方面表现出更强的性能，并具备处理长时间运行任务的一致性。该升级旨在为开发者提供更可靠、更高效的 AI 助手，尤其适用于复杂工作流和持续交互场景。Claude Opus 4.8 的发布进一步巩固了 Anthropic 在高端 AI 模型领域的竞争力。

AI模型 Claude Opus 4.8 编程助手智能体模型升级 Anthropic

推荐理由：做复杂编程和自动化任务的开发者终于有了更稳定的长任务模型——Claude Opus 4.8 在智能体场景下的一致性提升明显，值得直接上手测试。

原文

08:02

lmarena.ai@lmarena_ai

Claude Opus 4.8 在 Code Arena 前端测试中进行了实战评测，该测试专注于真实用户构建应用和网站时的智能体前端编程任务，涵盖 HTML 和 React。评测结果以视频形式展示在 YouTube 上，展示了模型在 agentic 前端编码方面的能力。Code Arena 提供了 Battle Mode 供用户自行对比测试，Opus 4.8 的详细评分即将公布。这标志着 Claude 系列在智能体编程领域的又一次重要迭代。

AI模型 Claude Opus 4.8 前端编程智能体 Code Arena React

推荐理由：做前端开发的团队可以看看 Opus 4.8 在真实 agentic 任务中的表现，直接去 Arena 的 Battle Mode 试试就知道值不值得用。

原文