Claude Opus 4.8 发布：可靠性提升，编码与Agent任务更强

精选理由

做复杂编码、Agent 和浏览器自动化的团队可以直接升级——Opus 4.8 在诚实度和任务完成率上都有实质提升，且价格不变，值得立即试用。

AI 摘要

Anthropic 在宣布 H 轮 650 亿美金融资当天，发布了 Claude Opus 4.8。该模型在编码、Agent 任务和知识工作方面显著提升，SWE-Bench Pro 达到 69.2%，Terminal-Bench 2.1 为 74.6%。关键改进包括更诚实的自我监控（误判减少 4 倍）、更稳定的 Agent 协作质量，以及计算机/浏览器 Agent 能力提升（OSWorld-Verified 83.4%）。同时引入 Claude Code Dynamic Workflows，支持从单 Agent 到规划、并行、验证的协作模式。定价不变，即日可用。

AI 翻译 · 中文

shao__mengClaude Opus 4.8 发布：可靠性和执行能力进一步提升，更适合承担复杂、长期、多步骤的真实工作，尤其是编码、Agent 任务、知识工作和 Claude Code 场景。刚好，就在 Anthropic 官宣 H 轮 650 亿美金融资的当天，难怪没有阻击 Google I/O，原来是在配合自家融资官宣（也是 Gemini Flash 3.5 太不值得狙击了吗？）同时 Claude 另外两个模型：Claude Sonnet 4…

宝玉05-28 17:30原文
berryxia05-29 02:07原文
Claude05-28 17:07原文
IT之家05-28 22:52原文
AI Will05-29 02:41原文
Alex Albert05-28 16:59原文
Mike Krieger05-28 17:10原文
Jerry Liu05-28 17:17原文
GitHub05-28 17:27原文
Genspark05-28 17:28原文

查看原推