精选理由
做复杂编码、Agent 和浏览器自动化的团队可以直接升级——Opus 4.8 在诚实度和任务完成率上都有实质提升,且价格不变,值得立即试用。
Anthropic 在宣布 H 轮 650 亿美金融资当天,发布了 Claude Opus 4.8。该模型在编码、Agent 任务和知识工作方面显著提升,SWE-Bench Pro 达到 69.2%,Terminal-Bench 2.1 为 74.6%。关键改进包括更诚实的自我监控(误判减少 4 倍)、更稳定的 Agent 协作质量,以及计算机/浏览器 Agent 能力提升(OSWorld-Verified 83.4%)。同时引入 Claude Code Dynamic Workflows,支持从单 Agent 到规划、并行、验证的协作模式。定价不变,即日可用。
AI 翻译 · 中文
Anthropic 在宣布 H 轮 650 亿美金融资当天,发布了 Claude Opus 4.8。该模型在编码、Agent 任务和知识工作方面显著提升,SWE-Bench Pro 达到 69.2%,Terminal-Bench 2.1 为 74.6%。关键改进包括更诚实的自我监控(误判减少 4 倍)、更稳定的 Agent 协作质量,以及计算机/浏览器 Agent 能力提升(OSWorld-Verified 83.4%)。同时引入 Claude Code Dynamic Workflows,支持从单 Agent 到规划、并行、验证的协作模式。定价不变,即日可用。
Claude Opus 4.8 发布:可靠性和执行能力进一步提升,更适合承担复杂、长期、多步骤的真实工作,尤其是编码、Agent 任务、知识工作和 Claude Code 场景。 刚好,就在 Anthropic 官宣 H 轮 650 亿美金融资的当天,难怪没有阻击 Google I/O,原来是在配合自家融资官宣(也是 Gemini Flash 3.5 太不值得狙击了吗?) 同时 Claude 另外两个模型:Claude Sonnet 4…