Anthropic Opus 4.8 被指拿用户当小白鼠,偷偷修 bug 后舆论反转

哪怕是这种大公司 测试都是直接发布了让用户帮忙众包测试反馈了…. 改起来不成问题 问题变成了如何低成本发现😂

精选理由

这条吐槽戳中了 AI 模型发布「先上线再修 bug」的行业潜规则,如果你是重度使用 Claude 的开发者或团队,看完会明白为什么同一模型前后体验差异巨大——建议点开了解背后的不公平逻辑。

AI 摘要

开发者 yetone 指出,Anthropic 在推出新模型 Opus 4.8 时未经过充分内部测试,导致推理基础设施出现各种 bug,包括 edit tool 调用时 old_string 参数传错等降智行为。模型发布后,用户成为众包测试员,反馈真实问题后 Anthropic 偷偷修复了这些 bug,舆论随之回暖。这导致早期吐槽模型的用户被嘲笑,而后期用户评价截然不同。问题核心在于如何低成本发现 bug,而非修复本身。

AI 翻译 · 中文

开发者 yetone 指出,Anthropic 在推出新模型 Opus 4.8 时未经过充分内部测试,导致推理基础设施出现各种 bug,包括 edit tool 调用时 old_string 参数传错等降智行为。模型发布后,用户成为众包测试员,反馈真实问题后 Anthropic 偷偷修复了这些 bug,舆论随之回暖。这导致早期吐槽模型的用户被嘲笑,而后期用户评价截然不同。问题核心在于如何低成本发现 bug,而非修复本身。

Yangyi哪怕是这种大公司 测试都是直接发布了让用户帮忙众包测试反馈了…. 改起来不成问题 问题变成了如何低成本发现😂 yetone @yetone 但是这个应该不能去把责任归到用户身上,而必须是归到 Anthropic 身上。因为新的模型刚推出的时候,它内部没经过大量的测试,导致 Inference Infra 出现各种 bug,导致各种降智行为,甚至这一次 Opus 4.8 对 edit tool 调用的 old_string 参数都会传错