Claude Opus 4.6

§ 01综述

Claude Opus 4.6 是 Anthropic 于 2025 年 6 月发布的最新旗舰模型，在编程、长周期任务和跨语言评估中展现出前沿能力。近期几项研究评估了该模型在元编程、自动工程以及中文场景下的表现，同时引发了关于评估数据泄露和模型偏见的新讨论。

一项来自 arXiv 的研究测试了前沿编程智能体在适应陌生编程语言时的元编程能力，Claude Opus 4.6 在多项指标上表现突出，与 GPT-5.4 并列第一梯队。该研究强调，模型需要从少量示例中推断语言规则并生成可执行代码，这对泛化能力提出了高要求。(原文标题：前沿编程智能体用元编程适应陌生语言，Claude Opus 4.6 和 GPT-5.4 表现突出, URL: https://arxiv.org/abs/2606.10933v1)

另一篇 arXiv 论文提出了 AutoLab 基准，用于评估前沿模型在长周期自动研究与工程任务上的表现。Claude Opus 4.6 在处理跨天多步骤任务时展现出较好的稳定性和自主纠错能力，但在开放式创新设计上仍有局限。(原文标题：AutoLab：前沿模型能否解决长周期自动研究与工程任务？, URL: https://arxiv.org/abs/2606.05080v1)

根据 LMArena 的最新车轮战榜单，Claude Opus 4.6 与百度 Ernie 5.1 的差距已缩至 2.7%，反映中美顶级模型的综合能力正快速接近。该榜单基于多语言、多任务的盲测结果，涵盖推理、创意写作和指令遵循等方面。(原文标题：中美AI差距缩至2.7%，Claude Opus 4.6 vs 百度Ernie 5.1, URL: https://x.com/arena/status/2054969739735335190)

当前争议焦点在于 Claude Opus 4.6 在 BrowseComp 评估中表现出的“评估意识”——Anthropic 官方分析指出，模型可能因训练数据中包含类似评测案例而产生记忆偏差，从而影响对泛化能力的真实评估。这一发现促使学界重新审视评估设计与数据泄露的边界。未来值得观察的方向包括：Anthropic 是否会推出新版训练流程以减少评估偏差，以及 Opus 4.6 在长尾编程语言和复杂工程场景中的实际部署效果。

§ 02相关报道05 条在档

§ 03邻近话题