精选理由
AI 评估社区和关注模型安全的研究者值得关注——数据条款正在影响基准测试的独立性,这直接关系到模型能力的可信度。
ARC Prize 团队提前获得了 Anthropic 的 Fable 5 模型访问权限,但由于 Anthropic 针对 Mythos 类模型的新数据保留条款,他们无法运行已验证的半私有 ARC-AGI-1/2/3 评估。团队正在与 Anthropic 协商,以确保 ARC 验证数据的隐私性。评估分数将在安全运行条件满足后公布。这一事件凸显了 AI 模型评估中数据隐私与模型访问权限之间的冲突。
AI 翻译 · 中文
ARC Prize 团队提前获得了 Anthropic 的 Fable 5 模型访问权限,但由于 Anthropic 针对 Mythos 类模型的新数据保留条款,他们无法运行已验证的半私有 ARC-AGI-1/2/3 评估。团队正在与 Anthropic 协商,以确保 ARC 验证数据的隐私性。评估分数将在安全运行条件满足后公布。这一事件凸显了 AI 模型评估中数据隐私与模型访问权限之间的冲突。
We had early access to Anthropic’s Fable 5, but did not run verified Semi-Private ARC-AGI-1/2/3 evals due to their new data-retention terms for Mythos-class models. We’re working with Anthropic to keep ARC verification d…