11:18arXiv cs.AI@Alessandro Sosso, Akhil Arora, Bas Spitters精选该论文评估了 Claude Code 在 CLEVER 基准(Lean 4 可验证代码生成)上的表现。结果显示,Claude 为 98.8% 的问题生成了有效的规范(其中 81.3% 通过了同构评分),87.5% 的问题通过了正确规范的实现验证,端到端管线成功率达 98.1%。Claude 还能对自身尝试提供高质量反馈,识别失败原因和数据集中的错误。这表明现有程序验证基准已不足以衡量现代智能体证明器的能力,需要更严格、抗错误的评估方法。论文程序验证Lean 4Claude Code智能体证明形式化验证推荐理由:程序验证是 AI 安全的关键环节,Claude Code 在 Lean 4 上接近完美的表现意味着做形式化验证的团队可以大幅提升效率,建议关注其编译器闭环范式。原文