全部 AI 动态 · AI 热点

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月2日

09:41

09:41

arXiv cs.AI@Quinn Dougherty, Max von Hippel, Hazel Shackleton, Mike Dodds

FVSpec 是一个新基准，用于评估 AI 模型和智能体在真实软件形式验证任务上的能力。研究团队从真实 Python 仓库中抓取 11,039 个属性测试（PBT），并自动将其中 2,772 个（25%）翻译成 9,415 个 Lean 4 规范（含占位符）。翻译过程需模拟 Python 语义、推断逻辑属性并处理依赖类型编程的复杂性。团队设计了一个三智能体 LLM 流水线完成翻译，并提供了多种自动化与基于模型的证明生成基线。所有代码和数据已开源，旨在推动 AI 辅助真实软件形式验证这一未充分探索的领域。

论文形式验证 Lean 4 属性测试 AI 基准开源/仓库

推荐理由：形式验证是 AI 生成代码质量保障的关键，做 AI 安全或软件验证的开发者可以直接用这个基准测试自己的模型，看看能否补全 Lean 证明。