AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:ProofNet×
6月29日
10:06
10:06arXiv: DeepSeek@Chengxiao Dai, Zhaokun Yan, Zhanhui Lin
该论文提出信号覆盖矩阵,将自动形式化输出按Lean elaborate检验(通过/失败)和语义等价判断(等价/不等价)分为四类。在ProofNet#和MiniF2F-test上使用DeepSeek V4-Pro进行实验,发现三种精化反馈方法(Lean-Retry、Sample-Filter、SAF)相比Vanilla的TS增益+34到+36,其中约64%来自类型层恢复,语义层净变化为0。TO到TS的转换率为23/61(Wilson 95% CI [26.6%, 50.3%]),该层恢复率可预测保留方法上的ΔTS误差在2/186以内。两个判断者在精化反馈输出上的分歧达26至37个百分点(Vanilla仅7个百分点),30%至56%的符号判断假阴性源于elaborator强制重写。
论文ProofNetMiniF2FDeepSeek V4-ProLean自动形式化

推荐理由:这篇论文用信号覆盖矩阵把自动形式化的错误拆成类型和语义两类,告诉你每个方法的增益到底来自哪,而不是只看总分。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
精选全部日报登录