AITP
精选全部 AI 动态AI 日报Agent 接入关于更新日志信源提报反馈
登录 / 注册
AITOP
全部 AI 动态
AI 相关资讯全量信息流
全部博客资讯推文论文
全部模型产品行业论文技巧
标签:形式验证×
6月25日
10:43
10:43arXiv cs.LG@Seth Dobrin, Łukasz Chmiel
该论文提出Unfireable Safety Kernel,一种执行时AI对齐机制,满足四个属性:进程隔离、结构唯一路径预执行、请求和系统级故障关闭、外部可验证签名证据。Rust参考实现通过Z3定理证明和Kani模型检查(4/4 harnesses)机器验证了故障关闭不变性。在可逃逸AI系统上测试,面对逃逸攻击者,1000次自我修改中所有704次对安全核心的尝试被拒绝,无逃逸;6240次授权往返无成功绕过。相比3个声称控制智能体平面的当代系统,该内核使智能体失去控制选项。
论文Unfireable Safety KernelAI Agent安全对齐形式验证Rust

推荐理由:这篇论文用Rust和形式化验证搞了个安全内核,1000次自修改加6240次授权测试都拦住了逃逸,比那些吹控制智能体的系统实在多了。
原文
6月19日
09:38
09:38arXiv: DeepSeek@Minsu Kim, Se-Young Yun
研究者提出利用Lean证明助手作为符号过程预言机,在训练中提供细粒度的策略级验证反馈,弥补了传统RLVR仅依赖二元验证信号的不足。通过将证明尝试解析为策略序列,Lean能标记局部正确步骤及最早失败步骤,从而产生基于类型论的密集可验证信用信号。在STP-Lean和DeepSeek-Prover-V1.5上的实验表明,策略级监督在多数设置下优于仅结果监督的基线,在MiniF2F和ProofNet基准上取得提升。该工作展示了符号证明助手不仅可在评估时用作验证器,还能在训练中充当过程级奖励预言机。
AI模型Lean定理证明强化学习形式验证推理模型

推荐理由:这篇论文用Lean在定理证明训练中引入细粒度过程奖励,比只判对错的强化学习效果好,在MiniF2F和ProofNet上都有提升。
原文
6月16日
20:46
AITOP6月16日 20:46
600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI600亿美元买下Cursor,xAI终于拿到了编程工具,但真正值得跟踪的或许不是AI
6月12日
12:57
AITOP6月12日 12:57
Claude代码里藏了个20260612,18个月后的AI记忆革命已经开始倒计时
6月11日
15:28
AITOP6月11日 15:28
1107 vs 303:谷歌悄悄开源了一个“拆打字机”的模型,把大模型速度翻了4倍
15:23
AITOP6月11日 15:23
DiffusionGemma颠覆文本生成?自回归模型的“统治”要结束了
15:07
AITOP6月11日 15:07
每秒1107个token,Google开源的扩散模型为什么能改变本地推理格局?
6月2日
09:41
09:41arXiv cs.AI@Quinn Dougherty, Max von Hippel, Hazel Shackleton, Mike Dodds
FVSpec 是一个新基准,用于评估 AI 模型和智能体在真实软件形式验证任务上的能力。研究团队从真实 Python 仓库中抓取 11,039 个属性测试(PBT),并自动将其中 2,772 个(25%)翻译成 9,415 个 Lean 4 规范(含占位符)。翻译过程需模拟 Python 语义、推断逻辑属性并处理依赖类型编程的复杂性。团队设计了一个三智能体 LLM 流水线完成翻译,并提供了多种自动化与基于模型的证明生成基线。所有代码和数据已开源,旨在推动 AI 辅助真实软件形式验证这一未充分探索的领域。
论文形式验证Lean 4属性测试AI 基准开源/仓库

推荐理由:形式验证是 AI 生成代码质量保障的关键,做 AI 安全或软件验证的开发者可以直接用这个基准测试自己的模型,看看能否补全 Lean 证明。
原文
5月15日
11:20
11:20arXiv cs.LG@Frederik Schmitt, Matthias Cosler, Niklas Metzger, Julian Siber, Vladimir Krsmanovic, Mohamed Ghanem, Bernd Finkbeiner
精选
反应式综合是从逻辑规范自动构建硬件电路的经典难题,既算法困难又需手写形式规范。本文提出神经符号方法,将大推理模型与模型检查器结合,通过符号反馈迭代修复 Verilog 实现,在年度综合竞赛中解决更多基准问题,甚至能处理参数化系统(已知不可判定问题)。同时引入自动形式化步骤,将规范任务从时序逻辑迁移到自然语言,并创建了自然语言规范数据集用于评估。实验表明,从自然语言出发的性能与从形式规范出发相当,使自然语言综合成为可行的端到端工作流。
论文反应式综合大推理模型形式验证Verilog自然语言规范

推荐理由:硬件设计自动化领域终于有了突破——大推理模型让自然语言写规范成为可能,做 EDA 工具或形式验证的团队值得关注这个端到端方案。
原文
精选全部日报登录