全部 AI 动态 · AI 热点

6月25日

10:43

10:43

arXiv cs.LG@Seth Dobrin, Łukasz Chmiel

该论文提出Unfireable Safety Kernel，一种执行时AI对齐机制，满足四个属性：进程隔离、结构唯一路径预执行、请求和系统级故障关闭、外部可验证签名证据。Rust参考实现通过Z3定理证明和Kani模型检查（4/4 harnesses）机器验证了故障关闭不变性。在可逃逸AI系统上测试，面对逃逸攻击者，1000次自我修改中所有704次对安全核心的尝试被拒绝，无逃逸；6240次授权往返无成功绕过。相比3个声称控制智能体平面的当代系统，该内核使智能体失去控制选项。

论文 Unfireable Safety Kernel AI Agent 安全对齐形式验证 Rust

推荐理由：这篇论文用Rust和形式化验证搞了个安全内核，1000次自修改加6240次授权测试都拦住了逃逸，比那些吹控制智能体的系统实在多了。

6月19日

09:38

09:38

arXiv: DeepSeek@Minsu Kim, Se-Young Yun

研究者提出利用Lean证明助手作为符号过程预言机，在训练中提供细粒度的策略级验证反馈，弥补了传统RLVR仅依赖二元验证信号的不足。通过将证明尝试解析为策略序列，Lean能标记局部正确步骤及最早失败步骤，从而产生基于类型论的密集可验证信用信号。在STP-Lean和DeepSeek-Prover-V1.5上的实验表明，策略级监督在多数设置下优于仅结果监督的基线，在MiniF2F和ProofNet基准上取得提升。该工作展示了符号证明助手不仅可在评估时用作验证器，还能在训练中充当过程级奖励预言机。

AI模型 Lean 定理证明强化学习形式验证推理模型

推荐理由：这篇论文用Lean在定理证明训练中引入细粒度过程奖励，比只判对错的强化学习效果好，在MiniF2F和ProofNet上都有提升。

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日

12:57

AITOP6月12日 12:57

Claude代码里藏了个20260612，18个月后的AI记忆革命已经开始倒计时

6月11日

15:28

AITOP6月11日 15:28

1107 vs 303：谷歌悄悄开源了一个“拆打字机”的模型，把大模型速度翻了4倍

15:23

AITOP6月11日 15:23

DiffusionGemma颠覆文本生成？自回归模型的“统治”要结束了

15:07

AITOP6月11日 15:07

每秒1107个token，Google开源的扩散模型为什么能改变本地推理格局？

6月2日

09:41

09:41

arXiv cs.AI@Quinn Dougherty, Max von Hippel, Hazel Shackleton, Mike Dodds

FVSpec 是一个新基准，用于评估 AI 模型和智能体在真实软件形式验证任务上的能力。研究团队从真实 Python 仓库中抓取 11,039 个属性测试（PBT），并自动将其中 2,772 个（25%）翻译成 9,415 个 Lean 4 规范（含占位符）。翻译过程需模拟 Python 语义、推断逻辑属性并处理依赖类型编程的复杂性。团队设计了一个三智能体 LLM 流水线完成翻译，并提供了多种自动化与基于模型的证明生成基线。所有代码和数据已开源，旨在推动 AI 辅助真实软件形式验证这一未充分探索的领域。

论文形式验证 Lean 4 属性测试 AI 基准开源/仓库

推荐理由：形式验证是 AI 生成代码质量保障的关键，做 AI 安全或软件验证的开发者可以直接用这个基准测试自己的模型，看看能否补全 Lean 证明。

5月15日

11:20

11:20

arXiv cs.LG@Frederik Schmitt, Matthias Cosler, Niklas Metzger, Julian Siber, Vladimir Krsmanovic, Mohamed Ghanem, Bernd Finkbeiner

精选

反应式综合是从逻辑规范自动构建硬件电路的经典难题，既算法困难又需手写形式规范。本文提出神经符号方法，将大推理模型与模型检查器结合，通过符号反馈迭代修复 Verilog 实现，在年度综合竞赛中解决更多基准问题，甚至能处理参数化系统（已知不可判定问题）。同时引入自动形式化步骤，将规范任务从时序逻辑迁移到自然语言，并创建了自然语言规范数据集用于评估。实验表明，从自然语言出发的性能与从形式规范出发相当，使自然语言综合成为可行的端到端工作流。

论文反应式综合大推理模型形式验证 Verilog 自然语言规范

推荐理由：硬件设计自动化领域终于有了突破——大推理模型让自然语言写规范成为可能，做 EDA 工具或形式验证的团队值得关注这个端到端方案。