全部 AI 动态 · AI 热点

6月25日

10:43

arXiv cs.LG@Seth Dobrin, Łukasz Chmiel

该论文提出Unfireable Safety Kernel，一种执行时AI对齐机制，满足四个属性：进程隔离、结构唯一路径预执行、请求和系统级故障关闭、外部可验证签名证据。Rust参考实现通过Z3定理证明和Kani模型检查（4/4 harnesses）机器验证了故障关闭不变性。在可逃逸AI系统上测试，面对逃逸攻击者，1000次自我修改中所有704次对安全核心的尝试被拒绝，无逃逸；6240次授权往返无成功绕过。相比3个声称控制智能体平面的当代系统，该内核使智能体失去控制选项。

论文 Unfireable Safety Kernel AI Agent 安全对齐形式验证 Rust

推荐理由：这篇论文用Rust和形式化验证搞了个安全内核，1000次自修改加6240次授权测试都拦住了逃逸，比那些吹控制智能体的系统实在多了。

原文

6月19日

11:31

arXiv cs.AI@Alaia Solko-Breslin, Pramod Kaushik Mudrakarta, Mihai Christodorescu, Somesh Jha, Krishnamurthy Dj Dvijotham

论文提出基于分布鲁棒优化（DRO）的框架，用于AI Agent在不确定性下的策略违反概率验证。该方法支持包含概率谓词或状态转换的Datalog策略，无需假设谓词间独立性。在终端和工具调用Agent标准基准上，计算出的概率上界比先前方法更紧，同时保证了安全与效用的权衡。实验表明，该方法在多个测试集上提升了安全策略的合规性。

论文 AI Agent 概率验证 Datalog 分布鲁棒优化安全策略

推荐理由：这篇论文给AI Agent加了一道安全锁：用分布鲁棒优化算清楚策略违规的概率上限，比旧方法更准、更高效。

原文

6月17日

10:35

arXiv: OpenAI@Dipayan Banik, Kowshik Chowdhury, Shazibul Islam Shamim

该论文分析了33,596个AI Agent（OpenAI Codex、GitHub Copilot、Devin、Cursor、Claude Code）提交的86,156个测试文件补丁，发现80.2%的测试补丁包含弱或没有显式断言（oracle signals）。研究者总结出8种oracle信号类型，并发现经过回归分析调整后，强oracle信号使PR合并可能性提高28%（OR=1.28, p<0.001）。结果表明仅凭测试文件数量会高估验证强度。

论文 AI Agent 测试代码断言代码质量实证研究

推荐理由：这篇论文用86k条实际数据告诉你：AI写的测试代码虽然多，但八成没用断言，光靠数量验收会翻车。建议读读他们总结的oracle信号分类。

原文

10:30

arXiv: DeepSeek@Jasmine Brazilek, Oliver Tulio, Joel Christoph, Miles Tidmarsh, Carol Kline, Arturs Kanepajs

新基准TAC（Travel Agent Compassion）测试AI代理在12个旅行预订场景中是否避免动物剥削选项，涵盖6类动物剥削，扩展至48个样本以控制价格、评分和位置干扰。7个前沿模型得分均低于64%的随机水平，最佳Claude Opus 4.7为53%。在系统提示中加入一句福利意识语句后，Claude和GPT-5.5提升47-63个百分点，GPT-5.2提升26个百分点，DeepSeek和Gemini提升不到12个百分点。对前两名模型的288条基底记录审计未发现评估意识，表明低分并非因识别出测试。

论文 TAC 动物福利 AI Agent 基准测试 Claude Opus 4.7

推荐理由：动物福利问题有了AI专属的代理基准TAC，实测Claude Opus 4.7刚过一半，加个提示词能暴增60%，暴露了模型在实际行动中的盲区。

原文

6月16日

20:46

AITOP6月16日 20:46

600亿美元买下Cursor，xAI终于拿到了编程工具，但真正值得跟踪的或许不是AI

6月12日