arXiv cs.AI@Licong Xu, Thomas Borrett精选58这篇论文提出了两个面向宇宙学的AI智能体系统:CMBEvolve通过LLM引导的代码进化和树搜索,针对有明确量化目标的任务(如弱引力透镜图中的异常检测)进行优化;CosmoEvolve则构建虚拟多智能体研究实验室,用于开放式的科学工作流(如自主分析ACT DR6数据)。初步实验显示,CMBEvolve能通过代码进化迭代提升基准分数,CosmoEvolve能识别非平凡的成对和尺度依赖行为并生成分析级诊断。这项工作展示了宇宙学如何为AI科学家系统的开发提供可控基准和真实开放研究问题。论文AI智能体宇宙学代码进化多智能体系统科学发现推荐理由:宇宙学研究者终于有了能自主推进发现的AI工具——CMBEvolve和CosmoEvolve分别解决了定量优化和开放式探索两大痛点,做数据分析或理论建模的团队可以直接参考其方法。
arXiv: OpenAI@Zhun Wang, Nico Schiller, Hongwei Li, Srijiith Sesha Narayana, Milad Nasr, Nicholas Carlini, Xiangyu Qi, Eric Wallace, Elie Bursztein, Luca Invernizzi, Kurt Thomas, Yan Shoshitaishvili, Wenbo Guo, Jingxuan He, Thorsten Holz, Dawn Song精选75ExploitGym 是一个大规模、多样化的基准测试,用于评估 AI 智能体将安全漏洞转化为实际攻击的能力。该基准包含 898 个来自真实世界漏洞的实例,涵盖用户空间程序、Google V8 JavaScript 引擎和 Linux 内核三个领域。评估显示,前沿模型如 Anthropic 的 Claude Mythos Preview 和 OpenAI 的 GPT-5.5 能成功利用 157 和 120 个漏洞实例,即使在启用常见防御措施后仍保持一定成功率。这项工作揭示了 AI 智能体在网络安全中的双重用途风险,为防御和攻击场景提供了重要测试平台。论文安全漏洞AI智能体基准测试漏洞利用Claude Mythos PreviewGPT-5.5推荐理由:安全研究员和红队成员终于有了评估 AI 攻击能力的标准化工具——ExploitGym 覆盖真实漏洞和防御场景,做渗透测试或 AI 安全评估的团队可以直接拿来用。