6月12日
5月27日
10:29
10:29arXiv cs.AI@Tamerlan Aghayev, Maxime Elkael, Michele Polese, Minh Dat Nguyen, Gabriele Gemmi, Andrea Lacava, Ali Saeizadeh, Reshma Prasad, Paolo Testolina, Angelo Feraudo, Soumendra Nanda, Pedram Johari, Salvatore D'Oro, Tommaso Melodia
精选72°
GENESIS是一个AI智能体框架,旨在解决6G无线接入网(RAN)研发中六个结构性瓶颈,包括从标准合成代码、一致性测试、现场异常处理、数据驱动优化、新波形原型设计到安全加固。传统LLM在RAN场景中会幻觉API、误读规范,且依赖仿真导致硬件迁移失败。GENESIS通过三个可组合原语(智能体、技能、钩子)和持久知识层SYNAPSE,将意图(如规范条款、遥测异常)转化为经过空中实验验证的解决方案,并回馈到知识库。该框架使能力随运行次数累积,显著压缩R&D周期。
推荐理由:GENESIS解决了6G RAN研发中手动迭代耗时的核心痛点,做通信系统开发或6G标准研究的团队可以直接用这个框架加速从规范到验证的全流程。
5月13日
19:12
19:12arXiv: OpenAI@Zhun Wang, Nico Schiller, Hongwei Li, Srijiith Sesha Narayana, Milad Nasr, Nicholas Carlini, Xiangyu Qi, Eric Wallace, Elie Bursztein, Luca Invernizzi, Kurt Thomas, Yan Shoshitaishvili, Wenbo Guo, Jingxuan He, Thorsten Holz, Dawn Song
精选75°
ExploitGym 是一个大规模、多样化的基准测试,用于评估 AI 智能体将安全漏洞转化为实际攻击的能力。该基准包含 898 个来自真实世界漏洞的实例,涵盖用户空间程序、Google V8 JavaScript 引擎和 Linux 内核三个领域。评估显示,前沿模型如 Anthropic 的 Claude Mythos Preview 和 OpenAI 的 GPT-5.5 能成功利用 157 和 120 个漏洞实例,即使在启用常见防御措施后仍保持一定成功率。这项工作揭示了 AI 智能体在网络安全中的双重用途风险,为防御和攻击场景提供了重要测试平台。

推荐理由:安全研究员和红队成员终于有了评估 AI 攻击能力的标准化工具——ExploitGym 覆盖真实漏洞和防御场景,做渗透测试或 AI 安全评估的团队可以直接拿来用。