6月9日
09:50
09:50arXiv cs.AI@Lu Jia, Haibo Tong, Feifei Zhao, Jindong Li, Dongqi Liang, Ping Wu, Qian Zhang, Yi Zeng
精选
VESTA 是一个全自动化的 LLM 智能体安全评估框架,能基于五个风险维度生成 1072 个可执行的评估场景。现有评估依赖人工编写场景或静态提示,难以捕捉智能体在任务执行中的多样化风险。VESTA 通过自动化流程对 12 个 LLM 智能体进行测试,发现平均安全风险率高达 47.1%,部分模型超过 70%。该框架强调了可执行、过程级评估对于理解和提升智能体安全性的重要性。
推荐理由:做 LLM 智能体安全评估的团队终于有了自动化工具——VESTA 能生成上千个真实任务场景,直接测出模型执行中的安全漏洞。建议关注智能体安全的开发者点开看看,结果可能会让你重新审视现有模型的风险。
5月27日
10:29
10:29arXiv cs.AI@Tamerlan Aghayev, Maxime Elkael, Michele Polese, Minh Dat Nguyen, Gabriele Gemmi, Andrea Lacava, Ali Saeizadeh, Reshma Prasad, Paolo Testolina, Angelo Feraudo, Soumendra Nanda, Pedram Johari, Salvatore D'Oro, Tommaso Melodia
精选72°
GENESIS是一个AI智能体框架,旨在解决6G无线接入网(RAN)研发中六个结构性瓶颈,包括从标准合成代码、一致性测试、现场异常处理、数据驱动优化、新波形原型设计到安全加固。传统LLM在RAN场景中会幻觉API、误读规范,且依赖仿真导致硬件迁移失败。GENESIS通过三个可组合原语(智能体、技能、钩子)和持久知识层SYNAPSE,将意图(如规范条款、遥测异常)转化为经过空中实验验证的解决方案,并回馈到知识库。该框架使能力随运行次数累积,显著压缩R&D周期。
推荐理由:GENESIS解决了6G RAN研发中手动迭代耗时的核心痛点,做通信系统开发或6G标准研究的团队可以直接用这个框架加速从规范到验证的全流程。