11:38arXiv cs.AI@Manjinder Singh, Alexander E. I. Brownlee, Mohamed Elawady这篇论文提出GAversary,一种混合遗传算法(GA)用于生成对抗攻击,只需黑盒访问目标模型的logit输出。GAversary利用GloVe嵌入实现词替换(变异算子),提升对抗样本的语义相似性。在多个基准数据集和知名模型上测试,GAversary将目标模型准确率从76.8%降至5.8%,而对比方法BAE仅降至27.6%。代价是扰动词数约为BAE的两倍,语义相似度略低,运行时间增加约5%。论文GAversaryGloVe对抗攻击遗传算法AI安全推荐理由:这篇论文搞了个GAversary,用遗传算法和GloVe嵌入做黑盒文本攻击,能把模型准确率从76.8%打到5.8%,比BAE狠多了。原文
09:47arXiv cs.LG@Xiaoran Liu, Istvan David论文提出基于模型驱动的方法,通过混合遗传算法(结合全局搜索和启发式局部搜索)自动生成多组相似但不同的强化学习训练环境。方法将变异和约束表达为模型变换,由先进模型变换引擎操作化搜索过程。在野火缓解场景和课程学习(依赖环境家族的学习范式)中验证了方法的有效性。原型工具将手工开发环境家族的错误率降低,提升了可扩展性。论文强化学习模型驱动课程学习环境家族遗传算法推荐理由:这篇论文提出用模型驱动和遗传算法自动生成RL环境变体,省去手写大量相似环境的麻烦,野火场景验证过,做课程学习的可以看看。原文
11:46arXiv cs.AI@Aman Anifer, Vignesh Kumar Kembu, Vishnu M, Antonino Nocera, Vinod P., Amal Murali PK, Akshay S Rajan研究者提出GAS-Leak-LLM,一种基于遗传算法的黑盒LLM越狱攻击方法。该方法无需访问模型参数或内部信息,在严格黑盒设置下通过选择、变异、交叉迭代搜索对抗性后缀。实验在多个主流LLM上验证了攻击成功率,暴露了现有安全对齐机制的缺陷。论文GAS-Leak-LLMLLM遗传算法AI安全对抗攻击推荐理由:想看看LLM安全到底有多脆弱吗?这个研究用遗传算法黑盒越狱,效果惊人,开发者应该留意。原文