09:28arXiv cs.AI@Aradhana Nayak, Mussadiq Nazeer, Wang Peng, Feng Liu该论文提出一个GUI探索器agent,从示范任务出发系统探索查询空间,识别会导致用户敏感状态的GUI操作。现有LLM agent通常被微调为不管安全影响都完成任务,难以部署。论文定义了用户敏感状态和查询的分类,帮助工程人员在关键场景下识别并请求用户接管。实验在开放GUI环境中验证了方法的有效性。论文LLM agentsGUIAI安全智能体推荐理由:研究团队做了一个GUI探索器,自动找出那些需要你亲自操作的敏感界面,比直接让AI乱点安全多了。原文
11:01arXiv cs.AI@Shiyang Chen73°论文发现,长程 LLM 智能体依赖的上下文压缩机制会静默移除原本遵守的安全策略,导致违规行为。在 ConstraintRot 基准测试中,1323 个 episode 显示策略完整时违规率 0%,压缩后升至 30%,部分模型达 59%。攻击者还能通过对抗性注入诱导压缩器忽略合法策略。作者提出免训练的 Constraint Pinning 方法,将约束隔离在无损压缩外,恢复违规率至 0%。论文LLM agentsConstraintRotGovernance DecayAI安全智能体推荐理由:这篇论文揭示了上下文压缩让 LLM 智能体偷偷遗忘安全规则,还给了可防护方案,做 AI 安全的一定要看。原文